videosdk-live/agents

Open-source framework for developing real-time multimodal conversational AI agents.

GAI 中文摘要

VideoSDK AI Agents 是一个基于 Python 的开源开发框架，旨在简化生产级实时语音和多模态 AI 代理的构建过程。它通过集成音频流处理、语音活动检测、中断处理及媒体路由等复杂底层逻辑，使开发者能够专注于代理核心业务逻辑的开发，实现与 VideoSDK 实时房间的高效连接。

核心功能包括：支持从语音转文字、大模型交互到文字转语音的级联流水线模式，同时也适配 Gemini Live 等统一实时模型。自动处理语音活动检测、通话中断管理及自动打断机制，确保对话响应的自然流畅。提供直观的装饰器钩子系统，无需复杂子类化即可轻松拦截和转换管道各阶段的数据。通过统一的 Pipeline 类实现组件的灵活组合与执行模式自动优化。

该框架适用于需要开发实时语音助手、自动化客服机器人或视频会议 AI 助理的开发者和企业。主要使用场景包括在线教育、远程医疗咨询、客户服务自动化以及需要深度嵌入视频会议系统的交互式多模态智能体。

⭐

606

Stars

🔱

Forks

👁

Watchers

📋

Issues

PythonApache-2.0创建于 2025/5/2更新于今天

在 GitHub 上查看访问主页

README

由 Gemini 翻译整理

VideoSDK AI Agents

开源 Python 框架，用于构建生产级、实时的语音和多模态 AI Agent。

PyPI - Version

VideoSDK AI Agents 框架 是一个 Python SDK，旨在构建能够以实时参与者身份加入 VideoSDK 会议室的 AI Agent。它将你的 Agent 工作节点、AI 模型和用户设备连接到一个低延迟的单一流水线中，自动处理音频流、轮次检测（Turn Detection）、打断机制和媒体路由，让你能够专注于 Agent 的业务逻辑。

VideoSDK AI Agents 高层架构

概述

VideoSDK AI Agents 是一个 Python 框架，允许你构建直接参与 VideoSDK 会议室的语音和多模态 AI Agent。该框架管理 Agent 的完整生命周期——从加入会议室和处理实时音频，到运行 STT（语音转文字）→ LLM（大语言模型）→ TTS（文字转语音）流水线或连接到统一的实时模型，再到处理轮次检测、VAD（语音活动检测）、打断以及清理关闭。

v1.0.0 引入了统一的 Pipeline 类，取代了之前的 CascadingPipeline 和 RealtimePipeline。你可以传入 STT、LLM、TTS、VAD、轮次检测器、数字人等组件的任意组合，框架会自动将它们连接起来并选择最佳的执行模式。基于装饰器的钩子系统（@pipeline.on(...)）让你无需继承类即可在任何阶段拦截和转换数据。

🎙️ Cascade 模式 Agent：使用 Cascade 模式（STT → LLM → TTS）构建 AI 语音 Agent。
⚡ Realtime 模式 Agent：使用统一的实时模型（如 Gemini Live）构建 AI 语音 Agent。
💻 Agent 文档：VideoSDK Agent 官方文档。
📚 SDK 参考：Agent 框架的参考手册。

#	特性	描述
1	🎤 实时通信 (音/视频)	Agent 可以在会议中进行实时监听、发言和互动。
2	📞 SIP 与电话集成	通过 SIP 将 Agent 无缝连接到电话系统，实现呼叫处理、路由和 PSTN 访问。
3	🧍 虚拟数字人	构建或接入任何数字人提供商，框架自动处理音频路由、同步和清理。
4	🤖 多模型支持	集成 OpenAI、Gemini、AWS NovaSonic、Anthropic 等模型。
5	🧩 Cascade 模式	跨供应商组合任何 STT → LLM → TTS 链路，实现完全的控制和灵活性。
6	⚡ Realtime 模式	使用统一的实时模型（OpenAI Realtime、AWS Nova Sonic、Gemini Live）以获得最低延迟。
7	🔀 混合模式	混合使用 Cascade 和 Realtime 组件，例如结合自定义 STT 与实时模型，或实时模型配合自定义 TTS。
8	🪝 流水线钩子 (Hooks)	使用 `@pipeline.on(...)` 在流水线的任何阶段（STT、LLM、TTS、轮次）拦截并转换数据。
9	🛠️ 功能工具 (Tools)	通过任何外部工具或 API 调用扩展 Agent 能力。
10	🌐 MCP 集成	使用 Model Context Protocol (MCP) 将 Agent 连接到外部数据源和工具。
11	🔗 A2A 协议	基于关联请求追踪的可靠 Agent 对 Agent 路由。
12	🦜 LangChain & LangGraph	可将任何 LangChain `BaseChatModel` 或 LangGraph `StateGraph` 作为 Agent 的 LLM 使用。
13	📊 可观测性	内置指标、OpenTelemetry 追踪以及各组件的结构化日志记录。

[!IMPORTANT]

收藏 VideoSDK 仓库 ⭐️

获取新发布和更新的即时通知。你的支持有助于我们成长并改进 VideoSDK！

流水线模式

所有的 Agent 都围绕单一的 Pipeline 类构建。只需传入你的组件，SDK 就会自动选择正确的执行模式。

Cascade 模式 — STT → LLM → TTS

为每个阶段混合和匹配任何提供商。当你需要自定义 STT、特定的 LLM 行为或特定的 TTS 音色时，这是最佳方案。