10 months ago
- AI Agent SDK 是一个用于开发实时多模态对话式AI代理的Python框架
- 它支持AI驱动的智能体以参与者身份加入VideoSDK房间,实现无缝的语音和媒体交互
- 核心功能包括实时音视频通信、SIP和电话系统集成、虚拟形象、多模型支持以及对话流程管理
- 该SDK支持与多种AI模型和工具集成,如OpenAI、Gemini、AWS NovaSonic等
- 部署需要VideoSDK认证令牌、会议ID、Python 3.12+版本以及OpenAI或Google等第三方服务的API密钥
- 开发者可通过继承基础Agent类创建自定义语音代理,并通过定义功能工具扩展能力
- 框架支持使用@function_tool装饰器开发外部和内部功能工具
- 典型应用场景包括医院预约挂号、航班酒店查询、带虚拟形象的天气查询以及电商场景
- 欢迎贡献代码,包括反馈问题、修复漏洞、新增功能、开发插件或改进文档
- 提供定制化STT(语音转文本)、LLM(大语言模型)或TTS(文本转语音)插件的开发指南以扩展框架功能