GitHub - GetStream/Vision-Agents: Open Vision Agents by Stream. Build Vision Agents quickly with any model or video provider. Uses Stream's edge network for ultra-low latency.
a month ago
- #Real-time Processing
- #AI Integration
- #Video AI
- Vision Agents为智能、低延迟的视频体验提供构建模块,使用自定义模型和基础设施。
- 功能包括基于YOLO、Roboflow和Gemini/OpenAI的实时视频AI,延迟低于30毫秒,兼容任何视频边缘网络。
- 原生支持OpenAI、Gemini和Claude的API,并提供React、Android、iOS、Flutter、React Native和Unity的SDK。
- 应用示例包括高尔夫教练AI、安防摄像头系统,以及用于销售或求职面试辅导的隐形助手。
- 安装简单,只需'uv add vision-agents',并可选择集成多种服务。
- 关键特性:通过WebRTC实现真正实时、间隔/处理器流水线、转向检测、语音活动检测,以及通过Stream Chat内置记忆功能。
- 支持的插件包括AWS Bedrock、Deepgram、ElevenLabs、Gemini、OpenAI等,用于各种AI功能。
- 处理器管理状态并实时处理音频/视频,运行较小的模型并进行API调用。
- 演示应用展示情感故事讲述、实时稳定扩散、高尔夫教练、GeoGuesser、带RAG的电话系统以及安防系统。
- 当前视频AI的局限性包括难以识别小文本、长视频上下文丢失,以及需要将专用模型与大型模型结合使用。
- 该项目正在招聘一名高级Python工程师,以进一步开发语音和视频AI集成工具包。