GitHub - GetStream/Vision-Agents: Open Vision Agents by Stream. Build Vision Agents quickly with any model or video provider. Uses Stream's edge network for ultra-low latency.

2 months ago

Vision Agents为智能、低延迟的视频体验提供构建模块，使用自定义模型和基础设施。
功能包括基于YOLO、Roboflow和Gemini/OpenAI的实时视频AI，延迟低于30毫秒，兼容任何视频边缘网络。
原生支持OpenAI、Gemini和Claude的API，并提供React、Android、iOS、Flutter、React Native和Unity的SDK。
应用示例包括高尔夫教练AI、安防摄像头系统，以及用于销售或求职面试辅导的隐形助手。
安装简单，只需'uv add vision-agents'，并可选择集成多种服务。
关键特性：通过WebRTC实现真正实时、间隔/处理器流水线、转向检测、语音活动检测，以及通过Stream Chat内置记忆功能。
支持的插件包括AWS Bedrock、Deepgram、ElevenLabs、Gemini、OpenAI等，用于各种AI功能。
处理器管理状态并实时处理音频/视频，运行较小的模型并进行API调用。
演示应用展示情感故事讲述、实时稳定扩散、高尔夫教练、GeoGuesser、带RAG的电话系统以及安防系统。
当前视频AI的局限性包括难以识别小文本、长视频上下文丢失，以及需要将专用模型与大型模型结合使用。
该项目正在招聘一名高级Python工程师，以进一步开发语音和视频AI集成工具包。

Hasty Briefsbeta