Hasty Briefsbeta

双语

GitHub - GetStream/Vision-Agents: Open Vision Agents by Stream. Build Vision Agents quickly with any model or video provider. Uses Stream's edge network for ultra-low latency.

a month ago
  • #Real-time Processing
  • #AI Integration
  • #Video AI
  • Vision Agents为智能、低延迟的视频体验提供构建模块,使用自定义模型和基础设施。
  • 功能包括基于YOLO、Roboflow和Gemini/OpenAI的实时视频AI,延迟低于30毫秒,兼容任何视频边缘网络。
  • 原生支持OpenAI、Gemini和Claude的API,并提供React、Android、iOS、Flutter、React Native和Unity的SDK。
  • 应用示例包括高尔夫教练AI、安防摄像头系统,以及用于销售或求职面试辅导的隐形助手。
  • 安装简单,只需'uv add vision-agents',并可选择集成多种服务。
  • 关键特性:通过WebRTC实现真正实时、间隔/处理器流水线、转向检测、语音活动检测,以及通过Stream Chat内置记忆功能。
  • 支持的插件包括AWS Bedrock、Deepgram、ElevenLabs、Gemini、OpenAI等,用于各种AI功能。
  • 处理器管理状态并实时处理音频/视频,运行较小的模型并进行API调用。
  • 演示应用展示情感故事讲述、实时稳定扩散、高尔夫教练、GeoGuesser、带RAG的电话系统以及安防系统。
  • 当前视频AI的局限性包括难以识别小文本、长视频上下文丢失,以及需要将专用模型与大型模型结合使用。
  • 该项目正在招聘一名高级Python工程师,以进一步开发语音和视频AI集成工具包。