Hasty Briefsbeta

双语

GitHub - bytedance/UI-TARS-desktop: The Open-Source Multimodal AI Agent Stack: Connecting Cutting-Edge AI Models and Agent Infra

20 days ago
  • #Multimodal
  • #Automation
  • #AI Agent
  • TARS* 是一个多模态AI智能体技术栈,包含两大核心项目:Agent TARS智能体和UI-TARS桌面端
  • Agent TARS是通用多模态AI智能体技术栈,将图形界面(GUI)智能体与视觉能力集成到终端、计算机、浏览器及各类产品中
  • 该智能体提供CLI命令行与Web UI界面,通过多模态大语言模型和MCP工具链整合实现类人类任务执行
  • UI-TARS桌面端是原生GUI智能体应用,支持本地及远程计算机与浏览器操作
  • 近期更新包括:Agent TARS CLI v0.3.0版本新增流式传输支持、运行时设置及一体化智能体沙箱功能
  • UI-TARS桌面端v0.2.0推出远程计算机与浏览器操作器,简化远程控制流程
  • UI-TARS SDK是跨平台GUI自动化智能体开发工具包
  • Agent TARS支持混合浏览器控制、事件流处理及MCP深度集成
  • UI-TARS桌面端具备自然语言控制、视觉识别和跨平台兼容特性
  • 本项目采用Apache 2.0开源协议,欢迎研究引用