GitHub - bytedance/UI-TARS-desktop: The Open-Source Multimodal AI Agent Stack: Connecting Cutting-Edge AI Models and Agent Infra
20 days ago
- #Multimodal
- #Automation
- #AI Agent
- TARS* 是一个多模态AI智能体技术栈,包含两大核心项目:Agent TARS智能体和UI-TARS桌面端
- Agent TARS是通用多模态AI智能体技术栈,将图形界面(GUI)智能体与视觉能力集成到终端、计算机、浏览器及各类产品中
- 该智能体提供CLI命令行与Web UI界面,通过多模态大语言模型和MCP工具链整合实现类人类任务执行
- UI-TARS桌面端是原生GUI智能体应用,支持本地及远程计算机与浏览器操作
- 近期更新包括:Agent TARS CLI v0.3.0版本新增流式传输支持、运行时设置及一体化智能体沙箱功能
- UI-TARS桌面端v0.2.0推出远程计算机与浏览器操作器,简化远程控制流程
- UI-TARS SDK是跨平台GUI自动化智能体开发工具包
- Agent TARS支持混合浏览器控制、事件流处理及MCP深度集成
- UI-TARS桌面端具备自然语言控制、视觉识别和跨平台兼容特性
- 本项目采用Apache 2.0开源协议,欢迎研究引用