The First Fully General Computer Action Model
2 days ago
- #AI
- #Machine Learning
- #Computer Vision
- FDM-1是计算机使用的基础模型,基于1100万小时的屏幕录制数据进行训练
- 该模型采用逆向动力学模型(IDM)来标记按键和鼠标移动等操作
- 视频编码器可将近2小时的30帧/秒视频压缩为100万token,效率比现有方法提升50倍
- FDM-1能处理CAD设计、金融分析、工程制图等长上下文任务,且规模越大表现越好
- 训练分为三个阶段:IDM训练、视频语料标注、前向动力学模型(FDM)的自回归训练
- 视频编码器采用掩码压缩目标,实现高压缩率同时保留语义细节
- 评估体系包含8万个分叉虚拟机,支持可扩展测试
- FDM-1在物体分割、3D建模、自动驾驶测试等任务中表现优异
- 该模型将计算机操作从数据受限模式转变为算力受限模式
- 未来研究将着力解决通用学习模型的技术对齐难题