Hasty Briefsbeta

双语

The First Fully General Computer Action Model

3 months ago

#AI
#Machine Learning
#Computer Vision

FDM-1是计算机使用的基础模型，基于1100万小时的屏幕录制数据进行训练
该模型采用逆向动力学模型(IDM)来标记按键和鼠标移动等操作
视频编码器可将近2小时的30帧/秒视频压缩为100万token，效率比现有方法提升50倍
FDM-1能处理CAD设计、金融分析、工程制图等长上下文任务，且规模越大表现越好
训练分为三个阶段：IDM训练、视频语料标注、前向动力学模型(FDM)的自回归训练
视频编码器采用掩码压缩目标，实现高压缩率同时保留语义细节
评估体系包含8万个分叉虚拟机，支持可扩展测试
FDM-1在物体分割、3D建模、自动驾驶测试等任务中表现优异
该模型将计算机操作从数据受限模式转变为算力受限模式
未来研究将着力解决通用学习模型的技术对齐难题