Hasty Briefsbeta

双语

The First Fully General Computer Action Model

2 days ago
  • #AI
  • #Machine Learning
  • #Computer Vision
  • FDM-1是计算机使用的基础模型,基于1100万小时的屏幕录制数据进行训练
  • 该模型采用逆向动力学模型(IDM)来标记按键和鼠标移动等操作
  • 视频编码器可将近2小时的30帧/秒视频压缩为100万token,效率比现有方法提升50倍
  • FDM-1能处理CAD设计、金融分析、工程制图等长上下文任务,且规模越大表现越好
  • 训练分为三个阶段:IDM训练、视频语料标注、前向动力学模型(FDM)的自回归训练
  • 视频编码器采用掩码压缩目标,实现高压缩率同时保留语义细节
  • 评估体系包含8万个分叉虚拟机,支持可扩展测试
  • FDM-1在物体分割、3D建模、自动驾驶测试等任务中表现优异
  • 该模型将计算机操作从数据受限模式转变为算力受限模式
  • 未来研究将着力解决通用学习模型的技术对齐难题