Hasty Briefsbeta

双语

4x faster LLM inference (Flash Attention guy's company)

7 months ago
  • #Inference Optimization
  • #AI
  • #Machine Learning
  • ATLAS推出面向大语言模型推理的自适应学习推测系统,性能提升最高达4倍
  • 与静态推测器不同,ATLAS在运行时动态改进,从历史和实时流量模式中学习
  • ATLAS在DeepSeek-V3.1上实现500 TPS,在Kimi-K2上达460 TPS,超越标准解码及Groq等专用硬件
  • 推测解码通过草稿模型提前生成候选token,经目标模型并行验证,从而加速推理
  • ATLAS融合重型静态推测器与轻量自适应推测器,通过置信感知控制器实现最优性能
  • 该系统在强化学习训练中表现突出,能适应策略演化,显著缩短推演时间
  • ATLAS属于Together Turbo优化套件,可与量化、TurboBoost-TTFT等技术协同实现端到端加速
  • 自适应系统在窄输入分布场景表现卓越,DeepSeek-V3.1上实现500 TPS的极致峰值效率
  • Together AI正在招募研究科学家和工程师,共同推进高效AI部署