4x faster LLM inference (Flash Attention guy's company)
7 months ago
- #Inference Optimization
- #AI
- #Machine Learning
- ATLAS推出面向大语言模型推理的自适应学习推测系统,性能提升最高达4倍
- 与静态推测器不同,ATLAS在运行时动态改进,从历史和实时流量模式中学习
- ATLAS在DeepSeek-V3.1上实现500 TPS,在Kimi-K2上达460 TPS,超越标准解码及Groq等专用硬件
- 推测解码通过草稿模型提前生成候选token,经目标模型并行验证,从而加速推理
- ATLAS融合重型静态推测器与轻量自适应推测器,通过置信感知控制器实现最优性能
- 该系统在强化学习训练中表现突出,能适应策略演化,显著缩短推演时间
- ATLAS属于Together Turbo优化套件,可与量化、TurboBoost-TTFT等技术协同实现端到端加速
- 自适应系统在窄输入分布场景表现卓越,DeepSeek-V3.1上实现500 TPS的极致峰值效率
- Together AI正在招募研究科学家和工程师,共同推进高效AI部署