Hasty Briefsbeta

双语

4x faster LLM inference (Flash Attention guy's company)

7 months ago

#Inference Optimization
#AI
#Machine Learning

ATLAS推出面向大语言模型推理的自适应学习推测系统，性能提升最高达4倍
与静态推测器不同，ATLAS在运行时动态改进，从历史和实时流量模式中学习
ATLAS在DeepSeek-V3.1上实现500 TPS，在Kimi-K2上达460 TPS，超越标准解码及Groq等专用硬件
推测解码通过草稿模型提前生成候选token，经目标模型并行验证，从而加速推理
ATLAS融合重型静态推测器与轻量自适应推测器，通过置信感知控制器实现最优性能
该系统在强化学习训练中表现突出，能适应策略演化，显著缩短推演时间
ATLAS属于Together Turbo优化套件，可与量化、TurboBoost-TTFT等技术协同实现端到端加速
自适应系统在窄输入分布场景表现卓越，DeepSeek-V3.1上实现500 TPS的极致峰值效率
Together AI正在招募研究科学家和工程师，共同推进高效AI部署