Cerebras achieves 2,500T/s on Llama 4 Maverick (400B)
a year ago
- #AI
- #Inference
- #LLM
- Cerebras以每秒超过2,500个token(TPS)的速度在4000亿参数的Llama 4 Maverick模型上创造了LLM推理速度的世界纪录
- 其性能超越NVIDIA Blackwell(1,038 TPS)两倍有余
- 独立基准测试机构Artificial Analysis验证了该结果,而SambaNova、亚马逊、Groq、谷歌和微软Azure等厂商均落后
- Cerebras CEO安德鲁·费尔德曼强调推理速度对智能体、代码生成和复杂推理等企业级AI应用至关重要
- 与NVIDIA仅限少数用户的定制软件优化不同,Cerebras的硬件和API现已全面开放
- 该成绩未使用特殊内核优化,未来将通过Meta的API服务开放
- 在推理、语音和智能体工作流等场景中,响应迟缓将导致客户流失,速度成为核心竞争力
- Cerebras凭借破纪录表现,正成为全球开发者和企业AI用户的首选平台