Hasty Briefsbeta

双语

Cerebras achieves 2,500T/s on Llama 4 Maverick (400B)

a year ago

#AI
#Inference
#LLM

Cerebras以每秒超过2,500个token（TPS）的速度在4000亿参数的Llama 4 Maverick模型上创造了LLM推理速度的世界纪录
其性能超越NVIDIA Blackwell（1,038 TPS）两倍有余
独立基准测试机构Artificial Analysis验证了该结果，而SambaNova、亚马逊、Groq、谷歌和微软Azure等厂商均落后
Cerebras CEO安德鲁·费尔德曼强调推理速度对智能体、代码生成和复杂推理等企业级AI应用至关重要
与NVIDIA仅限少数用户的定制软件优化不同，Cerebras的硬件和API现已全面开放
该成绩未使用特殊内核优化，未来将通过Meta的API服务开放
在推理、语音和智能体工作流等场景中，响应迟缓将导致客户流失，速度成为核心竞争力
Cerebras凭借破纪录表现，正成为全球开发者和企业AI用户的首选平台