Hasty Briefsbeta

双语

Cerebras achieves 2,500T/s on Llama 4 Maverick (400B)

a year ago
  • #AI
  • #Inference
  • #LLM
  • Cerebras以每秒超过2,500个token(TPS)的速度在4000亿参数的Llama 4 Maverick模型上创造了LLM推理速度的世界纪录
  • 其性能超越NVIDIA Blackwell(1,038 TPS)两倍有余
  • 独立基准测试机构Artificial Analysis验证了该结果,而SambaNova、亚马逊、Groq、谷歌和微软Azure等厂商均落后
  • Cerebras CEO安德鲁·费尔德曼强调推理速度对智能体、代码生成和复杂推理等企业级AI应用至关重要
  • 与NVIDIA仅限少数用户的定制软件优化不同,Cerebras的硬件和API现已全面开放
  • 该成绩未使用特殊内核优化,未来将通过Meta的API服务开放
  • 在推理、语音和智能体工作流等场景中,响应迟缓将导致客户流失,速度成为核心竞争力
  • Cerebras凭借破纪录表现,正成为全球开发者和企业AI用户的首选平台