Hasty Briefsbeta

双语

Mercury 2: Diffusion Reasoning Model

15 hours ago
  • #AI
  • #LLM
  • #Diffusion
  • Mercury 2被宣称为全球最快的推理语言模型,专为即时生产级AI设计
  • 在生产环境中,速度至关重要,因为像智能体和检索管道这类循环操作会产生延迟累积效应
  • Mercury 2采用基于扩散的并行优化技术实现更快生成,可同时产生多个token
  • 相比自回归模型,其生成速度提升5倍以上,彻底改变了推理效率的权衡关系
  • 核心特性包括:1,009 tokens/秒的生成速度、具有竞争力的质量、128K上下文窗口及原生工具调用能力
  • 针对高并发场景优化,在95%请求中保持极低延迟,确保实时响应
  • 英伟达特别强调Mercury 2在其GPU上的表现,生成速度突破1,000 tokens/秒
  • 在编码、智能体循环、实时语音和搜索管道等延迟敏感型应用中表现卓越
  • 合作伙伴与客户盛赞其速度优势、输出质量及对工作流程的变革性影响
  • Mercury 2兼容OpenAI API接口,现已开放企业级评估申请