Mercury 2: Diffusion Reasoning Model
15 hours ago
- #AI
- #LLM
- #Diffusion
- Mercury 2被宣称为全球最快的推理语言模型,专为即时生产级AI设计
- 在生产环境中,速度至关重要,因为像智能体和检索管道这类循环操作会产生延迟累积效应
- Mercury 2采用基于扩散的并行优化技术实现更快生成,可同时产生多个token
- 相比自回归模型,其生成速度提升5倍以上,彻底改变了推理效率的权衡关系
- 核心特性包括:1,009 tokens/秒的生成速度、具有竞争力的质量、128K上下文窗口及原生工具调用能力
- 针对高并发场景优化,在95%请求中保持极低延迟,确保实时响应
- 英伟达特别强调Mercury 2在其GPU上的表现,生成速度突破1,000 tokens/秒
- 在编码、智能体循环、实时语音和搜索管道等延迟敏感型应用中表现卓越
- 合作伙伴与客户盛赞其速度优势、输出质量及对工作流程的变革性影响
- Mercury 2兼容OpenAI API接口,现已开放企业级评估申请