Hasty Briefsbeta

双语

Mercury 2: Diffusion Reasoning Model

3 months ago

#AI
#LLM
#Diffusion

Mercury 2被宣称为全球最快的推理语言模型，专为即时生产级AI设计
在生产环境中，速度至关重要，因为像智能体和检索管道这类循环操作会产生延迟累积效应
Mercury 2采用基于扩散的并行优化技术实现更快生成，可同时产生多个token
相比自回归模型，其生成速度提升5倍以上，彻底改变了推理效率的权衡关系
核心特性包括：1,009 tokens/秒的生成速度、具有竞争力的质量、128K上下文窗口及原生工具调用能力
针对高并发场景优化，在95%请求中保持极低延迟，确保实时响应
英伟达特别强调Mercury 2在其GPU上的表现，生成速度突破1,000 tokens/秒
在编码、智能体循环、实时语音和搜索管道等延迟敏感型应用中表现卓越
合作伙伴与客户盛赞其速度优势、输出质量及对工作流程的变革性影响
Mercury 2兼容OpenAI API接口，现已开放企业级评估申请