Hasty Briefsbeta

双语

M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models

a year ago
  • #Mamba Architecture
  • #Reasoning Models
  • #Machine Learning
  • 介绍M1——基于Mamba架构的混合线性RNN推理模型,专为内存高效推理而设计
  • 通过蒸馏现有推理模型和强化学习训练来提升性能
  • 在AIME和MATH基准测试中超越以往线性RNN模型,性能媲美最先进的Deepseek R1蒸馏推理模型
  • 使用vLLM时相比同规模Transformer实现3倍以上加速,在固定生成时间预算下可获得更高准确率
  • 提出通过自洽性验证或长链思维推理扩展测试时生成的有效方法