Hasty Briefsbeta

双语

Step 3.5 Flash: Fast Enough to Think. Reliable Enough to Act

9 days ago
  • #AI
  • #Machine Learning
  • #Foundation Models
  • 3.5 Flash是一款拥有1960亿参数的开源基础模型,每token仅激活110亿参数,具备高效推理和智能体能力。
  • 通过多token预测技术(MTP-3)驱动,实现100-300 tok/s的生成吞吐量,兼具深度推理与高速响应。
  • 在编程和智能体任务中表现卓越:SWE-bench Verified得分74.4%,Terminal-Bench 2.0得分51.0%。
  • 采用3:1滑动窗口注意力机制(SWA),支持经济高效的256K上下文窗口。
  • 针对高端消费级硬件优化,如Mac Studio M4 Max和NVIDIA DGX Spark本地部署场景。
  • 展现卓越的工具调用能力,可无缝集成MCP完成股票投资等复杂任务编排。
  • 在顶尖数理逻辑基准测试中表现优异:AIME 2025(99.8分)/HMMT 2025 Nov.(98.0分)。
  • 支持智能编程代理,能将复杂需求分解为代码库中的可执行步骤。
  • 深度研究任务得分65.27%(Scale AI研究评估体系)。
  • 配备多智能体协同框架,可处理复杂工作流。
  • 支持边缘-云端协同计算,在AndroidDaily Hard等复杂场景中提升表现。
  • 交互可靠性强,具备主动意图澄清和专业顾问能力。
  • 基于稀疏专家混合架构(MoE),解码和推理速度经过专项优化。
  • 可扩展强化学习框架(MIS-PO)确保长期稳定的自我迭代优化。
  • 与顶级开源模型对比测试显示,在推理/编程/智能体能力维度均表现强劲。
  • 已知问题包括对生成长轨迹的依赖,以及在专业领域稳定性略有下降。