Hasty Briefsbeta

双语

GPT-OSS vs. Qwen3 and a detailed look how things evolved since GPT-2

9 months ago
  • #LLM
  • #architecture
  • #OpenAI
  • OpenAI发布了新的开源权重语言模型:gpt-oss-120b和gpt-oss-20b,这是自2019年GPT-2以来首次发布的开源模型。
  • 该架构包含MXFP4量化等优化技术,使模型能在单块GPU上本地运行。
  • 与GPT-2相比的关键架构变化包括:移除dropout、使用RoPE进行位置嵌入、用Swish/SwiGLU替代GELU。
  • 混合专家系统(MoE)取代了单一前馈模块,在保持推理效率的同时提升了模型容量。
  • 分组查询注意力(GQA)和滑动窗口注意力机制提升了计算效率。
  • RMSNorm替代LayerNorm以提升训练效率。
  • 与Qwen3的对比显示出在宽度与深度、专家配置等方面的差异。
  • gpt-oss模型支持通过系统提示调整推理力度(低/中/高)。
  • 基准测试显示gpt-oss虽体积更小,但与专有模型和Qwen3相比仍具竞争力。
  • GPT-5在gpt-oss发布后不久推出,而gpt-oss在对比中表现出乎意料地优异。