Hasty Briefsbeta

双语

GPT-OSS vs. Qwen3 and a detailed look how things evolved since GPT-2

9 months ago

#LLM
#architecture
#OpenAI

OpenAI发布了新的开源权重语言模型：gpt-oss-120b和gpt-oss-20b，这是自2019年GPT-2以来首次发布的开源模型。
该架构包含MXFP4量化等优化技术，使模型能在单块GPU上本地运行。
与GPT-2相比的关键架构变化包括：移除dropout、使用RoPE进行位置嵌入、用Swish/SwiGLU替代GELU。
混合专家系统（MoE）取代了单一前馈模块，在保持推理效率的同时提升了模型容量。
分组查询注意力（GQA）和滑动窗口注意力机制提升了计算效率。
RMSNorm替代LayerNorm以提升训练效率。
与Qwen3的对比显示出在宽度与深度、专家配置等方面的差异。
gpt-oss模型支持通过系统提示调整推理力度（低/中/高）。
基准测试显示gpt-oss虽体积更小，但与专有模型和Qwen3相比仍具竞争力。
GPT-5在gpt-oss发布后不久推出，而gpt-oss在对比中表现出乎意料地优异。