GPT-OSS vs. Qwen3 and a detailed look how things evolved since GPT-2
9 months ago
- #LLM
- #architecture
- #OpenAI
- OpenAI发布了新的开源权重语言模型:gpt-oss-120b和gpt-oss-20b,这是自2019年GPT-2以来首次发布的开源模型。
- 该架构包含MXFP4量化等优化技术,使模型能在单块GPU上本地运行。
- 与GPT-2相比的关键架构变化包括:移除dropout、使用RoPE进行位置嵌入、用Swish/SwiGLU替代GELU。
- 混合专家系统(MoE)取代了单一前馈模块,在保持推理效率的同时提升了模型容量。
- 分组查询注意力(GQA)和滑动窗口注意力机制提升了计算效率。
- RMSNorm替代LayerNorm以提升训练效率。
- 与Qwen3的对比显示出在宽度与深度、专家配置等方面的差异。
- gpt-oss模型支持通过系统提示调整推理力度(低/中/高)。
- 基准测试显示gpt-oss虽体积更小,但与专有模型和Qwen3相比仍具竞争力。
- GPT-5在gpt-oss发布后不久推出,而gpt-oss在对比中表现出乎意料地优异。