Show HN: How I Topped the HuggingFace Open LLM Leaderboard on Two Gaming GPUs
2 months ago
- #LLM
- #Transformer
- #Neuroanatomy
- 作者通过在720亿参数模型中复制七个中间层而不改变任何权重,登顶了HuggingFace开放大语言模型排行榜。
- 关键发现包括模型能有效处理Base64输入输出,表明早期层充当翻译器而后期层充当反翻译器。
- Goliath-120b模型非常规的层排列证明Transformer层比预想的更具可互换性。
- 作者开发了'大脑扫描仪'来验证假设——通过复制层结构并测量数学和情商探针的表现。
- 在Qwen2-72B模型中复制45至52层达到最佳效果,由此产生的780亿参数模型被命名为RYS-XLarge。
- 该方法在多项基准测试中提升表现,其中MuSR提升17.72%,MATH提升8.16%,且无需微调。
- 热力图显示Transformer模型的中间层存在完整认知运算的功能回路。
- 作者指出微调复制层间的连接处可进一步提升性能,且不增加显存消耗。
- 后续登顶排行榜的微调模型验证了该方法的有效性。