Hasty Briefsbeta

双语

Show HN: How I Topped the HuggingFace Open LLM Leaderboard on Two Gaming GPUs

2 months ago

#LLM
#Transformer
#Neuroanatomy

作者通过在720亿参数模型中复制七个中间层而不改变任何权重，登顶了HuggingFace开放大语言模型排行榜。
关键发现包括模型能有效处理Base64输入输出，表明早期层充当翻译器而后期层充当反翻译器。
Goliath-120b模型非常规的层排列证明Transformer层比预想的更具可互换性。
作者开发了'大脑扫描仪'来验证假设——通过复制层结构并测量数学和情商探针的表现。
在Qwen2-72B模型中复制45至52层达到最佳效果，由此产生的780亿参数模型被命名为RYS-XLarge。
该方法在多项基准测试中提升表现，其中MuSR提升17.72%，MATH提升8.16%，且无需微调。
热力图显示Transformer模型的中间层存在完整认知运算的功能回路。
作者指出微调复制层间的连接处可进一步提升性能，且不增加显存消耗。
后续登顶排行榜的微调模型验证了该方法的有效性。