Hasty Briefsbeta

双语

Chess engines do weird stuff

3 months ago

#machine-learning
#chess-engines
#reinforcement-learning

棋类引擎可以通过强化学习进行训练，让引擎自我对弈并预测比赛结果，但从劣质模型+搜索中提取知识到优质模型的蒸馏方法效率更高。
搜索蒸馏技术效果显著，相比强化学习中的n选优方法有重大改进，从而降低了对实时搜索的依赖。
一项新技术实现了运行时蒸馏，使网络能根据搜索结果动态调整评估值，实现实时自适应。
训练目标聚焦于获胜而非单纯局面评估，由此催生了像SPSA这样的技术——通过随机扰动权重来寻找致胜方向。
SPSA虽然计算成本高但效果显著，带来的ELO等级分提升相当于增大模型规模或数年开发成果。
SPSA可调整棋类程序中任何参数（包括C++代码中的启发式数值），以获胜结果为优化目标。
lc0采用带有'smolgen'注意力偏置的Transformer架构，虽吞吐量有所下降，但准确性获得显著提升。