Hasty Briefsbeta

双语

Chess engines do weird stuff

3 months ago
  • #machine-learning
  • #chess-engines
  • #reinforcement-learning
  • 棋类引擎可以通过强化学习进行训练,让引擎自我对弈并预测比赛结果,但从劣质模型+搜索中提取知识到优质模型的蒸馏方法效率更高。
  • 搜索蒸馏技术效果显著,相比强化学习中的n选优方法有重大改进,从而降低了对实时搜索的依赖。
  • 一项新技术实现了运行时蒸馏,使网络能根据搜索结果动态调整评估值,实现实时自适应。
  • 训练目标聚焦于获胜而非单纯局面评估,由此催生了像SPSA这样的技术——通过随机扰动权重来寻找致胜方向。
  • SPSA虽然计算成本高但效果显著,带来的ELO等级分提升相当于增大模型规模或数年开发成果。
  • SPSA可调整棋类程序中任何参数(包括C++代码中的启发式数值),以获胜结果为优化目标。
  • lc0采用带有'smolgen'注意力偏置的Transformer架构,虽吞吐量有所下降,但准确性获得显著提升。