Improving Assembly Code Performance with LLMss via Reinforcement Learning
a year ago
- #LLMs
- #Code Optimization
- #Reinforcement Learning
- 大语言模型(LLMs)可通过强化学习优化汇编代码性能
- 研究采用近端策略优化(PPO)的强化学习框架训练LLMs进行代码优化
- 奖励函数同时评估功能正确性和相对于gcc -O3的运行时性能
- 该研究引入了8,072个真实世界程序作为基准测试集
- 模型Qwen2.5-Coder-7B-PPO测试通过率达96.0%,相较gcc -O3实现1.47倍加速
- 该模型表现优于Claude-3.7-sonnet等20个参与评估的对比模型