Hasty Briefsbeta

双语

Improving Assembly Code Performance with LLMss via Reinforcement Learning

a year ago

#LLMs
#Code Optimization
#Reinforcement Learning

大语言模型（LLMs）可通过强化学习优化汇编代码性能
研究采用近端策略优化（PPO）的强化学习框架训练LLMs进行代码优化
奖励函数同时评估功能正确性和相对于gcc -O3的运行时性能
该研究引入了8,072个真实世界程序作为基准测试集
模型Qwen2.5-Coder-7B-PPO测试通过率达96.0%，相较gcc -O3实现1.47倍加速
该模型表现优于Claude-3.7-sonnet等20个参与评估的对比模型