Hasty Briefsbeta

双语

Improving Assembly Code Performance with LLMss via Reinforcement Learning

a year ago
  • #LLMs
  • #Code Optimization
  • #Reinforcement Learning
  • 大语言模型(LLMs)可通过强化学习优化汇编代码性能
  • 研究采用近端策略优化(PPO)的强化学习框架训练LLMs进行代码优化
  • 奖励函数同时评估功能正确性和相对于gcc -O3的运行时性能
  • 该研究引入了8,072个真实世界程序作为基准测试集
  • 模型Qwen2.5-Coder-7B-PPO测试通过率达96.0%,相较gcc -O3实现1.47倍加速
  • 该模型表现优于Claude-3.7-sonnet等20个参与评估的对比模型