Hasty Briefsbeta

双语

Can You Trust Code Copilots? Evaluating LLMs from a Code Security Perspec

a year ago
  • #Benchmark
  • #Code Security
  • #LLM
  • 提出CoV-Eval多任务基准,用于评估大语言模型在代码补全、漏洞修复、检测与分类等任务中的代码安全能力
  • 推出VC-Judge改进型评判模型,通过与人类专家对齐,更高效可靠地审查大语言模型生成的潜在漏洞程序
  • 评估20个开源与专有大语言模型,发现其识别漏洞代码能力较强,但在生成安全代码和识别特定漏洞类型方面存在显著不足
  • 通过大量实验与定性分析,揭示大语言模型代码安全领域的关键挑战,为未来研究指明优化方向