Hasty Briefsbeta

双语

Can You Trust Code Copilots? Evaluating LLMs from a Code Security Perspec

a year ago

#Benchmark
#Code Security
#LLM

提出CoV-Eval多任务基准，用于评估大语言模型在代码补全、漏洞修复、检测与分类等任务中的代码安全能力
推出VC-Judge改进型评判模型，通过与人类专家对齐，更高效可靠地审查大语言模型生成的潜在漏洞程序
评估20个开源与专有大语言模型，发现其识别漏洞代码能力较强，但在生成安全代码和识别特定漏洞类型方面存在显著不足
通过大量实验与定性分析，揭示大语言模型代码安全领域的关键挑战，为未来研究指明优化方向