Can You Trust Code Copilots? Evaluating LLMs from a Code Security Perspec
a year ago
- #Benchmark
- #Code Security
- #LLM
- 提出CoV-Eval多任务基准,用于评估大语言模型在代码补全、漏洞修复、检测与分类等任务中的代码安全能力
- 推出VC-Judge改进型评判模型,通过与人类专家对齐,更高效可靠地审查大语言模型生成的潜在漏洞程序
- 评估20个开源与专有大语言模型,发现其识别漏洞代码能力较强,但在生成安全代码和识别特定漏洞类型方面存在显著不足
- 通过大量实验与定性分析,揭示大语言模型代码安全领域的关键挑战,为未来研究指明优化方向