GitHub 的 Copilot 代码审查：人工智能能否在你提交之前发现安全漏洞？.pdfVIP

GitHub 的 Copilot 代码审查：人工智能能否在你提交之前发现安全漏洞？.pdf

GitHub的Copilot代码审查：人工智能能否

在你提交之前发现安全漏洞？

AmenaAmro,ManarH.Alalfi

DepartmentofComputerScience

TorontoMetropolitanUniversityToronto,ON,Canada

{amena.amro,manar.alalfi}@torontomu.ca

摘要—随着软件开发实践越来越多地采用AI驱动的工具，库和包中已知的漏洞。此外，还包括了一个有漏洞的网

确保这些工具能够支持安全编码变得至关重要。本研究评估了络服务和API[5]，以模拟现实的企业使用场景。所有

GitHubCopilot最近推出的代码审查功能在检测安全漏洞方数据集都提供了真实性的漏洞标签，我们将其用作基准

面的有效性。通过使用一组来自多个编程语言和应用领域的多

本来评估Copilot在代码审查过程中正确识别和标注安全

样化开源项目的标记易受攻击代码样本，我们系统性地评估了

译Copilot识别并提供反馈常见安全缺陷的能力。与预期相反，我问题的能力。

中们的结果显示，Copilot的代码审查经常无法检测到SQL注入、我们的评估集中在两个关键维度上：（1）Copilot在

1跨站脚本（XSS）和不安全反序列化等关键漏洞。取而代之的检测安全漏洞的代码审查准确性，以及（2）其反馈在帮

v是，它的反馈主要集中在低严重性问题上，例如编码风格和拼写助开发者理解和解决这些问题方面的清晰性和有用性。

5错误。这些发现揭示了AI辅助代码审查感知能力和实际支持安通过系统地分析Copilot在这些领域的表现，我们旨在

6全开发实践的有效性之间的显著差距。我们的结果强调了继续使

3揭示它作为安全审查助手的优势和局限性。最终，我们

1.用专用的安全工具和手动代码审计以确保软件安全性的必要性。的发现有助于更深入地了解当前AI辅助安全编码工具

9IndexTerms—代码助手，AI，代码审查，安全，网络安

0全，漏洞的能力，并为未来的改进方向提供信息。

2II.背景和相关工作

:I.介绍

vGitHubCopilot是由GitHub与OpenAI合作开

x在一个软件安全至关重要的时代，集成AI驱动的发的一款基于人工智能的代码补全和合成工具。它最

a工具如GitHubCopilot正在改变软件开发流程。虽然初是基于Codex运行的，Codex是一个大型语言模型

Copilot在代码生成和开发者辅助方面表现出强大的能（LLM），是在大量公共代码和自然语言语料库上训练

力，但它识别和缓解安全漏洞的有效性仍然不确定，特而成的。然而在2023年及以后，GitHubCopilot使用

别是随着其底层大型语言模型（LLMs）的持续演进[6]。了更先进的模型，如GPT-4[1]。最初发布时旨在通过

本研究调查了Copilot新推出的代码审查功能的表现，提供内联建议来帮助开发人员编写代码，Copilot最近

该功能截至2025年2月仍处于公开预览阶段。我们的扩展了其功能，包括自动化代码审查。截至2025年初，

目标是评估这一功能在检测源代码中的已知安全缺陷Copilot代码审查功能对通过拉取请求提交的代码更改

方面的能力。提供了自然语言反馈。该功能旨在模拟同行评审员的角