自主渗透测试：使用大型语言模型解决夺旗挑战.pdfVIP

下载本文档

0
0
约2.42万字
约 7页
2026-03-09 发布于北京
举报

自主渗透测试：使用大型语言模型解决夺旗挑战.pdf

自主渗透测试：使用大型语言模型解决夺旗

挑战

IsabelleBakkerJohnHastings

TheBeacomCollegeofComputerandCyberSciencesTheBeacomCollegeofComputerandCyberSciences

DakotaStateUniversityDakotaStateUniversity

Madison,SD,USAMadison,SD,USA

isabelle.bakker@john.hastings@

摘要—本研究评估了GPT-4o自主解决入门级进攻安全任作为一种新兴技术，人们担心大型语言模型可能会

本务的能力，通过将模型连接到OverTheWire的Bandit夺旗协助或完成网络安全漏洞利用，尤其是在大型语言模型

译游戏中进行测试。在技术上与单命令SSH框架兼容的25个级自身存在漏洞并且对公众开放的情况下[2],[3]。尽管如

别中，GPT-4o解决了18个级别的问题，并且在最小提示引导

中此，与该技术的其他类型研究相比，利用大型语言模型

下又解决了另外两个级别，总体成功率为80%。该模型在涉及

1Linux文件系统导航、数据提取或解码以及简单的网络操作这来完成网络安全挑战的研究相对较少。大型语言模型的

4类单步骤挑战上表现优异。这种方法通常能够一次生成正确的命新颖性和快速发展以及这一研究空白意味着“是否可以

5令并以超越人类的速度完成任务。失败案例包括需要持久工作目仅使用提示自动利用网络安全漏洞？”这个问题仍然难

1录的多命令场景、复杂的网络侦察、守护进程创建或与非标准外以回答。

0壳程序交互的情况。这些限制突显了当前架构上的不足，而不是

.本研究旨在通过将大型语言模型GPT-4o[4]连接

8缺乏一般性的漏洞利用知识。结果表明，大型语言模型（LLMs）

0可以自动化新手渗透测试流程的很大一部分内容，这可能降低攻到一组网络服务器上托管的网络安全夺旗(CTF)挑战

5击者的专业知识门槛，并为使用LLMs作为快速侦察辅助工具来提供对该想法的洞察，这些挑战通常推荐给新手。此

:的防御者带来生产率提升。此外，未解决的任务揭示了在设计安外，测试一个突出且公开访问的大型语言模型在一系列

i全环境中特定区域可能会挫败简单的LLM驱动攻击，这些信息初级任务上的表现可以揭示这些模型在更复杂场景中

r可用于未来的强化策略制定中。除了进攻型网络安全应用外，研的可能性能。以下研究问题指导了这项研究：

究结果还表明，有可能将LLMs整合到网络安全教育中作为练

RQ1:使用仅提示输入的方式，LLM能够自主解决

习辅助工具。

IndexTerms—大型语言模型（LLMs）、进攻性网络安全、CTF平台上初级水平的进攻安全挑战的程度

夺旗（CTF）挑战、GPT-4o、渗透测试自动化是多少？

RQ2:哪些类型的网络安全挑战可以被大型语言模

型成功解决，哪些类型是存在问题的？

I.介绍

RQ3:在解决CTF挑战时，LLM会遇到哪些限制？

语言模型长期以来一直是与自然语言处理和生成

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

自主渗透测试：使用大型语言模型解决夺旗挑战.pdfVIP