神经程序修复领域数据泄露问题的实证研究.pdf

神经程序修复领域数据泄露问题的实证研究.pdf

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

软件学报ISSN1000-9825,CODENRUXUEWE-mail:jos@

JournalofSoftware,2024,35(7):3071−3092[doi:10.13328/ki.jos.007110]

©中国科学院软件研究所版权所有.Tel:+86-10

神经程序修复领域数据泄露问题的实证研究

李卿源,钟文康,李传艺,葛季栋,骆斌

(计算机软件新技术国家重点实验室(南京大学),江苏南京210023)

通信作者:葛季栋,E-mail:gjd@

摘要:修复软件缺陷是软件工程领域一个无法回避的重要问题,而程序自动修复技术则旨在自动、准确且高效

地修复存在缺陷的程序,以缓解软件缺陷所带来的问题.近年来,随着深度学习的快速发展,程序自动修复领域

兴起了一种使用深度神经网络去自动捕捉缺陷程序及其补丁之间关系的方法,被称为神经程序修复.从在基准测

试上被正确修复的缺陷的数量上看,神经程序修复工具的修复性能已经显著超过了非学习的程序自动修复工具.

然而,近期有研究发现:神经程序修复系统性能的提升可能得益于测试数据在训练数据中存在,即数据泄露.受

此启发,为了进一步探究神经程序修复系统数据泄露的原因及影响,更公平地评估现有的系统:(1)对现有神经程

序修复系统进行了系统的分类和总结,根据分类结果定义了神经程序修复系统的数据泄露,并为每个类别的系统

设计了数据泄露的检测方法;(2)依照上一步骤中的数据泄露检测方法对现有模型展开了大规模检测,并探究了

数据泄露对模型真实性能与评估性能间差异的影响以及对模型本身的影响;(3)分析现有神经程序修复系统数据

集的收集和过滤策略,加以改进和补充,在现有流行的数据集上,基于改进后的策略构建了一个纯净的大规模程

序修复训练数据集,并验证了该数据集避免数据泄露的有效性.由实验结果发现:调研的10个神经程序修复系统

在基准测试集上均出现了数据泄露,其中,神经程序修复系统RewardRepair的数据泄露问题较为严重,在基准测

试集Defects4J(v1.2.0)上的数据泄露达24处,泄露比例高达53.33%.此外,数据泄露对神经程序修复系统的鲁棒

性也造成了影响,调研的5个神经程序修复系统均因数据泄露产生了鲁棒性降低的问题.由此可见,数据泄露是

一个十分常见的问题,且会使神经程序修复系统得到不公平的性能评估结果以及影响系统在基准测试集上的鲁棒

性.研究人员在训练神经程序修复模型时,应尽可能避免出现数据泄露,且要考虑数据泄露问题对神经程序修复

系统性能评估产生的影响,尽可能更公平地评估系统.

关键词:程序自动修复;神经程序修复;深度学习;数据泄露;程序修复数据集

中图法分类号:TP311

中文引用格式:李卿源,钟文康,李传艺,葛季栋,骆斌.神经程序修复领域数据泄露问题的实证研究.软件学报,2024,

35(7):3071–3092./1000-9825/7110.htm

英文引用格式:LiQY,ZhongWK,LiCY,GeJD,LuoB.EmpiricalStudyonDataLeakageProbleminNeuralProgramRepair.

RuanJianXueBa

文档评论(0)

186****0576 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5013000222000100

1亿VIP精品文档

相关文档