- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第40卷第7期算机仿真2023年7月
文章编号:1006-9348(2023)07-0331-06
基于特征优选的软件缺陷预测集成学习方法
卫梅特,任洪敏
(上海海事大学信息工程学院,上海201306)
摘要:软件缺陷预测已经成为软件工程领域一个重要的研究方向,目前对数据集处理的方法存在特征穴余、类不平衡和特征
相关性低的情况,很大程度影响了软件缺陷预测模型的分类性能。针对以上问题,对NASAMDP数据集中8个数据子集的
45943条特征向量进行研究,提出了基于特征优选的软件缺陷预测集成学习方法。首先,通过合成少数类过采样技术
(SMOTE)对少数类样本进行分析并根据少数类样本合成新样本添加到数据集中。然后,通过信息增益(IG)分析数据集的
特征属性,并且根据分析结果对特征属性进行选择。最后,使用集成学习算法Stacking构建学习器,其中初级学习器是逻辑
回归(LG)和决策树(J48)、次级学习器是朴素贝叶斯(NB),对模型进行十折交叉验证。结果表明,上述模型有效提升了分
类性能,与近年基于Stacking构建学习器的结果进行对比,Accuracy平均提升4.65%、F-Measure平均提升5.25%和AUC平
均提升11.3%。
关键词:软件缺陷预测;过采样;信息增益;集成学习
中图分类号:TP311文献标识码:B
IntegratedLearningAlgorithmforSoftwareDefect
PredictionBasedonFeatureOptimization
WEIMei-te,RENHong-min
(CollegeofInformationEngineering,ShanghaiMaritimeUniversity,Shanghai201306,China)
ABSTRACT:Softwaredefectpredictionhasbecomeanimportantresearchdirectioninthefieldofsoftwareengineer-
ing.Thecurrentmethodsofdatasetprocessinghavetheproblemssuchasfeatureredundancy,classimbalanceand
lowfeaturecorrelation,whichgreatlyaffecttheclassificationperformanceofsoftwaredefectpredictionmodels.
Aimingattheaboveproblems,thispaperstudied45943featurevectorsof8datasubsetsintheNASAMDPdataset,
andproposedanintegratedlearningmethodforsoftwaredefectpredictionbasedonfeatureoptimization.First,wean-
alyzedtheminoritysamplesbysyntheticminorityoversamplingtechnology(SMOTE)andsynthesizednewsamples
basedontheminoritysamplesandaddthemtothedataset.Then,thecharacteristicattr
文档评论(0)