- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
HCVR:一种具有相关性感知投票规则的特
征选择混合方法
∗
NikitaBhedasgaonkar,RushikeshK.Joshi
本DepartmentofComputerScienceEngineering
译IndianInstituteofTechnologyBombay
中Powai,Mumbai-400076,India.
1
vEmail:nbhedasgaonkar@,rkj@cse.iitb.ac.in
3
7
0
2
0
7.摘要
0
5在本文中,我们提出了HCVR(带有相关性感知投票规则的混合
2
:方法),这是一种轻量级基于规则的特征选择方法,结合参数到参数
v
i(P2P)和参数到目标(P2T)的相关性来消除冗余特征并保留相关特
x
r
a征。该方法是维度缩减中非迭代和迭代过滤方法的混合体。它是一种
贪心算法,通过反向剔除工作,在每一步可能消除多个特征。规则贡
献于对特征进行投票,通过多数投票作出保留或丢弃的决定。这些规
则利用了每对特征之间以及特征与目标之间的相关性阈值。我们提供
了HCVR应用于SPAMBASE数据集的结果。结果显示相比传统非迭
代(CFS,mRMR和MI)和迭代(RFE,SFS和遗传算法)技术,性能
有所提升。有效性是基于应用过滤后不同分类器的表现来评估的。
∗NikitaBhedasgaonkaranundergraduatestudentatAIandDataScienceDepartment
atPICT,Pune,whoisalsopursuingonlineB.S.inDataScienceandApplicationsatIIT
Madras,wasaresearchinternatIITBombaywherethisworkwascarriedout.
1介绍
特征选择(FS)是任何机器学习(ML)流水线中的一个关键预处理步
骤,旨在从高维数据集中识别出最具信息量和相关性的特征。[1].通过消除
冗余或不相关的特征,FS可用于提高模型性能、准确性,并减少训练和推
理过程中的计算开销。[2].在深度学习(DL)方法中,当使用有限的标注数
据或嘈杂输入时,由于模型往往过度参数化且容易过拟合,因此特征选择
尤为重要。
在软件工程、生物信息学和网络安全等领域,数据集往往具有高维性,
并且包含复杂的特征间相关性。在这种情况下,即使是像深度神经网络这
样强大的模型也难以隔离语义相关的特征[11]。虽然DL模型理论上能够学
习复杂非线性关系,但由于冗余和无关特征的存在,它们可能会受到影响
而无法减少这些特征的影响。因此,FS有助于合理的降维。
传统FS方法被广泛分类为过滤器、包装器、嵌入式和混合方法[1,2]。过
滤器基方法的示例包括互信息(MI)[5]、基于相关性的特征选择(CFS)[3]和
最小冗余最大相关性(mRMR)[4]。包装器基技术的示例包括递归特征消
除(RFE)[6]、顺序前向选择(SFS)[7]和遗传算法(GA)[8]。对于我们的
上下文,我们将它们分类为迭代的滤波器和非迭代滤波器。
1.1我们的方法简述
在这项工作中,我们提出了HCVR(带有相关性感知投票规则的混合
特征选择方法),这是一种结合了非迭代和迭代过滤器以进行降维的新颖混
合特
文档评论(0)