特征选择方法中三种度量比较研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
特征选择方法中三种度量比较研究

特征选择方法中三种度量比较研究   摘要:不同类型数据中特征与类别以及特征与特征之间存在一定的线性和非线性相关性。针对基于不同度量的特征选择方法在不同类型数据集上选取的特征存在明显差别的问题,本文选择线性相关系数、对称不确定性和互信息三种常用的线性或非线性度量,将它们应用于基于相关性的快速特征选择方法中,对它们在基因微阵列和图像数据上的特征选择效果进行实验验证和比较。实验结果表明,基于相关性的快速特征选择方法使用线性相关系数在基因数据集上选取的特征集往往具有较好分类准确率,使用互信息在图像数据集上选取的特征集的分类效果较好,使用对称不确定性在两种类型数据上选取特征的分类效果较为稳定。   关键词:特征选择;线性相关系数;对称不确定性;互信息;基于相关性的快速特征选择方法   DOI:10.15938/j.jhust.2018.01.020   中图分类号: TM391.1   文献标志码: A   文章编号: 1007-2683(2018)01-0111-06   Abstract:It has been known that either linear correlation or nonlinear correlation might exist between featuretofeature and featuretoclass in datasets. In this paper, we study the differences of selected feature subset when different kinds of measures are applied with same feature selection method in different kinds of datasets. Three representative linear or nonlinear measures, linear correlation coefficient, symmetrical uncertainty, and mutual information are selected. By combining them with the fast correlationbased filter (FCBF) feature selection method, we make the comparison of selected feature subset from 8 gene microarray and image datasets. Experimental results indicate that the feature subsets selected by linear correlation coefficient based FCBF obtain better classification accuracy in gene microarray datasets than in image datasets, while mutual information and symmetrical uncertainty based FCBF tend to obtain better results in image datasets. Moreover, symmetrical uncertainty based FCBF is more robust in all datasets.   Keywords:feature selection;linear correlation coefficient;symmetrical uncertainty;mutual Information;fast correlationbased filter   0引言   ?稻萃诰蚍椒?能够从数据中获取到潜在的有效信息,在金融预测、模式识别等多个领域得到了广泛应用。随着互联网和生物信息学技术的不断进步,数据朝着更大规模的方向发展,并带来了“维度灾难”等问题[1]。解决上述问题的有效方法之一是降低数据集中特征的维数。特征选择作为数据挖掘和机器学习中的重要研究内容,其通过删除数据集中的无关和冗余特征,达到有效的降低特征维数,提高分类的准确率和效率的目的,并且具有去噪、防止机器学习模型过拟合的作用[2]。   现有的特征选择方法主要可以分为过滤方法、封装方法和嵌入方法[3]。封装方法使用预先选定的机器学习方法作为评价特征集优劣的准则,存在时间复杂度高的问题。嵌入方法则将特征选择和机器学习算法的训练过程相结合。过滤方法不依赖特定的机器学习方法,具有运行效率高的特点,适用于解决高维数据中的特征

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档