基于特征分类能力互补性的特征选择方法-计算机软件与理论专业论文.docxVIP

下载本文档

29
0
约7.15万字
约 71页
2019-03-30 发布于上海
举报
版权申诉

基于特征分类能力互补性的特征选择方法-计算机软件与理论专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

万方数据万方数据南开大学学位论文原创性声明本人郑重声明：所呈交的学位论文，是本人在导师指导下进行研究工作所取得的研究成果。除文中已经注明引用的内容外，本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体，均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名：张璐 2015 年 6 月 8 日非公开学位论文标注说明 (本页表中填写内容须打印) 根据南开大学有关规定，非公开学位论文须经指导教师同意、作者本人申请和相关部门批准方能标注。未经批准的均为公开学位论文，公开学位论文本说明为空白。论文题目申请密级 □限制(≤2 年) □秘密(≤10 年) □机密(≤20 年) 保密期限 20 年月日至 20 年月日审批表编号批准日期 20 年月日南开大学学位评定委员会办公室盖章(有效) 注：限制★2 年(可少于 2 年);秘密★10 年(可少于 10 年);机密★20 年(可少于 20 年) 中文摘要中文摘要中文摘要特征选择，是在利用机器学习算法构建模型前，对原始数据的预处理过程，是机器学习领域受到广泛关注的研究问题之一。对于高维数据的分析计算，一方面，很容易陷入“维度灾难”的困境；另一方面，可能并非所有维度的数据或概念都同样包含重要的预测信息。因而，特征选择算法作为数据的降维技术显得尤为重要。总体来讲，特征选择算法中的核心问题包括计算：(1) 特征子集与预测类别的相关性；(2) 特征间包含分类信息的冗余性；(3)平衡(1)和(2)二者的权重比例。在考虑特征与类别相关程度的评估时，往往忽略了特征对区分不同类别贡献程度不均的问题，仅计算特征与整体类别的关系。本文针对该问题，提出了特征分类能力的向量化表示，并利用特征对于区分不同类别能力的差异，选择“互补”特征进入特征子集，从而优化特征选择过程，快速得到具有较优分类能力的特征子集。并通过与流行的特征选择算法进行对比实验，证明了本文提出的 CFSCC 算法能够在选择较少的特征数目的情况下，仍然具有更优的分类效果。对于特征子集分类能力的度量，多数算法通过特征间冗余性的计算，考虑所选子集特征之间的相互影响；而在估算特征子集与类别的相关性时，隐含地假设了特征的独立性，忽略了特征组合对于相关性计算的影响。然而，将子集中单个特征与类别的相关度的平均值作为子集分类能力的度量，同时利用特征间相似度近似估计特征冗余量，并未充分考虑特征组合对于类别间相关性的影响以及相关性与冗余性的内在关系。事实上，特征组合本身可能对于分类能力具有很强的贡献力，起到提升分类效果的作用，也可能干扰分类决策。而冗余性的度量应该建立在提供分类信息的重合性的基础上，并非特征本身的相似度。由此，本文定义了特征互补量和冗余量的计算方法，在考虑特征间作用力的情况下，度量特征子集与类别的相关性，并结合特征冗余量，定义评价函数。同时依据提出的特征分类能力的向量化表征，通过加入结构互补性较强的特征完成搜索，以快速得到较优的特征子集。最后，通过对比实验证明了算法的有效性。关键词：特征选择；特征分类能力；特征相互作用力 I Abst Abstract Abstract Feature selection is a pretreatment process on the source data before construct models depends on the machine learning algorithms, which is a research problem widely concerned. For calculation and analysis on the high dimensional data, on the one hand, it is easy to fall into the “Curse of Dimensionality” predicament; on the other hand, it may not true that all dimensions of data or concepts contains important information for prediction all the same. In addition, in the process of dealing with data, it may also have the request for interpretation analysis, which is to understand the implied informati