基于OLS特征排序和相关度聚类的特征选择算法-软件工程专业论文.docxVIP

  • 5
  • 0
  • 约5.63万字
  • 约 77页
  • 2019-02-15 发布于上海
  • 举报

基于OLS特征排序和相关度聚类的特征选择算法-软件工程专业论文.docx

TN82学校代码 分 类 TN82 10701 TP31 学 号 1110122656 密 级 公开 西安电子科技大学 硕士学位论文 基于OLS特征排序和相关度聚类的特征选择 算法 作者姓名: 领 域: 学位类别: 汤慧煜 软件工程 工程硕士 学校导师姓名、职称: 企业导师姓名、职称: 提交日期: 覃桂敏 副教授 古月敬之 教授 2014 年 10 月 An Improved Correlation-based Feature Subset Selection Method Using OLS Algorithm A thesis submitted to XIDIAN UNIVERSITY in partial fulfillment of the requirements for the degree of Master of Philosophy By Tang Huiyu (Software Engineering) Supervisor: Qin Guimin Takayuki FURUZUKI Oct. 2014 西安电子科技大学 学位论文独创性(或创新性)声明 秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在 导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标 注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成 果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说 明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切的法律责任。 本人签名: 日 期: 西安电子科技大学 关于论文使用授权的说明 本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保 留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内 容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后 结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。 (保密的论文在解密后遵守此规定) 本学位论文属于保密,在 年解密后适用本授权书。 本人签名: 导师签名: 日 期: 日 期: V VIII I I 摘要 摘要 在机器学习中,给高维数据集建立一个鲁棒训练模型是非常重要的。其中最 大的问题是如何进行数据降维。数据降维分为两种形式:特征选择和特征提取。 特征选择是在原有的特征集中直接选择其中一部分特征,用这个特征子集来代替 原数据集合。特征萃取是将高维数据空间映射到一个低维数据空间,用映射后的 结果来代替原数据集合。特征选择在有大量冗余数据的情况下已经被证明比特征 提取的效果更好,不但可以提高算法效率,还可以简化计算过程,让结果具有更 好的可读性。特征选择由特征排序和子集选择两个部分组成。特征排序按照一定 的规则将特征对输出结果的贡献度大小排序,同时滤除掉贡献度很小达不到阈值 的特征。子集选择在于选取一个最优的特征子集。一个好的特征子集所包含的特 征要对输出的结果贡献尽量大,同时特征之间的相关度尽量小。 基于以上的原则,本文把特征选择的问题转换为两个部分:基于相似度的特 征聚类;特征贡献度排序。基于相似度的聚类是用来将特征分割为一些子集,在 这些子集特征的相似度尽量高,同时在子集之间特征的相似度尽量低。特征排序 是按照特征对结果的贡献度大小将特征进行排序。本文提出了一种使用 SVM(支持 向量机)感度来度量每个特征的贡献大小的方法。但是这种方法没有考虑到每个 特征之间的独立性,特征的贡献是相互关联的。针对于这种缺点,本文提出了一 种基于正交最小二乘法的特征排序方法,将输入特征空间映射到一个由一组正交 基底组成的特征空间,利用特征的正交性来衡量每个特征对输出贡献的独立性。 本文同时也提出了另外一种基于简化的正交最小二乘法的特征排序方法来克服正 交最小二乘法在数据维度很高的时候时间复杂度高的问题。本文还使用了一种集 成的特征选择方法来集成不同的特征选择方法来得到一个更加鲁棒的特征子集。 在本文的模型中,本文选取每个类中特征排序最高的特征来代表这个类的所 有特征作为特征子集中的特征元素。这样得到的特征子集就能符合上文所提出的 好的特征子集的特性:一个好的特征子集所包含的特征要对输出的结果贡献尽量 大,同时特征之间相似度要尽量小。特征排序保证了所选特征对输出的贡献尽量 大,基于相似度的聚类保证了特征之间的相似度尽量小。 经过试验表明,本文所提出的特征选择模型以及特征排序的方法能够得到很 好的效果。既能极大的降低输入空间的维度,减少计算量,提高计算效率;又能 很好

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档