基于属性相似度的连续型特征选择方法.pdfVIP

基于属性相似度的连续型特征选择方法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于属性相似度的连续型特征选择方法.pdf

第 35卷 第4期 渤海大学学报(自然科学版) Vo1.35.No.4 2014年 l2月 JournalofBohaiUniversity(NaturalScienceEdition) Dec.2014 基于属性相似度的连续型特征选择方法 王宏威 ,李国和 (1.中国石油大学 (北京)地球物理与信息工程学院,北京 102249;2.渤海大学 信息科学与技术学院,辽宁锦州 121013) 摘 要:特征选择作为模式识别领域的研究热点,是一种重要的降维方法.对于连续型特征, 目前主要采用离散化方法或特征分类能力的 “相关性”评估进行特征选择.引入 区间数相似度的 概念,提 出一种连续型特征选择方法.该方法以区间数相似度为基础 ,定义每个特征的属性相似 度 ,以此作为特征选择的启发信息,对特征全集进行排序 ,选择特征子集,实现特征选择.相关实 验表 明了该方法的有效性. 关键词:特征选择;区间数;属性相似度 ;连续型特征 中图分类号:TPI8 文献标志码 :A 文章编号:1673—0569(2014)04—0350—06 0 引言 特征选择是从一组特征中挑选 出一些最有效的特征以降低特征空间维数的过程 ¨,是模式识别领域 的研究热点之一.由于特征的数据类型有两种形式:离散型和连续型,与之对应,特征选择方法也可以分为 离散型特征的特征选择方法和连续型特征的特征选择方法.目前针对离散型特征的研究较多,方法也 已经 比较成熟,而针对连续型特征的特征选择方法主要有两种 :(1)对连续型特征进行离散化 ,再采用面向 离散型特征的特征选择方法.但是该方法在对特征进行离散化处理的过程中容易导致特征的失真,从而影 响到后续的特征选择精确性;(2)直接采用连续特征分类能力的 “相关性”评估进行特征选取,如Relief系 列ca61特征选取.这些方法采用对象在特征上投影距离作为对象分类能力评估,主要存在问题有 :①只 考虑对象及其局部分布特性(临近方法),但略显缺乏全局性;②只强调对象(点)的距离远近对特征分类 能力的评估作用,但在分类问题上,只要可以区分对象的类别,距离长短是等效的. 张国英等 I9在研究云分类器时,提出了一种属性相似度的概念,将其用于衡量连续型特征的分类能 力.该方法中,一个属性的属性相似度取决于该属性各类别间的最小距离,而该属性各类别间的距离是 由 不同类别该属性值所构成区间集合的距离来决定的.在定义区间集合的距离时,该方法将具有包含关系的 区间集合的距离直接定义为零,这将使得在实际应用时多个属性的相似度值相同(都为最大值 1),无法区 别其分类能力,尤其是多分类的情况.针对这一问题,本文引入区间数相似度 ¨叫的概念,用于改进属性相 似度的定义,将其作为衡量特征分类能力的依据,实现一种特征选择方法. 1 相关概念 收稿 日期:2014—02—17. 基金项 目:国家 自然科学基金(No. 作者简介:王宏威 (1980一),男,讲师,中国石油大学博士研究生,主要从事人工智能、知识发现方面的研究 通讯作者:bhu_whw@163.tom. 第4期 王宏威,李国和:基于属性相似度的连续型特征选择方法 351 1.1 属性相似度 文献 [8,9]中,属性相似度的定义如下: 定义 1 两个对象空间0。和 Df,0和D,∈R。,d(X , ),为两对象空间第k维属性集合 与 之 间的距离: r0, 或 d(Xki){E—xik-—Exj~, 其它情况 L Oik+ 其中,Ex和 分别为属性集合 和 的中心值, 和 为两属性集合覆盖范围的一半. 定义2 两个对象空间0和Df,0和D∈ 。,两对象空间第k维属性集合 与 之间的相似度为Js ( , ):

文档评论(0)

月光般思恋 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档