- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于属性相似度的连续型特征选择方法.pdf
第 35卷 第4期 渤海大学学报(自然科学版) Vo1.35.No.4
2014年 l2月 JournalofBohaiUniversity(NaturalScienceEdition) Dec.2014
基于属性相似度的连续型特征选择方法
王宏威 ,李国和
(1.中国石油大学 (北京)地球物理与信息工程学院,北京 102249;2.渤海大学 信息科学与技术学院,辽宁锦州 121013)
摘 要:特征选择作为模式识别领域的研究热点,是一种重要的降维方法.对于连续型特征,
目前主要采用离散化方法或特征分类能力的 “相关性”评估进行特征选择.引入 区间数相似度的
概念,提 出一种连续型特征选择方法.该方法以区间数相似度为基础 ,定义每个特征的属性相似
度 ,以此作为特征选择的启发信息,对特征全集进行排序 ,选择特征子集,实现特征选择.相关实
验表 明了该方法的有效性.
关键词:特征选择;区间数;属性相似度 ;连续型特征
中图分类号:TPI8 文献标志码 :A 文章编号:1673—0569(2014)04—0350—06
0 引言
特征选择是从一组特征中挑选 出一些最有效的特征以降低特征空间维数的过程 ¨,是模式识别领域
的研究热点之一.由于特征的数据类型有两种形式:离散型和连续型,与之对应,特征选择方法也可以分为
离散型特征的特征选择方法和连续型特征的特征选择方法.目前针对离散型特征的研究较多,方法也 已经
比较成熟,而针对连续型特征的特征选择方法主要有两种 :(1)对连续型特征进行离散化 ,再采用面向
离散型特征的特征选择方法.但是该方法在对特征进行离散化处理的过程中容易导致特征的失真,从而影
响到后续的特征选择精确性;(2)直接采用连续特征分类能力的 “相关性”评估进行特征选取,如Relief系
列ca61特征选取.这些方法采用对象在特征上投影距离作为对象分类能力评估,主要存在问题有 :①只
考虑对象及其局部分布特性(临近方法),但略显缺乏全局性;②只强调对象(点)的距离远近对特征分类
能力的评估作用,但在分类问题上,只要可以区分对象的类别,距离长短是等效的.
张国英等 I9在研究云分类器时,提出了一种属性相似度的概念,将其用于衡量连续型特征的分类能
力.该方法中,一个属性的属性相似度取决于该属性各类别间的最小距离,而该属性各类别间的距离是 由
不同类别该属性值所构成区间集合的距离来决定的.在定义区间集合的距离时,该方法将具有包含关系的
区间集合的距离直接定义为零,这将使得在实际应用时多个属性的相似度值相同(都为最大值 1),无法区
别其分类能力,尤其是多分类的情况.针对这一问题,本文引入区间数相似度 ¨叫的概念,用于改进属性相
似度的定义,将其作为衡量特征分类能力的依据,实现一种特征选择方法.
1 相关概念
收稿 日期:2014—02—17.
基金项 目:国家 自然科学基金(No.
作者简介:王宏威 (1980一),男,讲师,中国石油大学博士研究生,主要从事人工智能、知识发现方面的研究
通讯作者:bhu_whw@163.tom.
第4期 王宏威,李国和:基于属性相似度的连续型特征选择方法 351
1.1 属性相似度
文献 [8,9]中,属性相似度的定义如下:
定义 1 两个对象空间0。和 Df,0和D,∈R。,d(X , ),为两对象空间第k维属性集合 与 之
间的距离:
r0, 或
d(Xki){E—xik-—Exj~, 其它情况
L Oik+
其中,Ex和 分别为属性集合 和 的中心值, 和 为两属性集合覆盖范围的一半.
定义2 两个对象空间0和Df,0和D∈ 。,两对象空间第k维属性集合 与 之间的相似度为Js
( , ):
您可能关注的文档
最近下载
- DBJT 08-120-2015雨水口标准图2015沪S203.docx VIP
- 神经介入产品培训.ppt VIP
- 重庆市綦江区郭扶镇社区工作者招聘考试试题汇总2024.docx VIP
- ECharts数据可视化课件 第1章 初识ECharts.pptx VIP
- 重庆市綦江区安稳镇社区工作者招聘考试试题汇总2024.docx VIP
- 突发事故处理流程.pdf VIP
- 电工安全生产协议书(完整版).docx VIP
- 固定翼无人机技术完整全套教学课件.pdf
- 1.35KV预制舱变电站项目(整套35KV预制舱,变压器,开关柜,火灾报警)技术规范书.doc VIP
- DB36_T 811-2020 井冈蜜柚 生产技术规程.pdf VIP
文档评论(0)