- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 106971205 A
(43)申请公布日
2017.07.21
(21)申请号 201710222656.1
(22)申请日 2017.04.06
(71)申请人 哈尔滨理工大学
地址 150080 黑龙江省哈尔滨市南岗区学
府路52号
(72)发明人 黄金杰 孔庆达 潘晓真
(51)Int.Cl.
G06K 9/62(2006.01)
权利要求书5页 说明书6页 附图3页
(54)发明名称
一种基于K近邻互信息估计的嵌入式动态特
征选择方法
(57)摘要
本发明公开了一种基于K近邻互信息估计的
嵌入式动态特征选择算法,此方法不仅考虑到特
征与类别的相关度和其他特征与特征之间的冗
余度,还将单个属性的相关性和冗余性进行了延
伸,将相关性和冗余性从二元互信息度量方式延
伸到多元互信息的情况,解决了一般互信息求解
方法因数据维度和数据量大而引起的计算复杂
度大,互信息估算不够准确的问题。然后通过动
态特征选择的思想,通过分类器识别可以识别的
样本数据,并将其从数据样本集中排除,以此剔
除计算信息熵过程中的“虚假信息”,更好地估算
A 互信息。之后与传统的(MRMR)特征选择算法进行
5 对比实验,本算法能够得到特征维数比较低、冗
0
2
1 余度比较小但分类准确率较高的特征子集,并且
7
9
6 具有比较好的稳定性。
0
1
N
C
CN 106971205 A 权 利 要 求 书 1/5页
1.一种基于K近邻互信息估计的嵌入式动态特征选择方法,其特征在于,包括以下步
骤:
首先介绍传统基于互信息的特征选择方法。
1数据集合预处理
当今在现实世界中数据库极其容易受到噪声数据、空缺数据、以及不一致数据的侵扰,
现阶段有大量的数据预处理技术,大体上可以分为数据清理、数据集成、数据变换和数据规
约技术。数据清理可以清除数据中噪声数据、纠正不一致,自行填补样本数据的缺失数据,
数据变换(数据规范化)可以改进涉及距离度量的算法的精度和有效性。比如人们希望数据
满足某种特定的数据分布,或者希望将每个数据特征映射到某一段特定的数据区间内,都
是需要进行数据变换。对于本文而言数据集合的预处理主要分一下几个部分:第一将数据
集合中的噪声数据和不一致数据空缺数据进行处理。第二将数据集中与分类完全不相关的
属性数据进行删除。第三将属性数据进行范数归一化处理使范数归一化为1,则有:
2互信息的相关知识
特征选择的选择目标是选择出对于分类最有价值的特征属性,特征选择中关键性需要
解决的问题有两个方面:一方面是度量标准问题,一方面是特征的评价函数的选择问题。在
数据分类的研究过程中,如果一个特征属性与类别属性有强的相关性,那么该属性对于分
类来说是十分重要的属性,如果一个特征属性与类别属性有弱的相关性,那么该属性对于
分类来说是非重要的属性,因此针对这种相关性问题讨论,选择信息论中的互信息作为度
量标准来分析属性间的相关性。下面介绍一下信息论中相关理论和运算规则。
信息熵是信息论理论中至关重要的概念,信息熵是表征变量的一种不确定程度,目的
是表述信息含量的多少。
其中,p(x)表示变量X取值为xi的概率,变量X的不确定程度就可以用信息熵H(X)来表
i
示,H(X)值的大小只与变量的概率分布有关系,故在信息熵有效的克服了部分噪声数据的
干扰。
条件熵是指已知一个变量的条件下,另一个变量的不确定程度,即一个变量对另一个
变量的依赖程度的强弱程度,故随机变量X对另一个随机变量Y的依赖程度可以用条
原创力文档


文档评论(0)