一种基于K近邻互信息估计的嵌入式动态特征选择方法[发明专利].pdfVIP

下载本文档

2
0
约1.57万字
约 15页
2023-06-21 发布于湖北
举报
版权申诉

一种基于K近邻互信息估计的嵌入式动态特征选择方法[发明专利].pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 106971205 A (43)申请公布日 2017.07.21 (21)申请号 201710222656.1 (22)申请日 2017.04.06 (71)申请人哈尔滨理工大学地址 150080 黑龙江省哈尔滨市南岗区学府路52号 (72)发明人黄金杰　孔庆达　潘晓真　 (51)Int.Cl. G06K 9/62(2006.01) 权利要求书5页说明书6页附图3页 (54)发明名称一种基于K近邻互信息估计的嵌入式动态特征选择方法 (57)摘要本发明公开了一种基于K近邻互信息估计的嵌入式动态特征选择算法，此方法不仅考虑到特征与类别的相关度和其他特征与特征之间的冗余度，还将单个属性的相关性和冗余性进行了延伸，将相关性和冗余性从二元互信息度量方式延伸到多元互信息的情况，解决了一般互信息求解方法因数据维度和数据量大而引起的计算复杂度大，互信息估算不够准确的问题。然后通过动态特征选择的思想，通过分类器识别可以识别的样本数据，并将其从数据样本集中排除，以此剔除计算信息熵过程中的“虚假信息”，更好地估算 A 互信息。之后与传统的(MRMR)特征选择算法进行 5 对比实验，本算法能够得到特征维数比较低、冗 0 2 1 余度比较小但分类准确率较高的特征子集，并且 7 9 6 具有比较好的稳定性。 0 1 N C CN 106971205 A 权　利　要　求　书 1/5页 1.一种基于K近邻互信息估计的嵌入式动态特征选择方法，其特征在于，包括以下步骤：首先介绍传统基于互信息的特征选择方法。 1数据集合预处理当今在现实世界中数据库极其容易受到噪声数据、空缺数据、以及不一致数据的侵扰，现阶段有大量的数据预处理技术，大体上可以分为数据清理、数据集成、数据变换和数据规约技术。数据清理可以清除数据中噪声数据、纠正不一致，自行填补样本数据的缺失数据，数据变换(数据规范化)可以改进涉及距离度量的算法的精度和有效性。比如人们希望数据满足某种特定的数据分布，或者希望将每个数据特征映射到某一段特定的数据区间内，都是需要进行数据变换。对于本文而言数据集合的预处理主要分一下几个部分：第一将数据集合中的噪声数据和不一致数据空缺数据进行处理。第二将数据集中与分类完全不相关的属性数据进行删除。第三将属性数据进行范数归一化处理使范数归一化为1，则有： 2互信息的相关知识特征选择的选择目标是选择出对于分类最有价值的特征属性，特征选择中关键性需要解决的问题有两个方面：一方面是度量标准问题，一方面是特征的评价函数的选择问题。在数据分类的研究过程中，如果一个特征属性与类别属性有强的相关性，那么该属性对于分类来说是十分重要的属性，如果一个特征属性与类别属性有弱的相关性，那么该属性对于分类来说是非重要的属性，因此针对这种相关性问题讨论，选择信息论中的互信息作为度量标准来分析属性间的相关性。下面介绍一下信息论中相关理论和运算规则。信息熵是信息论理论中至关重要的概念，信息熵是表征变量的一种不确定程度，目的是表述信息含量的多少。其中，p(x)表示变量X取值为xi的概率，变量X的不确定程度就可以用信息熵H(X)来表 i 示，H(X)值的大小只与变量的概率分布有关系，故在信息熵有效的克服了部分噪声数据的干扰。条件熵是指已知一个变量的条件下，另一个变量的不确定程度，即一个变量对另一个变量的依赖程度的强弱程度，故随机变量X对另一个随机变量Y的依赖程度可以用条