面向区分能力大小的启发式约简算法及其应用.pdfVIP

下载本文档

4
0
约2.38万字
约 9页
2017-09-14 发布于山东
举报
版权申诉

面向区分能力大小的启发式约简算法及其应用.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于区分能力大小的启发式约简算法及其应用徐燕1,2 怀进鹏1 王兆其3 (1. 北京航空航天大学计算机系北京 100083 ） (2. 华北电力大学计算机系北京 102206 ） (3. 中国科学院计算技术研究所北京 100080) email: xu.yan@263.net, Huai@cscw.buaa.edu.cn, zqwang@ict.ac.cn 摘要粗集是数据挖掘中的一种重要的方法，约简是粗集理论中的核心问题之一。约简的应用主要存在两方面的问题：约简的有效计算问题和处理数据中噪音和缺省值问题。近年来，对于这两个方面的问题有很多研究，但尚无二者兼顾的好方案。本文提出了一种能处理噪音的有效约简算法，该算法基于粗集理论认为知识是区分事物的能力的观点，对知识进行量化，证明了量化的合理性，并以量化后的区分能力作为启发式信息，指导约简，提高了约简效率。另外，利用这种启发式信息，提出了一种解决噪音问题的方法。最后，将该算法应用到人机接口中，用于手关节自由度的约简，这对手势识别与合成是很有意义的工作。关键词数据挖掘粗集约简人机接口中图法分类号：TP311 1. 引言粗集理论是1982 年由 Z ．Pawlak 提出的[1]，它是一种处理模糊和不确定知识的工具。目前，它有广泛的应用领域，如人工智能、模式识别、数据挖掘等等。约简是去掉多余的属性，它是粗集理论中的重要问题之一，也是应用粗集理论的基础，然而已经证明最小约简的计算是NP-hard 问题[2]。另外，在实际问题中，采集到的数据难免存在误差，即粗集理论在实际应用时，会遇到噪音，如果未考虑到噪音的问题，则会得到不够理想的约简或者降低预测新对象的能力。总之目前约简的应用还存在两方面的问题：约简的有效计算问题和处理数据中噪音和缺省值问题。近年来，对于这两个方面的问题有很多研究，但尚无二者兼顾的好方案：基本的约简算法是利用区分矩阵得到的，可以求出所有的约简，但是效率很低，为指数复杂性。 1995 年由Xiaohua Hu 提出的利用属性的重要性作为启发函数的算法[3]，该算法计算一个最好的或者用户指定的最小约简，为多项式复杂性。（近年来，给出的高效的最小约简算法都是在未考虑完备性下得到的，以下提到的效率是对未考虑完备性而言的。） Starzyk ， Nelson 和 Sturtz 提出了一种新概念[4][5]，称为强等价，用于快速简化区分函数。实验表明该约简算法比基本算法快数十倍。可处理较大的数据集。这些约简算法，都有较高的效率，但它们并未考虑到噪音问题。 Bazan J G 等提出的动态约简[6]，主要思想是将决策表随机抽样形成新的决策表，然后对采样后的决策表计算所有约简，在所有子表中都存在的约简，或者近似的约简就是动态约简，该约简在某种意义上是较稳定的，该算法的优点是它能够有效抗噪音，它的约简比较稳定。但是，因为要计算多个子表的所有约简，该算法的效率较低。 Ziarko 提出了一种可变精度RS 模型[7]，该模型通过引入一个精度，允许一定的误分类率，该模型比较适合误差与正确值比较接近的情况，当误差与正确值相差较远，甚至出现缺值时，无论取何种精度，都不能很好地处理。众所周知，数据库中的属性不是同等重要的，特别是数据库中的数据是随机采集得到的时，某些属性是重要的，某些是不重要的，甚至是多余的。本文采纳Xiaohua Hu 提出的利用属性重要性作为启发函数的观点，将粗集理论中的“可区分关系”的概念，引申为利用属性在区别不同事物方面所起的作用的大小，作为量化的启发性知识来制导约简过程。这种对区分能力大小的定量描述（或者启发函数）有如下优点：首先是它不需要任何额本项研究课题得到国家863 项目（项目编号：863-306-02-01）及国家自然科学基金项目（项目编号）的资助。徐燕， 1968 年生，女，副教授，博士研究生，主要从事数据挖掘、人工智能的研究。怀进鹏，男，1962 年生，博士，博士生导师，主要从事数据挖掘、人工智能、网络安全、CSCW 的研究，王兆其，博士，主要从事虚拟现实