基于粗糙集的数据挖掘算法研究-计算机应用技术专业论文.docxVIP

下载本文档

2
0
约6.21万字
约 63页
2019-02-22 发布于上海
举报
版权申诉

基于粗糙集的数据挖掘算法研究-计算机应用技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

II II 摘要随着数据库技术的广泛应用，数据库中存储的数据量急剧增大，为帮助人们更好地利用这些数据进行决策和研究，提出了知识发现和数据挖掘的概念。数据挖掘是知识发现中最关键的步骤，也是知识发现技术难点，是目前相当活跃的研究领域。粗糙集理论是波兰数学家 Pawlak Z.提出的一种分析模糊和不确定知识的强有力的数学工具，能有效地分析和处理不精确、不一致、不完整等各种不完备信息，并从中发现隐含的知识，揭示潜在的规律。这个特点使得粗糙集理论非常适用于数据挖掘。近年来其有效性已在许多科学与工程领域的成功应用中得到证实。决策树是分类应用中采用最广泛的分类器之一。单变量决策树局限于在每个结点上只检验单个属性，存在以下问题：忽视了属性间的关联性；决策树中某些子树重复出现；有些属性在决策树的某条路径上被多次检测等。为了克服这一缺陷，人们提出了多变量决策树的归纳学习方法，即在决策树的某一结点上同时检验多个属性，该方法产生新的、更相关的属性，以及修改或去掉不相关的属性。多变量决策树的关键问题是节点属性的选择标准和检验标准，对大规模数据的预处理也是构建多变量决策树的关键技术。本文以多变量决策树为研究对象，主要工作和创新点如下： 1.提出了属性重要性相似度的概念，将属性的重要性作为权重，融入到传统的求解相似度的公式中，该方法克服了传统求解相似度时只考虑距离的量的变化问题以及没有把属性的重要性这一本质的因素考虑进去的不足，且计算简单，符合实际情况。 2.为了使数据挖掘更有效，需要对数据进行预处理。首先，应用经典的分明矩阵简化算法进行属性约简，从而达到降维的效果。然后，根据属性重要性相似度的公式求解同类数据对象的相似度，相似度大于某一阈值的对象划分为一组，同组的数据对象满足两两之间的相似度皆大于阈值，从不同组各抽取一个数据对象，组成新的数据样本，以减少冗余数据对象。 3.提出了基于属性集重要性的节点选择标准，并规定节点的属性个数最多为两个，在选择测试属性生成决策树时，克服了传统决策树算法选择测试属性时的偏向问题，计算量小，花费时间短，降低了决策树的高度，且规则的可读性好。 III III 4.引入和使用等价关系相对泛化的概念来解决多变量检验的构造问题，克服了数据过分拟合的问题。在以上四方面工作的基础上，提出了基于粗糙集的多变量决策树算法，通过实例对本文提出的多变量决策树方法与著名的单变量决策树方法进行了比较，同时，对几种多变量决策树方法做了对比分析，并通过实例和实验证明了该算法的优势。关键词：数据挖掘；粗糙集理论；多变量决策树；属性重要性相似度；相对泛化 PAGE PAGE IV Abstract With the extensive application of database technology, the amount of data in the database increases rapidly. In order to find out laws and models to help people make better use of these data for decision-making, the concept of knowledge discovery and data mining is proposed. Data mining is the most critical steps in knowledge discovery, but also the technical difficulties in knowledge discovery, is the very active area in research nowadays. The theory of rough sets, presented by Polish mathematician Pawlak Z., is a powerful mathematical tool for analyzing uncertain, fuzzy knowledge. Rough sets, as a new hot spot in the field of artificial intelligence, can effectively deal with the expression and deduction of incomplete, uncertain knowledge. The theory of rough sets is specially fit for the application to data mining because of its features. Its valid