粗糙集理论在关系数据库知识发现中的应用研究-软件工程专业论文.docxVIP

下载本文档

5
0
约5.49万字
约 70页
2018-11-28 发布于上海
举报
版权申诉

粗糙集理论在关系数据库知识发现中的应用研究-软件工程专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

粗糙集理论在关系数据库知识发现中的应用研究-软件工程专业论文

摘要摘要万方数据万方数据摘要随着数据库技术的逐渐成熟，数据应用的迅速普及，以及互联网的飞速发展，人类所积累的数据量正以指数级的速度增长。基于数据库的知识发现是最近几年发展起来的一门新兴技术，它处理数据库中大量的数据，挖掘出更深层次的知识、更具决策力的信息。数据挖掘是从大量的、不完全的、有噪声的、随机的、模糊的数据中，提取出隐含在其中的、人们事先不知道的、有价值的知识。其中数据预处理是整个数据挖掘的关键步骤，是数据挖掘工作进行之前的必备工作，在这个阶段进行属性的约简和数据的规范化处理。粗糙集理论是上世纪八十年代初由波兰数学家 Pawlak 首先提出的，它是一种处理模糊和不确定性知识的数学工具。其中属性约简是粗糙集理论的核心内容，属性约简是保持分类能力不变的前提下，删除冗余的属性。传统的属性约简算法是基于主存的算法。基于关系数据库操作的属性约简算法利用关系数据库本身的操作算子和 SQL 操作，能够比传统算法更加高效地进行数据挖掘。在关系数据库中如何进行属性约简，以获得最高效的数据挖掘，是本文研究的重点。本论文主要讲述数据挖掘中采用粗糙集理论和数据库理论结合进行数据预处理，即删除冗余属性、处理残缺数据和噪音数据等。论文首先论述了数据挖掘的基本概念、流程，粗糙集理论的发展。接着介绍了粗糙集的一些基本知识，讲述了粗糙集的扩展模型，对传统属性约简逐个进行算法分析，并给出算例，提出一种改进的基于属性重要度的属性约简算法。然后结合扩展的粗糙集模型实现了改进算法，该算法充分结合扩展粗糙集模型，能够处理噪音数据和残缺数据；由于改进后的算法仍有部分算法是基于主存的，其大大影响了海量数据的挖掘效率，因此结合数据库理论将基于主存的部分算法使用数据库操作计算；最后结合电子商务客户信息系统给出进行属性约简的算法应用。关键词：粗糙集，属性约简，变精度粗糙集模型，相容关系粗糙集模型，数据库 I ABSTRACT ABSTRACT ABSTRACT With the increasingly mature database technology, the rapid popularization of the data applications, and the rapid development of Internet, the amount of data human accumulated is exponentially growing. Knowledge Discovery in database is a new technology which is developed recently, it handles a great quantity of data in database, find out deeper knowledge, more decision making information. From a lot of incomplete, noise, random and fuzzy data, data mining extracts implicit unknown and valuable knowledge. The data preprocessing is the key step in the whole data mining, is the necessary work before data mining, and it handle attribute reduction and data standardization. Rough set is proposed by Polish mathematician Pawlak in the early 1980s, it is a mathematical tool which deals with the fuzzy and uncertain knowledge. Attribute reduction is the core content of Rough set, and it deletes redundant attributes on condition that keeping classification ability unchanged. The traditional attribute reduction algorithm is based on the main storage. The attribute reduction algorithm based on relational database operation utilizes database op