《基于粗糙集的数据挖掘方法研究》-毕业(学术)论文设计.doc

下载文档

4
0
约3.21万字
约 40页
2018-12-03 发布于广西
举报
版权申诉
保障服务

《基于粗糙集的数据挖掘方法研究》-毕业(学术)论文设计.doc

1、本文档共40页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

黑龙江工程学院本科生毕业设计（论文）摘要随着数据库技术的迅速发展以及数据库管理系统的广泛应用，数据呈海量增长，出现了“数据爆炸但知识贫乏”的现象。在这种情形下，数据挖掘作为处理海量数据的工具便应运而生了。目前，数据挖掘中常用的方法和技术有：统计分析方法、决策树、神经网络、遗传算法、模糊集方法、粗糙集理论、可视化技术等等。在诸多方法中，粗糙集理论与方法对于处理复杂的系统不失为一种较为有效的方法。它是继概率论、模糊集、证据理论之后的又一个处理不确定性的数学工具，能有效地分析和处理不精确、不一致、不完整等各种不完备信息，并从中发现隐含的信息。本文首先对数据挖掘和粗糙集理论的基础知识进行了必要的说明。在理论的基础上，在研究数据挖掘的一般过程的基础上，深入分析了基于粗糙集的数据挖掘的过程，并对应用于这些过程的算法进行了研究和分析。经典的粗糙集算法不能有效地适应海量数据的环境，因为算法要求数据常驻内存，而内存的容量是十分有限的，所以粗糙集面临着海量数据集的挑战。本文引入了一种表示分类的结构—类分布链表，它可以通过对原始数据集进行直接分类获得。类分布链表可以看成是建立在海量数据集上的一个索引块，通过它可以方便地对海量数据集进行处理。分析类分布链表的结构和特点，从中发现了计算属性的条件信息嫡的简便方法。本文利用类分布链表改进了基于粗糙集的数据挖掘中的数据离散化、属性约简以及属性值约简这一连续过程中的算法。通过正确性和可伸缩性实验的数据表明，改进后的算法在不损失原始的经典粗糙集算法的正确率和识别率的前提下，变得能够处理海量数据，并且通过多步生成类分布链表解决了内存的限制问题，更成倍增大了所能处理的数据量。关键词：数据挖掘；粗糙集；类分布链表；离散化；属性约简；属性值约简 ABSTRACT With the rapid development of database technology and the abroad application of Database Management System, the data increases very quickly. So data is excessive but knowledge is spare. Under this condition, Data Mining as the tool of dealing with the abundant data comes into being. At present, the methods and technologies in Data Mining are as follows： Statistical Analysis Method, Decision Tree, Artificial Neural Network, Genetic Algorithm, Fuzzy Set Method, Rough set Theory, Visual Technology etc. Among so many methods, Rough set Theory is a king of more valid method to deal with the complicated systems. It is another mathematical tool to deal with uncertainty after Probability Theory, Fuzzy Set and Evidence Theory emerge. Rough Set Theory can effectively analyze and deal with kings of incomplete information, and find implicit information from it. First of all, this thesis illuminates the theory about Data Mining and Rough Set. On this basis, the thesis conducts in-depth analysis of Data Mining process based on Rough Set, the studies and analyses the algorithms used in these processes. Classical rough set algorithms can not effectively adjust to an environment with huge amounts of data, because the algorithms demand data