基于粗糙集的贝叶斯网络在数据挖掘中的研究与应用-应用数学专业论文.docxVIP

下载本文档

3
0
约4.08万字
约 57页
2019-02-22 发布于上海
举报
版权申诉

基于粗糙集的贝叶斯网络在数据挖掘中的研究与应用-应用数学专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

万方数据万方数据基于粗糙集的贝叶斯网络在数据挖掘中的研究与应用李翔安庆师范学院硕士学位论文 2014 年 5 月 10 日 I 摘要数据挖掘技术是数据库、机器学习以及统计理论相结合的产物,是从大量的、模糊的、有噪声的、不完全的、随机的数据中提取具有潜在价值信息的过程。粗糙集理论是上个世纪 80 年代波兰科学家提出的刻画不完整性、不确定性的数学工具。近年来对该理论的研究也更加深入,在人工智能、模式识别、知识发现、故障发现与检测等领域得到了成功的应用。本文在前人经验的基础上,针对数据挖掘中经常出现的问题,从理论和应用两个方面对数据挖掘的应用技术进行了研究。数据挖掘中,直接针对原始数据进行数据挖掘效果不好,尤其是在大数据集的情况下。因此,首先对原始数据进行预先处理、变形,再进行数据挖掘就成为了数据挖掘的行之有效的方法。本文的研究内容如下： 1.简单介绍了数据挖掘的概念、背景、主要方法以及研究热点以及粗糙集理论的发展现状。 2.数据挖掘中,如果直接在海量的数据上进行挖掘往往会因为数目众多,规则过长,降低了决策分析的有效性。为了解决这一问题,本文利用粗糙集理论,提出了利用粗糙集理论选择量度,利用该量度提高分类的正确性和数据库的纯度,进而利用该量度对数据表格进行分析的方法。本文分析了数据库分解信息的性质,利用粗糙集首先对数据属性集进行约简,降低计算的复杂程度还有计算时间,在提高运算速度的同时,也不会造成信息量的损失。 3.属性数据分析是一种重要的统计方法。通过计算属性数据的相关统计量,考虑离群点的影响,提出了一种基于训练集中关于属性类别标准差的分类计算方法。首先对训练数据进行处理,将其映射为相对应的数值,计算不同类别不同属性的期望,方差、标准差；然后以属性类别计算的统计量为参考指标,当新样本数据加入训练集时,以新样本属性类别值作为坐标,求出其到各类别的欧式距离,距离最短的类别即为该样本数据所属类别。对比三种方法,不难发现基于属性数据标准差分类方法的稳定性和准确性,该算法对离群点样本数据预测有一定的优势。 II 4.朴素贝叶斯方法是传统数据挖掘的基本方法,本文通过引入粗糙集理论,以及“网络”的概念,优化传统的朴素贝叶斯方法。该方法首先应用粗糙集对数据进行预处理,消除冗余的数据,再通过贝叶斯网络的知识对数据进行挖掘。解决了朴素贝叶斯方法,先验概率难以获得以及要求各个特征属性之间条件独立的限制,具有很好的应用前景。 5.由于发电机结构以及振动的复杂性,造成了机组故障的多样性,随机性,同时存在着故障信息的不完整等特点。为了验证数据表分析的有效性,本文以发电机组为例子,利用粗糙集理论,首先对属性进行分类,建立模型。再通过贝叶斯网络的方法对数据进行处理,简化了处理过程,增加了结果的准确性,该方法在医疗诊断, 统计决策,故障分析等多个领域都有很好的应用前景。关键词：数据挖掘, 粗糙集, 属性数据, 贝叶斯网络, 发电机组的故障 III ABSTRACT The data mining technique is a combination of database ,machine learning,and statistical theory.Data mining can seek value and interesting informationg from rough,nosiy,incomplete and random databases.Rough theory introduced by Pawlak Z.in the early 1980s,is a mathematical tool used for dealing with uncertainty and vagueness.In recent years the rough set theory has been successfully applied in many areas,sucn as atrificial intelligence,knowledege discovery in database and fault diagnosii and expert system. On the basis of experts’ experience,the data mining is studied by aiming at the frequent problems in DM process.It’s hard to obtain the best results by mining on the raw databases,especially while the volume of th