- 9
- 0
- 约4.04千字
- 约 4页
- 2017-09-14 发布于安徽
- 举报
优秀本科毕业设计,完美Word内部资料、支持编辑复制,值得参考!!!
基于变精度粗糙集的数据挖掘方法研究
摘要:随着信息化时代的到来,我们不仅希望能够获得丰富的数据,而且还能够从数据中获得所需要的相关信息。本文分析了它的研究背景,在此基础上,文章提出了数据挖掘方法的研究现状。接下来讨论了在数据挖掘研究中所遇到的技术难题以及发展趋势。笔者也提出了本文的主要工作是变精度粗糙集理论在不完备信息系统和完备信息系统中数据挖掘方法的研究。
关键词:变精度粗糙集;数据挖掘方法;方法;现状
随着互联网、移动互联设备以及计算机的广泛普及以及我国进入4G时代,信息化时代的特征也更为突出。人们能够非常容易地存储﹑获得、管理、分析、产生数据,从传统以获得数据为目的,转变到如何更好地获取其中对自己有价值的信息。数据挖掘的英文拼写是Data Mining(DM),它强调分析数据,从而更好地挖掘出具有潜在有价值的信息、技术、知识以及相关需要。数据发掘也体现为一种决策过程,它是建立在数据库技术、机器学习、信息检索、统计学、可视化、模式识别、知识获取、高性能计算机、知识库系统、神经网络、人工智能以及统计学等先进技术的基础上,此类技术的发展也会对DM技术的发展产生直接的影响。
一、数据挖掘方法和技术
从当前大部分的数据分析方法来看,整体上仍然属于统计学习方法、仿生物学方法以及机器学习方法等三大类中的其中一种或者多种方式的综合。而且这些方法也有着各自的缺点和优点,因此在处理具体的数据挖掘问题时,要挑选最为适宜的技术。如果数据挖掘系统比较复杂,通常都会运用多种类型的数据挖掘技术,也可能会融合多种类型的数据挖掘技术,从而更好地弥补由于数据挖掘技术而造成的诸多不足。
1、统计学习方法
在人类最初开始处理数据时,就是运用人工方法来开展统计分析,这种方法在数据挖掘范围内有着长期的应用传统。在数据分析过程中,可以运用统计来研究事物的外在数量以及表现,从而判断某事情的潜在规律。在解决机器学习问题的过程中,传统的统计方法依旧起到了至关重要的作用。重点讨论渐近理论,也就是在样本趋向于无穷多的过程中所具备的统计性质。而且它紧紧依靠显式的基本概率模型,最为采用的分析方式为回归、主元、聚类、主元以及相关分析等方式。
2、机器学习方法
从目前研究来看,机器学习方法仍然是重中之重,而且获得了较多的研究成果。从技术运用来看,主要可以分为下面两类:基于决策树以及基于决策规则的技术。
3、仿生物技术
遗传算法以及神经网络方法是最为典型的仿生物技术,这些都已经变成了相对独立的研究系统,极大地促进了数据挖掘的发展。从神经网络来看,它模能够拟人脑所特有的神经元结构,在Hebb以及MP学习规则的基础上而形成了前馈式、反馈式以及自组织等网络。前馈式网络被用来模式识别以及预测,反馈式网络专长于优化计算以及联想记忆,聚类研究中运用最多的是自组织网络。
从遗传算法来看,它是依据自然进化原理而形成的优化措施。在求解时最好借助彼此组合以及最好解的选择,希望能够获得愈来愈好的解的集合。遗传算法在数据挖掘过程中可以被用来形成变量之间的依赖关系的有关假设。
二、变精度粗糙集(VPRS)理论的研究现状
随着信息技术的不断发展,数据挖掘技术才得以出现和发展,它的数据库规模比较大、计算能力较强、计算方法非常科学,而且还能够满足不断升级的商业需求,这些因素共同催生了信息挖掘技术。这意味着能够从存放在数据库、其他信息库或者数据仓库中,挖掘出对研究有用的数据信息。自从Ziarko提出变精度粗糙集模型,相关研究者也将变精度粗糙集模型引入到数据挖掘领域后。粗糙集理论在处理噪声数据方面的能力就得到了极大的提升,而且大量的国内外学者也不断地开展这方面的理论研究,并且将其运用在数据挖掘实践中。从这个方面来看,变精度粗糙集模型很好地发展了粗糙集理论。在这个研究领域,重点在于基于变精度粗糙集模型中的知识约简理论、方法、如何确定精度值、模型应用以及推广等领域。
1、变精度粗糙集模型中的精度值的确定方法研究
从这个模型来看,精度取值能够很好地提取近似分类的确定性规则以及质量。Su等在这个领域中提出一种能够界定精度值的手段。吉阳生等研究者也研究出一种增量计算值的方式,这种方式能够选择合适的值,而且还呈现出动态增量的特征,而且极大地降低了计算开销。周爱武等学者则提出了能够在界定近似分类质量情况下的下取值范围的方式,依据近似分类质量,可以运用不同方法来有所区别地查找正确分类率的集合,从而较快地明确查找范围。
2、推广变精度粗糙集模型
巩增泰等在研究一般关系下的多数包含关系情况下,而且还提出了一种类型的一般关系下情况下的变精度粗糙集模型。Zhao等很好融合了模糊粗糙集模型与变精度粗糙集模型,在此基础上提出了模糊变精度粗糙集模型。Wang等讨论了不完备信息系统,重点研究了变精度粗糙集模型中基于非对称相似关系以及容差关系的性质。颜锦
原创力文档

文档评论(0)