- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
论数据挖掘技术及其应用实现
论数据挖掘技术及其应用实现 【摘 要】在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注,本文介绍在实际问题中,大量成功运用数据挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分析处理,以节约时间,将更多的精力投入到更高层的研究中,从而提高科研工作的效率。 【关键词】数据挖掘 知识获取 数据库 数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们希望在对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望“数”兴叹。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。数据挖掘通过在大量数据的基础上对各种学习算法的训练,得到数据对象间的关系模式,这些模式反映了数据的内在特性,是对数据包含信息的更高层次的抽象。 一、数据挖掘 数据挖掘是从数据仓库中提取出可信的、新颖的、有效的并能被人理解的模式的高级处理过程。所谓模式,可以看作是我们所说的知识,它给出了数据的特性或数据之间的关系,是对数据包含的信息更抽象的描述。如:成绩优秀的学生学习都非常刻苦;发烧的人是因为患了感冒等。模式的表示方法很多,可以利用图形、文字、表达式等方式表示;所谓处理过程是指数据挖掘是一个多步骤的对大量数据进行分析的过程,包括数据预处理、模式提取、知识评估及过程优化。知识提取往往需要经过多次的反复,通过对相关数据的再处理及知识学习算法的优化,不断提高学习效率。 二、数据挖掘的技术算法 在数据挖掘的处理过程中,数据挖掘引擎是最为关键的,而决定数据挖掘引擎的算法主要有以下几类: (一)数据挖掘的信息论方法 该类方法是利用信息论原理,计算数据库中各字段的信息量,建立决策树或者决策规则树。比较重要的有ID3方法和IBLE方法。 (二)数据挖掘的集合论方法 粗集方法:在数据库中将元素看成行对象,列元素看成属性(分为条件属性和结论属性)。等价关系定义为不同对象在某个属性上相同,这些等价关系的对象组成的集合称为该等价关系的等价类。条件属性上的等价类E与结论属性上的等价类之间有三种关系:下近似,Y包含E;上近似,Y和E的交非空;无关,Y和E的交为空。对下近似建立确定性规则,对上近似建立不确定性规则(含可信度),对无关情况不存在规则。 概念树方法:数据库中记录的属性字段按归类方式进行抽象,建立起来的层次结构称为概念树。 (三)数据挖掘的仿生物方法 神经网络方法:神经网络通过学习待分析数据中的模式来构造模型,一般可对隐类型进行分类,用于非线性的、复杂的数据。神经网络由“神经元”的互连或按层组织的结点构成。通常,神经模型由三个层次组成:输入、中间层和输出。每一神经元求得输入值,再计算总输入值,由过滤机制比较总输入,然后确定其自己的输出值。可通过连接一组神经元来模型化复杂行为。当修改连接层的“连接度”或参数时,神经网络就进行了“学习”和“训练”。这里,神经网络用恰当的数据仓库示例来训练。目前,神经网络以MP和Hebb学习规则为基础,建立了三大类多种神经网络模型。 三、数据挖掘技术的应用 首先介绍一个著名的实例:SKICAT。然后结合实际具体探讨数据挖掘技术在Bayesian中的应用。 (一)天文数据分析中的数据挖掘 数据挖掘在天文学上有一个非常著名的应用系统:SKICAT[外3]。它是美国加州理工学院(CIT)与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具。SKICAT既是第一个获得相当成功的数据挖掘应用,也是人工智能技术在天文学和空间科学上第一批成功应用之一。利用SKICAT,天文学家已发现了16个新的极其遥远的类星体,该项发现能帮助天文工作者更好地研究类星体的形成以及早期宇宙的结构。 (二)Bayesian网络中的数据挖掘 Bayesian网是由变量及其关联组成的有向图。它主要用于处理实际应用中遇到的不确定信息。图中还带有各变量的概率分布,定量的概率信息被表示为条件概率表中在决策前对实际问题的先验的理解与把握。 然而,针对实际问题建立一个应用于决策的Bayesian网络时存在两个问题。首先,我们常常是凭个人对问题的经验与理解来建立模型的,因此建立的模型很难反映问题的客观实际。其二,在确定Bayesian网中的条件概率表时,我们需要用定量的数值以支持计算,但实际中,人们很难给出一个具体概率值,一般的应用往往是根据经验,这就要求我们有一个合理的方法,从大量杂乱无序的数据中将它们找到,并填入条件概率表中去。 而数据挖掘技术恰恰为我们提供了一系列有效的方法来寻找隐藏于大规模数据之中的有用数据,以解决以上两个问题。在Bay
文档评论(0)