- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘毕业论文
——数据挖掘技术及其应用
摘要:随着网络、数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积 累的数据越来越多。数据挖掘(Data Mining)就是从大量的实际应用数据中提取隐含 信息和知识,它利用了数据库、人工智能和数理统计等多方面的技术,是一类深 层次的数据分析方法。本文介绍了数据库技术的现状、效据挖掘的方法以及它在 Bayesian网建网技术中的应用:通过散据挖掘解决Bayesian网络建模过程中所遇 到的具体问题,即如何从太规模效据库中寻找各变量之间的关系以及如何确定条件 概率问题。
关键字:数据挖掘、知识获取、数据库、函数依赖、条件概率
J、引言:
数据是知识的源泉。但是,拥有大量的数据与拥有许多有用的知识完全是两回 事。过去几年中,从数据库中发现知识这一领域发展的很快。广阔的市场和研 究利益 促使这一领域的飞速发展。计算机技术和数据收集技术的进步使人们可以从更加广 泛的范围和几年前不可想象的速度收集和存储信息。收集数据是为了得到信息,然 而大量的数据木身并不意味信息。尽管现代的数据库技术使我们很容易存储大量的数
据流,但现在还没有一种成熟的技术帮助我们分析、理解并使数据以可理解的信息表 示出来。在过去,我们常用的知识获取方法是由知识工程师把专家经验知识经过分 析、筛选、比较、综合、再提取出知识和规则。然而 ,由
于知识工程师所拥有知识的有局限性,所以对于获得知识的可信度就应该打个 折扣。 目前,传统的知识获取技术面对巨型数据仓库无能为力,数据挖掘技术就应 运而生。
数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出 ,人们希望在
对已有的大量数据分析的基础上进行科学研究、商业决策或者企业管理 ,但是冃 前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望“数”兴
叹。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出 现的。数据挖掘通过在大量数据的基础上对各种学习算法的训练 ,得到数
据对象间的关系模式,这些模式反映了数据的内在特性,是对数据包含信息的更高层 次的抽象[1]o目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多的 关注,同时,在实际问题中,大量成功运用数据挖掘的实例说明了数据挖掘对科学研究 具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分析处理,以 节约时间,将更多的精力投入到更高层的研究中,从而提高科研工作的效率。
二、知识获取与数据挖掘
一般说来,知识获取(Kno wledge Discovery in Databases称称KDD)意为数 据库中知识获取,它代表从低层次数据中提取高层次知识的全过程,包括数据信息 的收 集,数据原型的确定,相关函数的分析,知识的抽取和数据模式分析。统计学中常指 的是无假设证实所进行的数据测量和分析。而数据挖掘则是指从数据中自动地抽取 模型。数据挖掘包括许多步骤:从大规模数据库中(或从其他来源)取得数据;选 择合适的特征属性;挑选合适的样本策略湯U除数据中不正常的数据并补足不够的部 分;用恰当的降维、变换使数据挖掘过程与数据模型相适合或相匹配 ;辨别所得
到的是否是知识则需将得到的结果信息化或可视化 ,然后与现有的知识相结合比 较。这些步骤是从数据到知识的必由之路。每一步骤都可能是成功的关键或失败的 开始。在一般的定义中数据挖掘是知识获取的一部分数据挖掘的研究领域涉及广泛, 主要包括数据库系统,基于知识的系统,人工智能,机器学习,知识获取,统计学,空间 数据库和数据可视化等领域。
(1) 统计学
统计学在数据样木选择、数据预处理及评价抽取知识的步骤中有非常重要的作 用。以往许多统计学的工作是针对数据和假设检验的模型进行评价[2-4],很明显也 包括了评价数据挖掘的结果。在数据预处理步骤中,统计学提出了估计噪声参数过程 中要用的平滑处理的技术,在一定程度上对补足丢失数据有相当的作用。统计学对检 测数据分析、聚类和实验数据参数设计上也有用。但统计学研究的焦点是在于处理 小规模数据样木釆集和小规模数据集处理的问题上。统计学的工作大多是针对技术 和模型的理论方面。于是许多工作是着眼于线性模型、递增的高斯噪声模型、参数 估计和严格分类参数模型上。只有在进行相近模式区别时才强调寻优。大多数数据 库用户并不具备恰当使用统计学知识的能力。实际上是要求有关数据库工程师或数 据库系统的管理员运用关于数据选择的模型、相当多的域知识和数学知识的能力, 在现实中是不大可能的。
(2) 模式识别
在模式识别工作中,传统上是把注意力集中在符号形式化直接结合实际技术的工 作过程中[5-6] o模式识别主要用于分类技术和数据的聚类技术上。模式识别中的分 类和含义分析是对数据挖掘概念形成的开端。多数模式识别的算法和方
您可能关注的文档
最近下载
- 小学英语新人教精通版三年级上册Unit 4 Friends Lesson 2教学课件2024秋.pptx
- 2025年易制毒化学品考试练习测试题附答案.doc
- 能源技术革命创新行动计划(2025-2030年).pptx VIP
- 创业资源的管理与整合.pptx VIP
- 2024科技住宅设计标准.docx VIP
- 2025年信息管理系统项目立项申请报告模板.docx
- 管道施工ppt课件学习资料.ppt VIP
- 【2024年7月中考试题观察研讨课件】7. 滨州中考第21题 解析.pptx VIP
- GB50156-2012(2014年版) 汽车加油加气站设计与施工规范.pdf VIP
- _黄帝内经_中相关_血气_气血_论述辨析.kdh.pdf VIP
原创力文档


文档评论(0)