- 1、本文档共28页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
L/O/G/O数据挖掘概述姓名:XX学号:xx指导老师:XX数据挖掘的概念及过程数据挖掘的算法数据挖掘的应用数据挖掘面临的挑战4123目录前言随着科学技术、网络技术的迅猛发展,人类正在步入信息社会。面对今天浩如烟海的信息,以及数据背后隐藏的许多重要的信息,如何帮助人们有效地收集和选择所感兴趣的信息,更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它们之间的关系,使之能够真正地做到信息处理的自动化,这已成为信息技术领域的热点问题。数据挖掘就是为满足这种要求而产生并迅速发展起来的,可用于开发信息资源的一种新的数据处理技术。数据挖掘一词起源于KDD(KnowledgeDiscoveryinDatabase,数据库中的知识发现),可以追溯到20世纪80年代末。KDD这个名词的正式形成是在1989年美国底特律市召开的第一届KDD国际学术会议上,而第一届知识发现和数据挖掘(DataMining,DM)国际学术会议是在1995年加拿大召开的,会议上将数据库里存放的数据生动地比拟成矿床,从而“数据挖掘”这个名词很快就流传开来。数据挖掘的概念数据挖掘就是利用一系列相关算法和技术从大型数据库中的数据中提取人们感兴趣的知识。它们隐藏在数据中,之前不为人们所知但却是人们确实需要的有价值的潜在知识,所提取到的知识表示形式可以为概念、模式、规律和规则等;它可以通过对历史数据和当前数据的分析,帮助决策人员提取隐藏在数据中的潜在关系与模式等,进而协助其预测未来可能出现的状况和即将产生的结果。数据挖掘任务最常见的两种类型是:描述和预测。描述型数据挖掘的任务是寻找数据集中数据的一般特性,并对数据中存在的规则进行描述,或根据数据的相似性把数据分组。预测型数据挖掘的任务是根据当前数据进行推断和预测,进而由数据项的值来确定某种模式。数据挖掘是一个从不完整的、不明确的、大量的并且包含噪声,具有很大随机性的实际应用数据中,提取出隐含其中、事先未被人们获知、却潜在有用的知识或模式的过程。此定义包含了多个含义:(1)数据源必须为大量的、真实的并且包含噪声的;(2)挖掘到的新知识必须为用户需求的、感兴趣的;(3)挖掘到的知识为易理解的、可接受的、有效并且可运用的;(4)挖掘出的知识并不要求适用于所有领域,可以仅支持某个特定的应用发现问题。数据挖掘是一门综合型学科,涉及数据库技术、人工智能、机器学习、统计分析、可视化技术、信息检索等很多学科领域。Textinhere解释并评估结果,可视化多次循环反复操作,所得知识集成到业务系统中去2.数据准备3.数据挖掘4.结果分析数据挖掘的过程5.知识的同化1.确定业务对象数据选择、预处理、转换探索有预见性的问题,不盲目选择合适的挖掘算法数据挖掘主要模型与算法
数据挖掘技术主要涉及神经网络、决策树、遗传算法、数理统计分析、关联规则和聚类分析等方法和学科。1.神经网络方法神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性,为解决大复杂度问题提供了一种相对来说比较有效的简单方法,因此近年来越来越受到人们的关注。其工作机理是通过学习改变神经元之间的连接强度。神经网络有前向神经网络、反馈神经网络、自组织神经网络等,在神经网络中,由权重和网络的拓扑结构决定了它所能识别的模式类型。它是一种通过训练来学习的非线性预测模型,可以完成分类、聚类、特征挖掘等多种数据挖掘任务。2.决策树决策树学习着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。所以,从根到叶结点的一条路径就对应着一条合取规则,整棵决策树就对应着一组析取表达式规则。通过将大量数据有目的分类,从中找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策树方法是由Quinlan提出的著名的基于信息熵的ID3算法。3.遗传算法遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法己在优化计算、分类、机器学习等方面发挥了显著作用。在数据挖掘中,它还可以用于评估其它算法的适合度,在处理组合优化问题方面有一定的优势,可用于聚类分析等。遗传算法的最大特点在于演算简单,但其用于数据挖掘也存在一些问题:算法较复杂还有收敛于局部极小的过早收敛等难题未得到彻底解决。
文档评论(0)