第五章 数据挖掘ppt.ppt

  1. 1、本文档共76页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章 数据挖掘ppt.ppt

第五章 数据挖掘 §1 引言 §2 数据挖掘的定义 §3 数据挖掘的内容和本质 §4 数据挖掘的功能 §5 数据挖掘的流程 §6 关联规则挖掘方法 §1 引言 1.背景 2.网络之后的下一个技术热点 3.数据爆炸但知识贫乏 4.支持数据挖掘技术的基础 5.从商业数据到商业信息的进化 6.KDD的出现 7.数据挖掘的分类 8.数据挖掘工具 1.背景 ? 人类已进入一个崭新的信息时代; ? 数据库中存储的数据量急剧膨胀; ? 需从海量数据库和大量繁杂信息中提取有价值的知识,以提高信息的利用率; ? 产生了一个新的研究方向:数据库中的知识发现(KDD,Knowledge Discovery in Database),以及相应的数据挖掘(DM,Data Mining)理论和技术的研究; ? 随着大数据库的建立和海量数据的不断涌现,出现了“数据十分丰富,而信息相当贫乏”的现象,所以,迫切需求强有力的数据分析工具; ? 快速增长的海量数据存在大型数据库中,没有强有力的工具,理解它们已远远超出人的能力。故,有人称之为:“数据坟墓”; ? 由于ES 过分依赖用户或专家人工地将知识输入KB中,而且分析结果往往带有偏差和错误,再加上耗时、费用高,故不可行。 2.网络之后的下一个技术热点 大量信息在给人们带来方便的同时也带来了一大堆问题: ? 信息过量,难以消化; ? 信息真假难以辨识; ? 信息安全难以保证; ? 信息形式不一致,难以统一处理等。 面对这一挑战,数据挖掘和知识发现技术(DMKD)应运而生,并显示出强大的生命力。 3.数据爆炸但知识贫乏 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,应用中积累的数据越来越多。 目前的数据库系统可高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据背后隐藏的知识的手段,导致出现了“数据爆炸但知识贫乏”的现象。 4.支持数据挖掘技术的基础 DM使DB技术进入了一个更高的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。现在DM技术在商业应用中已经可以马上投入使用,因为对这种技术进行支持的三种基础技术已经发展成熟: ? 海量数据搜集 ? 强大的多处理器计算机 ? 数据挖掘算法 5.从商业数据到商业信息的进化 6.KDD的出现 数据库中的知识发现(KDD)一词,首次出现在1989年举行的第十一届AAAI学术会议上。 1995年在加拿大蒙特利尔召开了第一届KDD国际学术会议(KDD’95)。 由Kluwers Publishers出版,1997年创刊的《Knowledge Discovery and Data Mining》 是该领域中的第一本学术刊物。 ? KDD泛指所有从源数据中发掘模式或联系的方法,用来描述整个DM的过程,包括最开始的制定业务目标到最终的结果分析; ? DM用来描述使用挖掘算法进行数据挖掘的子过程; ? 最近人们逐渐开始把统计方法用于DM中的许多工作,并认为最好的策略是将统计方法与DM有机的结合起来; ? 数据仓库技术的发展与DM有着密切的关系,是促进DM越来越热的原因之一。但数据仓库并不是DM的先决条件,因为有很多DM可直接从数据源中挖掘信息。 7.数据挖掘的分类 数据挖掘是多学科的产物,如下图所示: 一般,数据挖掘可以分为以下三类: ? 传统分析类 相应的数据挖掘模型主要包括: 线性分析和非线性分析 回归分析 逻辑回归分析 变量分析 多变量分析 时间序列分析 最邻近算法 聚类分析等 ? 知识发现类 知识发现类有别于传统分析类——它可以从数据仓库的大量数据中筛选信息,寻找并发掘人们所不知道的事实和规律。 主要包括: 人工神经网络 决策树 遗传算法 粗糙集 关联规则等 ? 新近出现的挖掘技术 主要包括: 文本数据挖掘——针对非结构化信息; Web数据挖掘——针对大批量网络信息; 可视化系统——分为数据可视化、挖掘

文档评论(0)

过各自的生活 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档