- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第6章数据挖掘原理 6.1数据挖掘的基本概念 6.2数据挖掘的过程 6.3数据挖掘的常用方法和技术 6.4数据挖掘的知识表示 从OLTP到数据挖掘 数据库应用的规模和深度 点 线 面 互联网 在线分析处理(OLAP) 在线事务处理 决策支持(DS) (OLTP) 数据挖掘(Data Mining) 6.1 数据挖掘的基本概念 数据挖掘(Data Mining) :又称为数据库中的知识发现, 是基于AI、机器学习、统计学等技术,高度自动化地分析原有的数据,进行归纳性推理,从数据仓库或数据库中提取可信的、新颖的、有效的、人们感兴趣的、能别人理解的知识的高级处理过程。 这些知识是隐含的、事先未知的有用信息,提取的知识表现为概念、规则、模式、规律等形式,以帮助管理者作出正确的决策。 模式:它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。模式按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。 数据挖掘的发展 “从数据中发现有用模式”历来有很多称法,如: 数据挖掘(data mining) 知识提取(knowledge extraction) 信息发现(information discovery) 信息收获(information harvesting) 数据考古(data archaeology) 数据模式处理(data pattern processing) “数据挖掘”的称法大部分是由统计学家,数据分析学家和MIS团体使用的,在数据库领域也得到了广泛接受。 数据挖掘的发展 70~80年代:知识发现与数据挖掘结合 1989年6月:在美国底特律举行了第一届“从数据库中知识发现”的国际学术会议,在这次会议中第一次使用了KDD 这个词来强调“知识”是数据驱动(data-driven)发现的最终结果。 1995:加拿大召开第一届知识发现与数据挖掘国际学术会议 数据挖掘技术的应用开发在国外已经迅速发展,许多大公司(如Informix, Oracle, IBM等)都投入了巨资对其进行研究,并开发出了一些产品和原型,如DBMiner、Quest、EXPLORA等。 第一本关于数据挖掘的国际学术杂志《Data Mining and Knowledge Discovery》于1997年3月创刊。 国内在这方面的研究起步比较晚,早期研究的方向多集中于关联规则的挖掘,近来关于时序模式、分类、聚类、WEB数据挖掘等的研究也日益受到重视,并取得了不少可喜的成果,一些原型系统或数据挖掘工具已经研制成功并在不断完善中。 6.2 数据挖掘的过程 6.2.1 数据挖掘步骤: 第一步:数据准备; 第二步:数据挖掘 第三步:评价 第四步:巩固和运用 6.2.2 数据挖掘的对象: 6.2.3 数据挖掘的任务: 6.2.1 数据挖掘步骤: 1.数据准备阶段:经过处理过的数据一般存储在数据仓库中。数据准备是否做得充分将影响到数据挖掘的效率和准确度以及最终模式的有效性。包括: 数据的选择:选择相关的数据 数据的净化:消除噪音、冗余数据 数据的推测:推算缺失数据 数据的转化:离散值数据与连续值数据之间的相互转换、数据值的分组分类、数据项之间的计算组合等 数据的缩减:减少数据量 2.挖掘阶段:该阶段是数据挖掘的核心步骤,也是技术难点所在。根据数据挖掘的目标,采用人工智能、集合论、统计学等方法,应用相应的数据挖掘算法,分析数据并通过可视化工具表述所获得的模式或规则。 3.评价阶段:在数据挖掘中得到的模式可能是没有实际意义或没有使用价值的,也有可能不能准确反映数据的真实意义,甚至在某些情况下是与事实相反的,因此需要评估,确定哪些是有效的、有用的模式。评估可以根据用户多年的经验,有些模式也可以直接用数据来检验其准确性。 4. 巩固和运用阶段:用户理解的、并被认为是符合实际和有价值的模式形成了知识。同时还要对知识进行一致性检查,解决与以前得到的知识互相冲突、矛盾的地方,使知识得到巩固。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求运用知识对新的数据进行分析,由此可能产生新的问题,而需要对知识作进一步的优化。 6.2.2 数据挖掘的对象: 根据信息存储格式“用于挖掘的对象有关系数据库;面向对象数据库;数据仓库;文本数据;多媒体
您可能关注的文档
最近下载
- 2024年10月27日云南昭通市事业单位选调笔试真题及答案解析.doc VIP
- 讲义总结岩土工程勘察讲义.ppt VIP
- 非常规油气勘探开发地质风险评估.pdf
- 中职 图形图像处理(Photoshop CS5)PS(第7章)教学课件 高教版.ppt VIP
- 市政道路监理规划-范本.pdf VIP
- 2025海南省通信网络技术保障中心招聘事业编制人员12人(第1号)笔试模拟试题及答案解析.docx VIP
- 《飞机上应急医疗》课件——心肺复苏的流程.pptx VIP
- 中职 图形图像处理(Photoshop CS5)PS(第6章)教学课件 高教版.ppt VIP
- 抖音直播社区公约.pdf VIP
- 地质灾害治理工程施工技术规范 DB50_T 989-2020 重庆.pdf VIP
文档评论(0)