- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘复习资料.
1.3 支持数据挖掘技术的基础 数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初各种商业数据是存储在计算机的数据库中的,然后发展到可对数据库进行查询和访问,进而发展到对数据库的即时遍历。数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对过去的数据进行查询和遍历,并且能够找出过去数据之间的潜在联系,从而促进信息的传递。现在数据挖掘技术在商业应用中已经可以马上投入使用,因为对这种技术进行支持的三种基础技术已经发展成熟,他们是:- - 海量数据搜集- - 强大的多处理器计算机- - 数据挖掘算法
当前数据挖掘研究的主要方向
数据挖掘研究的发展方向
新的应用领域
WEB访问分析
入侵检测
生物信息学
…
新的工作形式
流数据分析
隐私保护
…
新的数据类型
文本数据
图数据
XML数据
…
数据挖掘的进一步深入
数据挖掘的技术定义
定义:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的、但又是潜在有用的信息和知识的过程.
定义所包含的意义:
—数据源必须是真实的、大量的、含噪声的;
—发现的是用户感兴趣的知识;
—发现的知识要可接受、可理解、可运用;
—这些知识是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价值.
简而言之,数据挖掘其实是一类深层次的数据分析方法.数据分析本身已经有很多年的历史,只不过在过去数据收集和分析的目的更多是用于科学研究.另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到很大限制.
数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,且进一步将其模型化的数据处理方法.
1、数据准备
数据准备又可分为三个子步骤:
—数据选取(确定发现任务的操作对象,即目标对象)
—数据预处理(包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等)
—数据变换(消减数据维数或降维)
2、数据挖掘阶段
—确定开采的任务,如数据总结、分类、聚类、关联规则发现或序列模式发现等.
—决定使用什么样的开采算法.
3、结果解释和评价
数据挖掘阶段发现出的模式,经过用户和机器的评价,可能存在冗余或无关的模式,这时需要剔除,使用户更容易理解和应用.
KDD(knowledge discovery in data)是一种知识发现的一连串程序,数据挖掘只是KDD的一个重要程序.
数据挖掘的质量取决于两方面的影响:
一、所采用的数据挖掘技术的有效性;
二、用于挖掘的数据的质量数量(数据量的大小)
如果选择了错误的数据或不恰当的属性,或对数据进行了不恰当的转换,则挖掘的结果是不会好的.
是从机器学习/人工智能,模式识别,统计学,和数据库系统中提取的概念(数据挖掘是一门交叉学科)
传统的技术方法可能
不在适用,因为:
“海量”数据
高维数据
异类的,分布式的数据
数据挖掘的对象
1、关系数据库
—数据挖掘用于关系数据库时,可以进一步搜索趋势或数据模式
—数据挖掘系统也可以检测偏差,如在商业营运中,与以前的年份相比,哪种商品的销售出人预料。这种偏差可以进一步考察,例如;包装是否有变化,或价格是否大幅度提高.
—关系数据库是数据挖掘最流行、最丰富的数据源,因此它是我们数据挖掘研究的主要数据形式.
2、数据仓库
—数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、不可更新的、随时间变化的、分层次的多维的集成数据集合。它为不同层次的管理者提供敏捷性和实用性的决策支持。数据仓库是一个环境,而不是一件产品。
注:数据库是按一定组织方式存储在计算机存储器中相互关联的数据集合,数据库的建立独立于程序。
数据仓储本身是一个非常大的数据库,它储存着由组织作业数据库中整合而来的数据,特别是指从在线交易系统OLTP(On-Line Transactional Processing)所得来的数据。将这些整合过的数据置放于数据仓储中,而公司的决策者则利用这些数据作决策;但是,这个转换及整合数据的过程,是建立一个数据仓储最大的挑战。因为将作业中的数据转换成有用的的策略性信息是整个数据仓储的重点。
综上所述,数据仓储应该具有这些数据:整合性数据(integrated data)、详细和汇总性的数据(detailed and summarized data)、历史数据、解释数据的数据。从数据仓储挖掘出对决策有用的信息与知识,是建立数据仓储与使用Data Mining的最大目的,两者的本质与过程是两码子事。换句话说,数据仓储应先行建立完成,Data min
文档评论(0)