- 1、本文档共16页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘概述
数据挖掘 (Data Mining ,DM )又称数据库中的知识发现 (Knowledge Discover in Database ,
KDD ),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数
据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程 。数据挖掘是一种决策支持过
程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化
地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减
少风险,做出正确的决策。
数据挖掘的定义
1.技术上的定义及含义
数据挖掘( Data Mining )就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用
数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定
义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发
现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问
题。
与数据挖掘相近的同义词有数据融合、人工智能、商务智能、模式识别、机器学习、知识发
现、数据分析和决策支持等。
何为知识 ? 从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、
模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一
样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和
图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学
的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和
过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的
应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚
了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等
方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。
这里所说的知识发现,不是要求发现放之四海而皆准的真理, 也不是要去发现崭新的自然科
学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是有特
定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所
发现的结果。
2.商业角度的定义
数据挖掘是一种新的商业信息处理技术 ,其主要特点是对商业数据库中的大量业务数据进行
抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。
简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年的历
史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力的限制,对
大数据量进行分析的复杂数据分析方法受到很大限制。现在,由于各行业业务自动化的实现,商
业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯机会的
(Opportunistic )商业运作而产生。分析这些数据也不再是单纯为了研究的需要,更主要是为商
业决策提供真正有价值的信息,进而获得利润。但所有企业面临的一个共同问题是:企业数据量
非常大,而其中真正有价值的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业
运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。
因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭
示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。
[
数据挖掘常用的方法
利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变
化和偏差分析、 Web 页挖掘等, 它们分别从不同的角度对数据进行挖掘。
①分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的
类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的
分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将
客户按照对汽车的喜好划分成不同的类 ,这样营销人员就可以将新型汽车的广告手册直接邮寄到
有这种喜
文档评论(0)