大数据时代的数据挖掘.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据时代的数据挖掘   大数据是2012 的时髦词汇,正受到越来越多人的关注和谈论。大数据之所以受到人 们的关注和谈论,是因为隐藏在大数据后面超千亿美元的市场机会。   大数据时代,数据挖掘是最关键的工作。以下内容供个人学习用,感兴趣的朋友可以 看一下。   智库百科是这样描述数据挖掘的“数据挖掘又称数据库中的知识发现,是目前人工智 能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、 先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基 于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析 企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减 少风险,做出正确的决策。   数据挖掘的定义   技术上的定义及含义   数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际 应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过 程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户 感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知 识,仅支持特定的发现问题。   与数据挖掘相近的同义词有数据融合、人工智能、商务智能、模式识别、机器学习、 知识发现、数据分析和决策支持等。    何为知识从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规 则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采 矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的, 如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数 学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息 管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘 是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识, 提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工 智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据 挖掘这一新兴的研究领域,形成新的技术热点。   这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的 自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相 对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好 能用自然语言表达所发现的结果。   商业角度的定义   数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数 据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。   简而言之,数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年 的历史,只不过在过去数据收集和分析的目的是用于科学研究,另外,由于当时计算能力 的限制,对大数据量进行分析的复杂数据分析方法受到很大限制。现在,由于各行业业务 自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集 的,而是由于纯机会的(Opportunistic )商业运作而产生。分析这些数据也不再是单纯为 了研究的需要,更主要是为商业决策提供真正有价值的信息,进而   获得利润。但所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价 值的信息却很少,因此从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力 的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。   因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分 析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。   数据挖掘常用的方法   利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特 征、变化和偏差分析、Web 页挖掘等, 它们分别从不同的角度对数据进行挖掘。   ①分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不 同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应 用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如 一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽 车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商

文档评论(0)

tkhyxy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档