大数据与数据挖掘.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据与数据挖掘.doc

大数据与数据挖掘   摘 要 本文从大数据与数据挖掘的概念入手,阐述了大数据与数据挖掘的来源、方法及技术体系。并从数据和使用工具方面比较了大数据与数据挖掘的异同,最后归纳总结了大数据时代数据挖掘的发展趋势及重要意义。   关键词 大数据 数据挖掘 数据分析   中图分类号:TP391. 7 文献标识码:A   1引言   自2012年3月奥巴公布了美国《大数据研究和发展计划》以来,大数据如浪潮般席卷着全世界,冲刷着地球的各个角落。从政府到商业科技、教育、医疗、经济、人文还有社会的其他各个领域都无时不能看到大数据的影子。于是各个领域各个专家开始如火如荼地讨论研究大数据的相关理论及技术。数据由数据挖掘时代过渡到大数据时代。   2数据挖掘   数据挖掘开始于上世纪70年代,经历了电子邮件时代、信息发布时代、电子商务时代、全程电子商务时代,是指从海量的、不完整的、模糊的实际应用数据中提取隐含在其中的人们事先不知道的但又可能有用的信息和知识的过程。通俗地讲,数据挖掘就是利用各种分析方法和工具,对数据库中积累的大最繁杂的历史数据进行分析、归纳与整合的工作,以发现数据内部的信息和关系的过程,提供企业管理层在进行决策时的参考依据。   数据挖掘一般经历如图1所示:数据准备-数据挖掘-知识发现与表示的三个过程。成熟的数据挖掘经典算法有决策树算法、聚类算法、神经网络算法、遗传算法等。   3大数据   大数据是指数据量特别大、数据类别特别复杂的数据集,这些数据集无法用传统的数据库进行存储,管理和处理,其具有Volume(数据量大),Velocity(数据处理速度快)、Variety(数据具有多样性)和Value(数据价值密度低)的4V特点。大数据是继云计算、物联网之后数据行业又一大颠覆性的技术革命。大数据时代的到来颠覆了工业界、学术界对传统数据的认知,同时也引起了数据获取、存储、分析、挖掘以及可视化等技术的变革。   根据大数据处理的生命周期,大数据的技术体系有大数据的采集与预处理、大数据存储与管理、大数据计算模式与系统、大数据分析与挖掘、大数据分析与挖掘、大数据可视化分析及大数据隐私与安全等几个方面,如图2所示。   4大数据与数据挖掘的关系   大数据与数据挖掘既有不同之处,又可互相关联。   4.1 数据挖掘与大数据的相同点   都有以海量数据为基础,通过某种或几种工具或算法,挖掘出供人们利用的知识发现和规律,供人们使用,为人们服务。在挖掘知识表示及规律方面,它们用的方法是大同小异的。   4.2大数据与数据挖掘的不同点   在数据方面:数据挖掘一般基于某个或几个数据库中的数据,数据规模相对较小,基本以为MB处理单位;数据类型种类单一,往往是一种或少数几种,而且以结构化数据为主;因为数据挖掘往往使用的是常规数据库,因此先有模式再有数据;数据仅作为处理对象。而大数据数据规模很大,以GB,甚至TB、PB为基本处理单位;数据种类繁多,而这些数据中又包含着结构化、半结构化以及非结构化的数据,而且占据着越来越多的份额;大数据时代很多情况下很难预先确定模式,模式只有在数据出现之后才能确定,且模式随着数据量的增长处于不断的演变之中;大数据时代的数据将作为一种资源来辅助解决其他诸多领域的问题;而且大数据由于其数据量太大因此还要考虑存储数据的问题。   在处理工具方面:数据挖掘一般应用一种工具或少数几种工具就可以处理得到发现的知识并加以应用,也就是所谓的One size fits all;大数据时代不可能存在一种工具就能解决问题,得出有用的结论,即No size fits all。   5总结   总之,大数据时代的数据利用云存储已渐成一个趋势,数据挖掘是其关键的一环,大数据的分析处理可以把海量数据分成几块利用数据挖掘技术进行挖掘,也可以将数据挖掘技术加以整合,研发出更高效、更准确的平台或算法对大数据直接进行挖掘,得出蕴含在海量数据中的规律或商机,如此才能让大数据真正切实地为人们服务。因此数据挖掘在大数据时代的数据分析和挖掘过程中具有重要的意义。   参考文献   [1] HU H,WEN Y G,CHUA T S,LI X L.Toward scalable system for big data analyties:a technology tutorial[J].IEEE Access,2014(2):652-687.   [2] 冯登国,张敏.李昊大数据安全与隐私保护[J].计算机学报,2014.   [3] 孟小峰.慈祥大数据管理:概念技术与挑战[J].计算机研究与发展,2013. 4

文档评论(0)

ganpeid + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档