网站大量收购闲置独家精品文档,联系QQ:2885784924

史上最系统的大数据挖掘技术及其应用介绍.docx

史上最系统的大数据挖掘技术及其应用介绍.docx

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
史上最系统的大数据挖掘技术及其应用介绍

从人类文明诞生的那一刻起,数据就伴随我们而生——人类交流信息所用的文字和语言,计量距离或数量使用的记号和图案,观察自然所积累和传承的经验等,都是数据构成的。这些数据在百万年历史长河里,为人类文明的发展进化带来了难以估量的巨大价值。自从人类发明了纸和笔,创造了数字、文字、几何技术后,数据有了更精确的描述和记录的方法,在此基础上催生出了数字、物理、化学,以及文学、艺术、管理等学科,我们今天所享受的现代文明,都深深的植根于数据技术。随着互联网时代的大发展,数据记录逐步脱离了纸笔的限制,人类发明了廉价的硅晶半导体所蕴藏的秘密,大量的数据可以按0或1的二进制方式存储半导体材料内,它们的存储能力如此巨大,成本如此低廉,以至于以往被轻易忽略的数据都能被忠实的保存下来:我们每一下轻微的呼吸、每一次心脏的跳动、每一下鼠标的点击,企业里员工的每一次出勤、财务的每一笔账单、客户的每一个评论,包罗万象都能一一记录。与此同时,数据的概念也在进一步拓宽。传统的数据是指用数字或文字描述的内容,通称为结构化数据,而大数据时代涌现出了大量新型数据的、非结构化的数据。例如人群之间看不见的社交关系(Social Relationships),移动设备发射的GPS位置,网络传播的图像、视频信号,可穿戴设备采集的健康数据等。对这些各种各样的数据的采集、挖掘、运用,也是现代大数据挖掘的重要研究课题。正在发生的大数据变革,恐怕是人类技术发展中最重要的话题之一,它冲击着许多主要的行业,包括零售业、服务业、电子商务和金融领域等,同时大数据技术也正在彻底的改变我们的日常生活。如果把数据比作是矿石的话,大数据挖掘技术就是要从矿石中提炼出黄金,并形成各种精致的制成品发挥作用的过程。它既能够通过移动应用和云服务追踪和提升个人的生活品质,也能为现代企业带来更高效和稳健的管理方式。小到个人,大到企业和国家,大数据均是极度重要的一个议题,需要我们真正的深入理解它,因此本文将对大数据挖掘技术给出全景式的介绍,首先给出大数据的背景、原理和概念,然后阐述大数据挖掘的方法和步骤,再讲解大数据在企业应用中的方式和收益,最后分享大数据时代的产业状况,和我们面临的挑战与机遇。2、大数据技术的背景、概念和意义2.1大数据的产生背景大数据热潮诞生的先决条件是计算机存储能力的迅速扩大和成本的一再降低。得益于半导体技术在过去20年里持续快速的发展,今天我们用500元人民币就能轻松买到一块能装得下63万本《红楼梦》的1T 容量的移动硬盘;价值2000元的一块PC硬盘甚至能存储下全世界迄今为止所有的音乐内容。在很多大型互联网公司里,拿一台较好配置的服务器,就可以一举装下美国国家图书馆里所有纸质书的内容——纵观整个人类文明发展史,今天人类拥有了史无前例的海量信息的存储能力,并且这个能力仍然在日新月异的向前发展着。与此同时,人类创造数据的能力也同样在高速增长。传统社会只有文人墨客、达官显贵才能青史上留下只言片语,而互联网时代里所有人都能轻松成为数据的生产者,例如Facebook上每月被用户分享500亿条新信息,全球的社交网络每天产生1亿张新照片。能够产生和采集数据的方式也越来越多——电脑、手机、电视、汽车……一切都在大踏步的向“智能化”迈进。我们对数据进行挖掘和处理的能力也遵照着“摩尔定律”在飞速的发展。这些IT技术在数据产生、存储、挖掘、运用方面的逐步成熟,让数据驱动产生价值的门槛越来越低,终于大数据时代的脚步匆匆到来了。2.2大数据的“4V”要素大数据(Big Data)概念最早的提出者是麦肯森咨询公司和IBM公司的科学家们。在大数据的定义中,有如下“4V”要素是必须的:Volume, Variety, Velocity, Value,具体含义如下:图1:大数据的4V要素Volume:具备超出典型数据库软件收集、存储、管理和分析能力的数据集;Variety:具备多样性的,结构化、半结构化、非结构化等多种类型的数据形式;Velocity:具备快速、实时的数据处理能力;Value:具备从稀疏的数据中挖掘高价值内容的意义。4V要素之间存在密切的关联关系:Volume是所有工作的基础,构建一个容量足够巨大的数据处理平台才能保证其上的应用;基于Volume进一步有Variety,用于多样化数据的处理;Velocity保证了系统有实时数据处理的能力;最终的Value体现了数据所能发挥的价值,大数据最重要的并非“大”,也并非“数据”本身,而是人们如何认识和使用它,尽最大可能挖掘出其中价值,正所谓吹尽黄沙始见金。2.3大数据价值企业信息化数据价值的最直观应用就是在企业管理里,这个过程和企业信息化的发展往往交织在一起。在1980s年代及以前,企业的各类业务、财务数据都是通过账簿记录,这种方式查阅和统计的效率都很低,可靠性也不高。从1

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档