- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据的产生、特点及其数据分析方法
大数据产生背景
进入 2012 年以来大数据(Big Data)一词越来越多地被人们提及与使用,人
用它来描述和定义信息爆炸时代产生的海量数据,它已经出现过在《纽约时报》、
《华尔街时报》的专栏封面、进入过美国白宫网的新闻、现身在国内外一些互联
网主题的讲座沙龙中,甚至被嗅觉灵敏的国君证劵、国泰君安、银河证劵等写进
了投资推荐报告。有人说21 世纪是数据信息时代,移动互联、社交网络、电子
商务大大拓展了互联网的疆界和应用领域,我们在享受便利的同时,也无偿贡献
了自己的“行踪”。现在互联网不但知道对面是一只狗,还知道这只狗喜欢什么
食物,几点出去遛弯,几点回窝睡觉。
我们不得不接受这个现实,每个人从互联网进入到大数据时代,都将是透明
性存在。各种数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企
业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人
们将越来越多的意识到数据对企业的重要性。
大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、
全面的洞察能力 “大数据”提供了前所未有的空间与潜力。
正如《纽约时报》2012 年 2 月的一篇专栏中所称,大数据时代已经降临,
在商业、经济及其他领域中,各种决策将日益基于数据和分析而作出,而并非基
于经验和直觉。哈佛大学社会学教授加里金说:“这是一场革命,庞大的数据资
源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开
始这种进程。
大数据的四大特点
海量性:例如,IDC 最近的报告预测称,到 2020 年,全球数据量将扩大 50
倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几
十 TB 到数 PB 不等。简而言之,存储 1 PB 数据将需要两万台配备 50GB 硬盘的
个人电脑。此外,各种意想不到的来源都能产生数据。
多样性:一个普遍观点认为,人们使用互联网搜索是形成数据多样性的主要
原因,这一看法部分正确。然而数据多样性的增加主要是由于新型多结构数据,
以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据
类型造成。其中部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数
据的多样性。
高速性:高速描述的是数据被创建和移动的速度。在高速网络时代,通过基
于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋
势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返
回给用户,以满足他们的实时需求。根据 IMS Research 关于数据创建速度的
调查,据预测,到 2020 年全球将拥有 220 亿部互联网连接设备。
易变性:大数据具有多层结构,这意味着大数据会呈现出多变的形式和类型。
相较传统的业务数据,大数据存在不规则和模糊不清的特性,造成很难甚至无法
使用传统的应用软件进行分析。传统业务数据随时间演变已拥有标准的格式,能
够被标准的商务智能软件识别。目前,企业面临的挑战是处理并从各种形式呈现
的复杂数据中挖掘价值。
大数据三大特征
第一个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置
信息等等多类型的数据对数据的处理能力提出了更高的要求 。
第二个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知
无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成
数据的价值“提纯”,是大数据时代亟待解决的难题。
第三个特征是处理速度快、时效性要求高。这是大数据区分于传统数据挖掘
最显著的特征。
大数据主要分析技术
我们要想从急剧增长的数据资源中充分挖掘并分析出有价值的信息,就需要
以先进的分析技术作为支撑。从宏观上来看,大数据分析技术的发展所面临的问
题均包含以下三个主要特征:
(1)数据结构与种类多样化,并以非结构化和半结构化的数据为主;
(2)数据量庞大并且正以惊人的速度持续增长;
(3)必须具备及时、快速的分析速度,即实时分析;
这些特征使得传统的数据分析技术很难满足要求,更加先进和优化的数据分
析平台才是大数据时代更好的选择。目前以及未来一段时期内,将主要通过分布
式数据库或者分布式计算集群来对存储于其内的海量数据进行由浅入深的分析
和分类汇总来更加有效
文档评论(0)