- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一个大数据的调查
陈敏、毛诗文、刘云浩
摘要:在这篇论文中,我们将回顾大数据的背景以及当前发展状况。我们首先介绍大数据的一般应用背景以及回顾涉及到的技术,例如:云计算、物联网、数据中心,以及Hadoop。接下来我们着重大数据价值链的四个阶段,也就是:数据生成,数据采集,数据存储和数据分析。对于每个阶段,我们介绍应用背景,讨论技术难题以及回顾最新技术。最后,我们介绍几个大数据的代表性应用,包括企业管理,物联网,在线社交网络,媒体应用,集成智慧,以及智能电网。这些讨论旨在提供一个全面的概述以及对读者感兴趣的领域的蓝图。这个调查包括了对开放问题和未来方向的讨论。
关键字 大数据 云计算 物联网 数据中心 Hadoop 智能电网 大数据分析
1、背景
1.1大数据时代的曙光
在过去的二十年,数据在各种各样的领域内爆炸式增长。按照2011年来自国际数据公司(IDC)的报告,世界上总共的创建及复制的数据量达到1.8zb,在五年内增长了大约九倍[1]。在未来这个数字至少每两年增加一倍。在全球数据的爆炸增长下,大数据这个词主要来描述巨大的数据集。与传统的数据集相比,大数据通常包括非结构化数据,这需要更实时的分析。
另外,大数据也能在发现新价值上带来新优势,帮助我们帮助我们获得一个深入隐藏价值的认识,也导致新挑战,例如,如何有效地组织和管理这样的数据集。
近日,行业产生兴趣的大数据的高潜力,许多政府机构公布主要计划加快大数据的研究和应用此外,大数据问题往往覆盖在公共媒体,如经济学[3,4],时报[5],和全国公共广播电台[6,7]。这两个主要的科学期刊,Nature和Science,还开通专栏讨论挑战和影响[8,9]。大数据的时代已经到来超越一切[10]。
目前,与互联网公司的业务大数据快速增长。例如,谷歌处理的数据数百拍字节(PB),Facebook的生成日志数据每月有超过10 PB,百度一家中国公司,流程数十PB的数据,而阿里巴巴的子公司产生几十太字节(TB)的数据。图1示出的全球数据量的热潮。大型数据集的数量急剧上升,它也带来许多具有挑战性的问题解决方案:
信息技术的最新(IT)使其更容易以产生数据。例如,平均72个小时的视频上传到YouTube[11]。因此,我们面临从广泛分布的数据源中收集和整合大量的云计算和物联网(IOT)进一步促进数据的大幅增长。云计算提供了,访问网站数据资产。在物联网的典范,遍布世界各地传感器正在收集和传送数据存储和处理。这样的数据在数量和相互关系将远远超过对IT架构和现有企业的基础设施的能力,它的实时要求也将极大地强调可用的计算能力。日益增长的数据造成怎样存储和管理如此庞大的异构数据集考虑到大数据的异质性,可扩展性,实时性,复杂性和保密性,我们将有效地在不同层面分析,建模,可视化和预测,“开采”数据集从而揭示其内在的性能完善大数据的特点
大数据是一个抽象的概念。除了大量的数据,它也有一些其他的功能,这决定本身和“海量数据”或之间的差异“很大的数据。”目前,虽然大的数据的重要性已经,人们仍然有不同意见。一般情况下,大数据是指不能由传统IT和软件/硬件工具处理察觉,获取,管理。不同的关注,科技企业,研究学者,数据分析,技术从业人员有不同的定义。以下定义可以帮助我们有一个在更好地理解社会,经济的技术内涵。
2010年,Apache Hadoop大数据是指不能由传统IT和软件/硬件工具处理察觉,获取,管理。在这一定义,在2011年5月,麦肯锡公司,一个全球咨询机构大数据作为下前沿创新,竞争和生产力。大数据系指可能经典数据库软件获得的数据集,这个定义包括两个含义:一是数据集“卷符合大数据的标准正在发生变化,可随着时间的推移或技术的进步;其次,数据集“卷顺应大标准在不同的应用数据彼此不同。在目前,大数据一般为几个TB到几PB [10]。从麦肯锡公司的定义,可以看出,一个数据集的体积不是唯一标准大数据。日益增长的数据规模不能由传统的处理,并对其管理数据库技术是接下来的两个关键特性。
META的分析师(现Gartner公司)道格·莱尼3VS模型挑战和机遇增加的数据数量,速度和品种在研究报告中[12]尽管这种最初不是用模型来定义大数据,Gartner等多家企业,其中包括IBM [13]微软的[14]研究部门仍然采用的是“3VS”模型来描述大数据在“3VS”的模式是指,与人民群众的产生和收集数据,数据规模越来越大;速度意味着大数据的时效性具体而言,数据采集分析等必须迅速和及时进行的从而为最大限度地利用大数据的商业价值;各种指示各种类型的数据,其中包括半结构化和非结构化数据,例如音频,视频,网页,和文字,以及传统的结构化数据。
然而,其他人有不同的意见,
您可能关注的文档
最近下载
- (新教科版)科学四年级上册全册教案及教学设计.pdf VIP
- 部编版八年级语文上册《短文二篇》PPT优秀课件.pptx VIP
- ZF_Intarder3_缓速器培训课件安喜光.pptx VIP
- 加氢搅拌器形式、原理及其发展趋势.pdf VIP
- 第一单元第2课《缤纷的世界美术流派》课件+教案-2025-2026学年人美版(2024)初中美术八年级上册.pptx VIP
- 初三冲刺班会动员课件PPT.pptx VIP
- 《一着惊海天》教学设计.docx VIP
- 电子信息工程专业未来就业岗位及发展前景分析报告.docx VIP
- 数字媒体艺术创意设计课件.pptx VIP
- 医院信息科笔试题库及答案.docx VIP
文档评论(0)