- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据研究综述151094 夏塑杰摘要:我们正在经历着一个数据爆炸的时代。海量数据的涌现切实地影响着我们的工作、生活,也为国家经济、社会发展带来了机遇。本文阐述了大数据的定义,介绍了其应用领域;归纳出了大数据的一般处理框架,针对云计算、GFS、MapReduce、BigTable等核心技术进行详述;最后总结了大数据时代面临的挑战。关键词:大数据;数据处理;云计算Research overview of big dataAbstract: We are experiencing a data explosion era.The emergence of huge amounts of data is really affecting our work and life and also bringing opportunities for the national economic and social development. This paperfirst expounded the definition of big data and introduces its application field. Secondly this paper Summed up the general frameworkof the big data processing and gave a detailed introduction of the key technology of the big data such as cloud computing、GFS、MapReduce、BigTable. Finally, the challenges in the big data era were pointed out.Key Words: big data; data processing; cloud computing引言:近20年来,随着科学和技术的迅猛发展,各个领域都出现了大规模的数据增长,包括光学观测、健康医护、科学传感器、互联网和金融公司以及供应链系统等。国际数据公司(IDC)报告称[1],2011年全球被创建和复制的数据总量为1.8ZB(1ZB≈1021B),在短短5年间增长了近9倍,而且预计这一数字将每两年至少翻一番。同时非结构化的数据所占的比重越来越大,尤其在互联网应用中,非结构化数据大幅增长,截止 2012 非结构化数据占互联网整个数据量的75%以上[2]。2012年3月29日,美国政府发布了“大数据研究发展倡议”[3],正式启动“大数据发展计划”,拟投资2亿美元在大数据的研究上,以培养更多的大数据研发与应用人才。2013年,中国科技部正式启动863项目“面向大数据的先进存储结构及关键技术”,启动5个大数据课题。这说明了我们正处于一个信息爆炸的时代,大数据的发展已经受到了世界范围内的广泛关注,发展趋势不可阻挡。1.大数据的定义和应用领域大数据本身是一个抽象的概念,关于大数据目前并没有一个很明确的定义。一般意义上[4],大数据是指无法在有限时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。不同的研究人士,由于各自关注的点不同,对大数据有不同的定义。但是大家都普遍认为,大数据有4“V”特征。即Volume(容量大)、Variety(种类多)、Velocity(速度快)和最重要的Value(价值密度低)[5-10]。维基百科中给出的定义为:所涉及的资料规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯。麦肯锡公司的定义为[3]:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。IDC公司在其2011年发布的报告中[11],将大数据定义为:大数据技术描述了新一代的技术和架构体系,通过高速采集、发现或分析,提取各种各样的大量数据的经济价值。其实大数据的关键并不在于如何去定义,而是如何去利用大数据,从中获取价值。大数据应用,是利用大数据分析的结果,为用户提供辅助决策,发掘潜在价值的过程。大数据的应用有着结构化数据分析、文本分析、网站分析、多媒体分析、网络分析和移动分析构成的6个关键分析领域[4]。在具体领域,大数据在企业内部、物联网、在线社交网络、医疗健康、制造业等领域有着广泛的应用。2.大数据的处理框架2.1大数据的处理流程目前,中国人民大学网络与移动数据管理实验室(WMDAM)[12]开发了一个学术空间“ScholarSpace”,从计算机领域收集的相关文献可以总结出大数据处理的一般流程[13]。在此基础上,刘智慧[14]和孟小峰[15]都总结了大数据的一般处理流程,基本可以分为:数据提取
文档评论(0)