基于大数据系统和分析技术研讨.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于大数据系统和分析技术研讨

基于大数据系统和分析技术研讨   摘要:随着科技的发展,先后出现了大数据系统和分析技术,并且在逐渐进步与成熟。现根据每种数据不同的处理形式、自身特点、运用场景以及各自典型的处理系统,特别地介绍了大数据系统未来发展的主要方向,并对大数据分析技术和应用做出了详细评述,以及概括了在大数据分析技术中占主导位置的多种技术。另外,本文还总结出大数据系统处理和分析技术方面存在的问题、机遇和挑战,并根据问题提出一些切实可行的方案和措施。   关键词:大数据系统;分析技术;研讨   中图分类号:TP391 文献识别码:A 文章编号:1001-828X(2016)021-000-01   一、前言   最近几年,大数据在迅猛发展,成为社会各界关注的焦点。那究竟何为大数据,人们仍莫衷一是。若站在微观世界的角度来看,大数据是连接物理世界、信息空间、人类社会的纽带;若站在信息产业的角度来看,大数据是新型信息技术产业高效的催化剂;站在社会经济角度来看,大数据是第二经济的关键产业和核心支持,是推动第二经济快速发展的永久动力。另外,美国政府称大数据是“未来的新石油”,一个国家所能拥有大数据的规模和对大数据处理的能力是衡量国家综合国力的重要指标之一,预计大数据将成为各个国家相互争夺的对象。显然,大数据的时代到来了。   面对大数据处理和分析技术方面的机遇和挑战,Google、Facebook等各大互联网企业不断努力和研究,现已开发出多种新型的大数据处理系统,并广泛运用于社会多个领域。本文主要介绍了多种大数据处理方法以及讲述一些具有代表性的处理系统,再指出深入探索、热爱学习、善于计算等对大数据分析技术的重要性,最后总结在大数据处理和分析中所遇到的重大挑战,并对此提出有效的解决措施。   二、大数据处理与系统   目前,对海量数据处理的要求是我们面对的重大挑战之一。处理形式包括3中,分别为批量处理静态数据、实时处理在线数据。以下,将对其分别分析和介绍。   (一)批量数据处理系统   大数据的批量处理对实时性的要求还不算太高,适用于先储存后计算,但是对数据的准确性和完整性要求非常严格。   1.批量处理的特征与典型运用   批量数据特征。批量数据主要有三个特征。一是数据量庞大,数据很少更新,储存时间长,不容易备份和转移。二是数据精确度高,这是由于数据是人们长期归纳总结下来的宝贵经验,是无形的财富。三是数据价值密度低,处理时间耗时长。对视频批量处理的过程中,需要处理大量的监控,但有价值的视频只有一两秒,这样就降低了效率。另外,如果处理后没有达到或偏离了预期的效果,这就会浪费更多的时间。综上所述,批量处理数据适用于有能力的、成熟的各大企业。   典型运用。数据处理广泛运用于各行各业,物联网、互联网、车联网等无一例外,以下主要介绍三个领域。在互联网领域,批量数据处理的典型应用是社交网络、电子商务、搜索引擎。其中,社交网络的数据主要是以新浪微博、微信等下载的图片、文字、音频等;电子商务在历史记录、商品描述、商品评论方面产生了较多的数据。在公共服务领域中,批量数据处理的典型运用主要是能源和医疗保健。其中,能源可以是地震时来自地球深处的能源,再进行收集整理,就可以知道地下的储煤量。   2.代表性的处理系统   2006年,基于前人的经验,Hadoop完成了两个引起超大反响的产品:HDFS和MapReduce。这也使它们一跃成为大数据批量处理的代表性处理系统。Hadoop是随着IT主流发展应运而生的产品,后来把HDFS和MapReduce.Hadoop当作其基础,加以发展并建立多个项目,形成了自己稳定的Hadoop生态体系。   最受欢迎的系统莫过于MapReduce编程系统了,其主要原因有:MapReduce系统是大规模集群系统,并且MapReduce系统结构简单、便于操作、容易理解。另外,最主要的一点是它有良好的数据护理性能。   (二)流式数据处理系统   流式数据处理起源于服务器的实时采集,是Google2011年在实时处理数据时开发的系统,引领人们向数据实时处理迈进。   1.流式数据的特征及典型运用   流式数据的特征。流式数据最主要的特征就是元组带有时间标签,且同一个流式数据在处理的时候有先后顺序。另外,流式数据的产生是实时的、无法预测的,因此数据往往是处于动态变化之中。   典型应用。同样,流式数据广泛地运用于社会多个领域,但典型的应用主要有一下两个:数据采集运用、金融银行业的运用。其中,银行在工作中会产生大量数据,这些数据时效性短,因此需要采用流式数据处理,以便银行进行实时决策。   2.代表性的处理系统   随着流式数据处理的不断发展,极具代表性的系统主要是:Twitter 的Storm、Linkedin 的

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档