- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据与数据采集
题目:大数据与数据采集姓 名:孙伟 学 号:2014300526班 级 摘??要:大数据浪潮正在席卷全球,成为一种新的生产力。大数据技术不仅仅指获得海量数据,更重要的意义是通过对海量数据的分析、整合来获得隐藏在数据背后的有价值的信息。而大数据作为一种崭新的思维方式更将给我们的社会带来新的变革。?关键词:大数据,数据分析,数据采集1. 大数据的概念大数据(Big Data)是指那些超过传统数据库系统处理能力的数据。它的数据规模和转输速度要求很高,或者其结构不适合原本的数据库系统。为了获取大数据中的价值,我们必须选择另一种方式来处理它。2.大数据的发展最早提出大数据时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素。而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。大数据迅速成为了计算机行业争相传诵的热门概念,也引起了行业内的高度关战略。虽然大数据目前在国内还处于初级阶段,但是商业价值已经显现出来。未来,大数据的整体态势和发展趋势,只要体现在几个方面:大数据与学术、大数据与人类的活动,大数据的安全隐私、关键应用、系统处理和整个产业的影响。大数据整体态势上,数据的规模将变得更大,数据资源化、数据的价值凸显、数据私有化出现和联盟共享。随着大数据的发展,数据共享联盟将逐渐壮大成为产业的核心一环。大数据的发展会催生许多新兴职业,会产生数据分析师、数据科学家、数据工程师,有非常丰富的数据经验的人才会成为稀缺人才。随着大数据的共享越来越大,隐私问题也随之而来,比如说每天产生的通话、位置等等,但这给带来了便利的同时也给带来了个人隐私的问题。数据资源化,大数据在国家各企业和社会层面成为最重要的战略资源,成为新的战略制高点和抢购的新焦点。3.大数据的分类3.1.按照数据分析的实时性,分为实时数据分析和离线数据分析两种实时数据分析一般用于金融、移动和互联网B2C等产品,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验的目的对于大多数反馈时间要求不是那么严苛的应用,比如离线统计分析、机器学习、搜索引擎的反向索引计算、推荐引擎的计算等,应采用离线分析的方式,通过数据采集工具将日志数据导入专用的分析平台。但面对海量数据,传统的ETL工具往往彻底失效,主要原因是数据格式转换的开销太大,在性能上无法满足海量数据的采集需求。3.2.按照大数据的数据量,分为内存级别、海量级别三种、BI级别。这里的内存级别指的是数据量不超过集群的内存最大值海量级别指的是对于数据库和BI产品已经完全失效或者成本过高的数据量BI级别指的是那些对于内存来说太大的数据量,但一般可以将其放入传统的BI产品和专门设计的BI数据库之中进行分析。4.大数据的特点4.1海量性企业面临着数据量的大规模增长。例如,IDC最近的报告预测称,到2020年,全球数据量将扩大50倍。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等。简而言之,存储1PB数据将需要两万台配备50GB硬盘的个人电脑。此外,各种意想不到的来源都能产生数据。4.2易变性 大数据具有多层结构,这意味着大数据会呈现出多变的形式和类型。相较传统的业务数据,大数据存在不规则和模糊不清的特性,造成很难甚至无法使用传统的应用软件进行分析。传统业务数据随时间演变已拥有标准的格式,能够被标准的商务智能软件识别。目前,企业面临的挑战是处理并从各种形式呈现的复杂数据中挖掘价值。4.3多样性 一个普遍观点认为,人们使用互联网搜索是形成数据多样性的主要原因,这一看法部分正确。然而,数据多样性的增加主要是由于新型多结构数据,以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。其中,部分传感器安装在火车、汽车和飞机上,每个传感器都增加了数据的多样性。4.4高速性高速描述的是数据被创建和移动的速度。在高速网络时代,通过基于实现软件性能优化的高速电脑处理器和服务器,创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据,还必须知道如何快速处理、分析并返回给用户,以满足他们的实时需求。根据IMS Research关于数据创建速度的调查,据预测,到2020年全球将拥有220亿部互联网连接设备。5大数据采集技术5.1.数据采集与大数据采集区别5.2传统数据采集的不足? 传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理。对依靠并行计算提升数据处理速度方面而言,传统的并行数据库技术追求高度一致性和容错性,根据CAP理论,难以保证其可用性和扩展性。5.3大数据采集新的方法5.3.1系统日志采集
文档评论(0)