大数据技术原理与应用——大数据概述.pdfVIP

大数据技术原理与应用——大数据概述.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

⼤数据技术原理与应⽤——⼤数据概述

这篇博⽂⾥的好多内容之前在读《⼤数据时代》时读到过,所以就算是补上的读书笔记?

信息科技为⼤数据时代提供技术⽀撑

1.存储设备容量不断增加

2.CPU处理能⼒⼤幅提升

3.⽹络带宽不断增加

数据产⽣⽅式的变⾰促成⼤数据时代的来临

1.运营式系统阶段

2.⽤户原创内容阶段

3.感知式系统阶段

⼤数据的概念

关于“什么是⼤数据”这个问题,⼤家⽐较认可关于⼤数据的“4V”说法。⼤数据的4个“V”,或者说是⼤数据的四个特点,包含四个层⾯:

数据量⼤(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)和价值密度低(Value)。

⼤数据对科学研究的影响

1.第⼀种范式:实验科学:最初的科学研究阶段,⼈类采⽤实验来解决⼀些科学问题。

2.第⼆种范式:理论科学:随着科学的进步,⼈类开始采⽤数学、⼏何、物理等理论,构建问题模型和解决⽅案。

3.第三种范式:计算科学:计算科学主要⽤于对各个科学问题进⾏计算机模拟和其他形式的计算。

4.第四种范式:数据密集型科学:在⼤数据环境下,⼀切将以数据为中⼼,从数据中发现问题、解决问题,真正体现数据的价值。

⼤数据对思维⽅式的影响

1.全样⽽⾮抽样

2.效率⽽⾮精确

3.相关⽽⾮因果

⼤数据关键技术

当⼈们谈到⼤数据的时候,往往并⾮仅指数据本⾝,⽽是数据和⼤数据技术这⼆者的结合。所谓⼤数据技术,是指伴随着⼤数据的采

集、存储、分析和应⽤的相关技术,是⼀系列使⽤⾮传统的⼯具来对⼤量的结构化、半结构化和⾮结构化数据进⾏处理,从⽽获得分析和预

测结果的⼀系列数据处理和分析技术。

讨论⼤数据技术时,⾸先需要了解⼤数据的基本处理流程,主要包括数据采集、存储、分析和结果呈现等环节。数据⽆处不在,互联⽹

⽹站、政务系统、零售系统、办公系统、⾃动化⽣产系统、监控摄像头、传感器等,每时每刻都在不断产⽣数据。这些分散在各处的数据,

需要采⽤相应的设备或软件进⾏采集。采集到的数据通常⽆法直接⽤于后续的数据分析,因为对于来源众多、类型多样的数据⽽⾔,数据缺

失和语义模糊等问题是不可避免的,因⽽必须采取相应的措施有效解决这些问题,这就需要⼀个被称为“数据预处理”的过程,把数据变成⼀

个可⽤的状态。数据预处理以后,会被存放到⽂件系统或数据库系统中进⾏存储与管理,然后采⽤数据挖掘⼯具对数据进⾏处理分析,最后

采⽤可视化⼯具为⽤户呈现结果。在整个数据处理过程中,还必须注意隐私保护和数据安全等问题。

因此,从数据分析全流程的⾓度,⼤数据技术主要包括数据采集与预处理、数据存储和管理、数据处理与分析、数据安全和隐私保护等

⼏个层⾯的内容。

⼤数据计算模式

⼤数据处理的问题复杂多样,单⼀的计算模式是⽆法满⾜不同类型的计算需求的,MapReduce只是⼤数据计算模式中的⼀种,它代表

了针对⼤规模数据的批量处理技术,除此之外,还有查询分析计算、图计算、流计算等多种⼤数据计算模式。

1.批处理计算:批处理计算主要解决针对⼤规模数据的批量处理,也就是我们⽇常数据分析⼯作中⾮常常见的⼀类数据处理需求。

2.流计算:流数据是指在时间分布和数量上⽆限的⼀系列动态数据集合体,数据的价值随着时间的流逝⽽降低,因此必须采⽤实时计算

的⽅式给出秒级响应。流计算可以实时处理来⾃不同数据源的、连续到达的流数据,经过实时分析处理,给出有价值的分析结果。

3.图计算:在⼤数据时代,许多⼤数据都是以⼤规模图或⽹络的形式呈现的,如社交⽹络、传染病传播途径、交通事故对路⽹的影响

等,此外,许多⾮图结构的⼤数据也常常会被转换为图模型后再进⾏处理分析。

4.查询分析:针对超⼤规模数据的存储管理和查询分析,需要提供实时或准实时的响应,才能更好地满⾜企业经营管理需求。

⼤数据与云计算、物联⽹

1.云计算

云计算的概念:云计算实现了通过⽹络提供可伸缩的、廉价的分布式计算能⼒,⽤户只需要在具备⽹络接⼊条件的地⽅,就可以随

时随地获得所需的各种IT资源。云计算代表了以虚拟化技术为核⼼、以低成本为⽬标、动态可扩展的⽹络应⽤设施,是近⼏年最有代表性的

⽹络计算技术与模式。

云计算的关键技术:

(1)虚拟化:虚拟化技术是云计算基础架构的基⽯,是指将⼀台计算机虚拟为多台逻辑计算机,在⼀台计算机上同时运⾏多个逻

辑计算机,每个逻辑计算机可运⾏不同的操作系统,并且应⽤程序都可以在相互独⽴的空间内运⾏⽽互不影响,从⽽显著提升计算机的⼯作

效率。

(2)分布式存储:⾯对“数据

文档评论(0)

. + 关注
官方认证
文档贡献者

专注于职业教育考试,学历提升。

版权声明书
用户编号:8032132030000054
认证主体社旗县清显文具店
IP属地江苏
统一社会信用代码/组织机构代码
92411327MA45REK87Q

1亿VIP精品文档

相关文档