- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据
大数据(bigdata,megadata),或称巨量资料,指的是需要新处理模式才能具有更强的决策
力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的4V特
点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
第一,数据体量巨大。从TB级别,跃升到PB级别。
第二,数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等。
第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物
联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各
样的传感器,无一不是数据来源或者承载的方式。
大数据最核心的价值就是在于对于海量数据进行存储和分析。
大数据(Bigdata)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据
在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一
起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千
的电脑分配工作。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大
数据技术。
大的数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技
术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,
云计算平台,互联网,和可扩展的存储系统,但不是所有的MPP的关系数据库的PB的数据
存储和管理的能力。隐含的负载,监控,备份和优化大型数据表的使用在RDBMS的。
SOA管理大数据SOA的三个数据中心模型分别是数据即服务(DaaS)模型、物
理层次结构模型和架构组件模型。DaaS数据存取的模型描述了数据是如何提供给SOA组
件的。物理模型描述了数据是如何存储的以及存储的层次图是如何传送到SOA数据存储器
上的。最后,架构模型描述了数据、数据管理服务和SOA组件之间的关系。
从大数据的价值链条来分析,存在三种模式:
1-手握大数据,但是没有利用好;比较典型的是金融机构,电信行业,政府机构等。
2-没有数据,但是知道如何帮助有数据的人利用它;比较典型的是IT咨询和服务企业,
比如,埃森哲,IBM,Oracle等。
3-既有数据,又有大数据思维;比较典型的是Google,Amazon,Mastercard等。
未来在大数据领域最具有价值的是两种事物:1-拥有大数据思维的人,这种人可以将大
数据的潜在价值转化为实际利益;2-还未有被大数据触及过的业务领域。这些是还未被挖掘
的油井,金矿,是所谓的蓝海。
大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数十、
数百或甚至数万的电脑分配工作。可以说,云计算充当了工业革命时期的发动机的角色,而
大数据则是电。如今,在Google、Amazon、Facebook等一批互联网企业引领下,一种
行之有效的模式出现了:云计算提供基础架构平台,大数据应用运行在这个平台上。
那么大数据到底需要哪些云计算技术呢?这里暂且列举一些,比如虚拟化技术,分布式处理
技术,海量数据的存储和管理技术,NoSQL、实时流数据处理、智能分析技术(类似模式识
别以及自然语言理解)等。
云计算和大数据之间的关系可以用下面的一张图来说明,两者之间结合后会产生如下效
应:可以提供更多基于海量业务数据的创新型服务;通过云计算技术的不断发展降低大数据
业务的创新成本。
分布式处理技术
分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用
通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务—这就是分布
式处理系统的定义。
以Hadoop(Yahoo)为例进行说明,Hadoop是一个实现了MapReduce模式的能够对
大量数据进行分布式处理的软件框架,是以一种可靠、高效、可伸缩的方式进行处理的。而
MapReduce是Google提出的一种云计算的核心计算模式,是一种分布式运算技术,也是简
化的分布式编程模式,MapReduce模式的主要思想是将自动分割要执行的问题(例如
您可能关注的文档
- 大数据驱动的个性化推荐系统设计 .pdf
- 大数据转让协议 .pdf
- 大数据营销运作方案 .pdf
- 大数据背景下精准扶贫管理系统的设计与优化 .pdf
- 大数据背景下企业财务管理创新的策略研究 .pdf
- 大数据管理与分析技术研究 .pdf
- 大数据的处理方法 .pdf
- 大数据是现代教育发展的趋势_光环大数据培训 .pdf
- 大数据时代的用户画像与个性化推荐研究 .pdf
- 大数据时代电子会计档案管理研究 .pdf
- DB14∕T 143-2019 苹果褐斑病测报调查规范.docx
- DB14∕T 1417-2017 人工生态公益林经营技术规范.docx
- DB14∕T 1469-2017 胡麻垄膜集雨沟播栽培技术规程.docx
- DB14∕T 1457-2017 带柄玻璃杯标准规范.docx
- DB14∕T 1394-2017 北柴胡良种繁育技术规程.docx
- DB14∕T 1352-2017 晋北区旱地黍子栽培技术规程.docx
- DB14∕T 560-2010 人工影响天气火箭作业系统年检技术规范.docx
- DB14∕T 1510-2017 玉米镰孢穗腐病抗性鉴定牙签接种技术规程.docx
- DB14∕T 166.2-2007 太原绿色转型标准体系 第2部分:框架.docx
- DB14∕T 703-2012 气象灾害等级划分.docx
文档评论(0)