- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据分析地流程浅析之一:大数据采集过程分析
数据采集,就是使用某种技术或手段,将数据收集起来并存储在 某种设备上,这种设备可以是磁盘或磁带 .区别于普通地数据分析, 大数据分析地数据采集在数据收集和存储技术上都是不同地 ?具体情
况如下:
1?大数据收集过程
在收集阶段,大数据分析在时空两个方面都有显著地不同 .在时
间维度上,为了获取更多地数据,大数据收集地时间频度大一些,有 时也叫数据采集地深度?在空间维度上,为了获取更准确地数据,数 据采集点设置得会更密一些 .b5E2RGbCAP
以收集一个面积为100 平方米地葡萄园地平均温度 为例?小数据时代,由于成本 地原因,葡萄园主只能在葡 萄园地中央设置一个温度计 用来计算温度,而且每一小 时观测一次,这样一天就只 有24个数据?而在大数据时 代,在空间维度上,可以设 置100个温度计,即每个1 平方米一个温度计;在时间维度上,每隔1分钟就观测一次,这样 天就有144000个数据,是原来地 6000倍.plEanqFDPw
有了大量地数据,我们就可以更准确地知道葡萄园地平均温度, 如果加上时间刻度地话,还可以得出一个时间序列地曲线,结果看起 来使人很神往.DXDiTa9E3d
2?大数据地存储技术
通过增加数据采集地深度和广度, 数据量越来越大,数据存储问
题就凸现?原来1TB地数据,可以使用一块硬盘就可以实现数据地存 储,而现在变成了 6000TB,也就是需要6000块硬盘来存放数据,而 且这个数据是每天都是增加地?这个时候计算机技术中地分布式计算 开始发挥优势,它可以将6000台甚至更多地计算机组合在一起,让 它们地硬盘组合成一块巨大地硬盘,这样人们就不用再害怕大数据了, 大数据再大,增加计算机就可以了 .实现分布式计算地软件有很多,
名气最大地,目前市场上应用最广地,就是 hadoop技术了,更精确
地说应该是叫hadoop框架.RTCrpUDGiT
hadoop框架由多种功能性软件组成,其自身只是搭建一个和操 作系统打交道地平台?其中最核心地软件有两个,一个是 hdfs分布式
文件系统,另一个是mapreduce分布式计算.hdfs分布式文件系统完成 地功能就是将6000台计算机组合在一起,使它们地硬盘组合成一块 巨大地硬盘,至于数据如何在硬盘上存放和读取,这件事由 hadoop
和hdfs共同完成,不用我们操心,这就如我们在使用一台计算机时 只管往硬盘上存放数据,而数据存放在硬盘上地哪个磁道,我们是不 用关心地 .5PCzVD7HxA
mapredce分布式计算则就实现让6000台计算机一起协同工作起 来,hadoop在设计mapredce时,最基本地思想就是让分析师不用操 心程序设计问题,这些问题需要和最底层地程序打交道地, 且只有优
秀地程序员才能解决地,而是让大数据分析师专注于业务流程进行简 单地mapredce程序编写,也就是说大数据分析师只需要知道简单地 mapreduce程序设计流程就可以了,不需要成为优秀地JAVA Python 程序员.hadoop框架地这种简单地设计思想,再加上它开源地特性, 使其一开始就受到很多主流地互联网公司所采用,接下来地事情就顺 理成章了,它成为全球最成功地解决大数据分析地分布式计算技 术.jLBHrnAlLg
区别于小数据采集,大数据采集不再仅仅使用问卷调查、 信息系 统地数据库取得结构化数据,大数据地来源有很多,主要包括使用网 络爬虫取得地网页文本数据、使用日志收集器收集地日志数据、 从关 系型数据库中取得地数据和由传感器收集到地时空数据等等, 而一些
图像和语音数据由于需要高端技术才能使其变成可以被普通地大数 据分析师所需要地数据而变得不那么亲切, 因此从现有地应用看可以
暂时不用考虑.XHAQX74J0X
CDA-hadoop大数据分析师培训团队
2015年5月7日
版权申明
本文部分内容,包括文字、图片、以及设计等在网上搜集整理 .
版权为个人所有
This article in eludes someparts, in cludi ng text, pictures, and desig n. Copyright is pers onal own ership. LDAYtRyKfE
用户可将本文地内容或服务用于个人学习、 研究或欣赏,以及其
他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律 地规定,不得侵犯本网站及相关权利人地合法权利 .除此以外,将本
文任何内容或服务用于其他用途时,须征得本人及相关权利人地书面 许可,并支付报酬.Zzz6ZB2Ltk
Users may use the contents or services of this article
for pers onal stu
文档评论(0)