大数据预处理的学习与实操复盘总结。.pdfVIP

大数据预处理的学习与实操复盘总结。.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据预处理的学习与实操复盘总结。

大数据采集与预处理概述

21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务

等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。

杰姆·格雷(JimGray)提出著名的)提出著名的新摩尔定律新摩尔定律,即人类有史以来的数据

总量,每过18个月就会翻一番。

互联网每天产生的全部内容可以刻满6.4亿张DVD;全球每秒发送

290万封电子邮件,一分钟读一篇的话,足够一个人昼夜不停地读5.5年;

Google每天需要处理24PB的数据;每天会有2.88万个小时的视频上传

到YouTube,足够一个人昼夜不停地观看3.3年;网民每天在Facebook

上要花费234亿分钟,被移动互联网使用者发送和接收的数据高达44PB;

Twitter上每天发布5000万条消息,假设10秒就浏览一条消息,足够一

个人昼夜不停地浏览16年。随着人类活动的进一步扩展,数据规模会急

剧膨胀,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、

娱乐等在内的各行业累积的数据量越来越大,数据类型也越来越多、越来

越复杂。

下面列举下大数据采集的途径:

(1)系统日志采集

可以使用海量数据采集工具,用于系统日志采集,如Hadoop的

Chukwa、Cloudera的Flume、Facebook的Scribe等,这些工具均采

用分布式架构,能满足大数据的日志数据采集和传输需求。

(2)互联网数据采集

通过网络爬虫或网站公开API等方式从网站上获取数据信息,该方法

可以数据从网页中抽取出来,将其存储为统一的本地数据文件,它支持图

片、音频、视频等文件或附件的采集,附件与正文可以自动关联。除了网

站中包含的内容之外,还可以使用DPI或DFI等带宽管理技术实现对网络

流量的采集。

(3)APP移动端数据采集

APP是获取用户移动端数据的一种有效方法,APP中的SDK插件可

以将用户使用APP的信息汇总给指定服务器,即便用户在没有访问时,也

能获知用户终端的相关信息,包括安装应用的数量和类型等。单个APP用

户规模有限,数据量有限;但数十万APP用户,获取的用户终端数据和部

分行为数据也会达到数亿的量级。

(4)与数据服务机构进行合作

数据服务机构通常具备规范的数据共享和交易渠道,人们可以在平台

上快速、明确地获取自己所需要的数据。而对于企业生产经营数据或学科

研究数据等保密性要求较高的数据,也可以通过与企业或研究机构合作,

使用特定系统接口等相关方式采集数据。

(5)大企业基础支撑平台

提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构

化数据的数据库及物联网络资源等基础支撑环境。重点要解决分布式虚拟

存储技术,大数据获取、存储、组织、分析和决策操作的可视化接口技术,

大数据的网络传输与压缩技术,大数据隐私保护技术等。

(6)智能感知设备

包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及

软硬件资源接入系统,实现对结构化、半结构化、非结构化的海量数据的

智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管

理等。涉及有针对大数据源的智能识别、感知、适配、传输、接入等技术。

随着物联网技术、智能设备的发展,这种基于传感器的数据采集会越来越

多,相应对于这类的研究和应用也会越来越重要。

大数据正带来一场信息社会的变革。大量的结构化数据和非结构化数

据的广泛应用,致使人们需要重新思考已有的IT模式。与此同时,大数据

将推动进行又一次基于信息革命的业务转型,使社会能够借助大数据获取

更多的社会效益和发展机会。庞大的数据需要我们进行剥离、整理、归类、

建模、分析等操作,通过这些动作后,我们开始建立数据分析的维度,通

过对不同的维度数据进行分析,最终才能得到想到的数据和信息。

虽然采集端本身有很多数据库,但是如果要对这些海量数据进行有效

的分析,还是应该将这些数据导入到一个集中的大型分布式数据库或者分

布式存储集群当中,同时

文档评论(0)

180****0055 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档