- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据预处理的学习与实操复盘总结。
大数据采集与预处理概述
21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务
等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。
杰姆·格雷(JimGray)提出著名的)提出著名的新摩尔定律新摩尔定律,即人类有史以来的数据
总量,每过18个月就会翻一番。
互联网每天产生的全部内容可以刻满6.4亿张DVD;全球每秒发送
290万封电子邮件,一分钟读一篇的话,足够一个人昼夜不停地读5.5年;
Google每天需要处理24PB的数据;每天会有2.88万个小时的视频上传
到YouTube,足够一个人昼夜不停地观看3.3年;网民每天在Facebook
上要花费234亿分钟,被移动互联网使用者发送和接收的数据高达44PB;
Twitter上每天发布5000万条消息,假设10秒就浏览一条消息,足够一
个人昼夜不停地浏览16年。随着人类活动的进一步扩展,数据规模会急
剧膨胀,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、
娱乐等在内的各行业累积的数据量越来越大,数据类型也越来越多、越来
越复杂。
下面列举下大数据采集的途径:
(1)系统日志采集
可以使用海量数据采集工具,用于系统日志采集,如Hadoop的
Chukwa、Cloudera的Flume、Facebook的Scribe等,这些工具均采
用分布式架构,能满足大数据的日志数据采集和传输需求。
(2)互联网数据采集
通过网络爬虫或网站公开API等方式从网站上获取数据信息,该方法
可以数据从网页中抽取出来,将其存储为统一的本地数据文件,它支持图
片、音频、视频等文件或附件的采集,附件与正文可以自动关联。除了网
站中包含的内容之外,还可以使用DPI或DFI等带宽管理技术实现对网络
流量的采集。
(3)APP移动端数据采集
APP是获取用户移动端数据的一种有效方法,APP中的SDK插件可
以将用户使用APP的信息汇总给指定服务器,即便用户在没有访问时,也
能获知用户终端的相关信息,包括安装应用的数量和类型等。单个APP用
户规模有限,数据量有限;但数十万APP用户,获取的用户终端数据和部
分行为数据也会达到数亿的量级。
(4)与数据服务机构进行合作
数据服务机构通常具备规范的数据共享和交易渠道,人们可以在平台
上快速、明确地获取自己所需要的数据。而对于企业生产经营数据或学科
研究数据等保密性要求较高的数据,也可以通过与企业或研究机构合作,
使用特定系统接口等相关方式采集数据。
(5)大企业基础支撑平台
提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构
化数据的数据库及物联网络资源等基础支撑环境。重点要解决分布式虚拟
存储技术,大数据获取、存储、组织、分析和决策操作的可视化接口技术,
大数据的网络传输与压缩技术,大数据隐私保护技术等。
(6)智能感知设备
包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及
软硬件资源接入系统,实现对结构化、半结构化、非结构化的海量数据的
智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管
理等。涉及有针对大数据源的智能识别、感知、适配、传输、接入等技术。
随着物联网技术、智能设备的发展,这种基于传感器的数据采集会越来越
多,相应对于这类的研究和应用也会越来越重要。
大数据正带来一场信息社会的变革。大量的结构化数据和非结构化数
据的广泛应用,致使人们需要重新思考已有的IT模式。与此同时,大数据
将推动进行又一次基于信息革命的业务转型,使社会能够借助大数据获取
更多的社会效益和发展机会。庞大的数据需要我们进行剥离、整理、归类、
建模、分析等操作,通过这些动作后,我们开始建立数据分析的维度,通
过对不同的维度数据进行分析,最终才能得到想到的数据和信息。
虽然采集端本身有很多数据库,但是如果要对这些海量数据进行有效
的分析,还是应该将这些数据导入到一个集中的大型分布式数据库或者分
布式存储集群当中,同时
您可能关注的文档
最近下载
- 辽宁开放大学《计算机组网技术》实训-小型校园网网络解决方案的设计与实施实训4-小型校园网网络解决方案的设计与实施.pdf VIP
- 后备箱集市活动策划.pptx VIP
- 二年级下册数学西师版暑假作业复习计划二升三年级.docx VIP
- 北师大版小学数学三年级下册《分一分(一)》说课稿.doc
- 中班科学活动PPT课件《认识蔬菜》.ppt
- 智慧港口整体解决方案.pptx VIP
- 国家开放大学电大专科(成本会计)2023-2024期末试题及答案(试卷号:2134).pdf
- 远程网络培训与校本研修整合实施方案.doc VIP
- 2023年我国母婴健康护理服务行业标准政策分析报告模板.pptx
- 直播文案写作 教案(人大) 项目四 直播话术灵活运用 教案.doc
文档评论(0)