- 1、本文档共39页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据基础与实务项目三大数据采集与清洗
项目三大数据采集与清洗能运用大数据采集与清洗的知识,做好大数据清洗与采集的全面准备工作能准确把握数据清洗的内容和目的能使用大数据采集工具采集所需数据熟练使用数据清洗工具能分析数据并定义清洗规则、搜寻并标识错误实例、纠正发现的错误职业能力职业素养具备大数据平台实践能力
知识图谱
数据采集任务一
任务描述知识准备课堂研讨拓展训练目录CONTENTSONETWOTHREEFOUR
任务描述大数据开启了一个大规模生产、分享和应用数据的时代,它给技术和商业带来了巨大的变化。麦肯锡研究表明,在医疗、零售和制造业领域,大数据每年可以提高劳动生产率0.5%~1%。大数据在核心领域的渗透速度有目共睹,然而调查显示,未被使用的信息比例高达99.4%,很大程度都是由于高价值的信息无法获取采集。因此在大数据时代背景下,如何从大数据中采集出有用的信息已经是大数据发展的关键因素之一。勤奋好学的张明找到老师并提问:什么是数据采集呢?
知识准备数据采集就是使用某种技术或手段,将数据收集起来并存储在某种设备上。数据采集处于大数据生命周期中的第一个环节,之后的分析挖掘都建立在数据采集的基础上。数据采集技术广泛应用在各个领域,比如摄像头和麦克风,都是数据采集工具。定义数据采集的概念一
知识准备数据采集的三大要点二全面性01多维性02高效性03
知识准备数据采集的数据源三1线上行为数据2内容数据页面数据、交互数据、表单数据、会话数据等应用日志、电子文档、机器数据、语音数据、社交媒体数据等新数据源的归纳与分类
知识准备数据采集的数据源三商业数据互联网数据传感器数据商业数据主要来源于公司业务平台的日志文件以及业务处理系统互联网数据的采集通常是借助于网络爬虫来完成的。所谓“网络爬虫”,就是一个在网上到处或定向抓取网页数据的程序。传感器是一种检测装置,能感受到被测量的信息,并能将感受到的信息,按一定规律变换成为电信号或其他所需形式的信息输出,以满足信息的传输、处理、存储、显示、记录和控制等要求。
课堂研讨在一些专业二手平台上,网售大数据采集和定制业务颇为盛行。有些从事信息贩卖的“商家”,正大肆兜售着覆盖诸多行业的用户信息,内容颇为庞杂,可谓五花八门,无所不包。有的还以行业明码标价,成行成市。这些人打着“专业定制”的旗号,无论需要哪类信息,只要客户提出要求,其都能从网上为你采集到。这些数据商的背后隐藏着一条非法获取用户数据的产业链。他们通过专业的“爬虫软件”,侵入搜索引擎、企业网页、公众号及微信朋友圈等,采集各类个人信息及实时数据,经过汇总、整理然后生成所谓大数据产品出售。思考:如果任由此类行业继续发展,将会带来怎样的后果?
拓展训练01请在网上查找有关数据采集的企业应用实例。
数据采集工具及采集方法任务二
任务描述知识准备课堂研讨拓展训练目录CONTENTSONETWOTHREEFOUR
近年来,由于互联网大数据技术的快速发展,以及消费者需求不断发生变化,对企业的营销方式也提出了更高的要求,以“产品为中心”的营销观念和手段无法适应目前市场和消费者需求多样化发展的形势。某烟草企业就面临这样的问题,想要找到基于大数据采集技术的企业营销的创新模式,能够实现对消费者的需求变化及时把控,真正做到以消费者为导向,从而进行有针对性的市场营销活动。任务描述
作为一名普通大学生,张明也想为该烟草公司筹谋划策,并准备从寻找合适的数据采集工具与方法开始入手。在上一任务中,张明了解到数据采集的数据源主要分为商业数据、互联网数据、传感器数据三大类,根据烟草公司的特性,张明想知道,可以采集到商业数据、互联网数据的工具及方法有哪些呢?任务描述
知识准备Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到的应用,其体系架构如图3-1所示。它能够从各种日志源上收集日志,存储到一个中央存储系统(可以是NFS,分布式文件系统等)上,以便于进行集中统计分析处理。(一)Scribe一日志收集系统图3-1Scribe体系架构图
知识准备Flume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。(二)Flume一日志收集系统图3-2Flume体系架构图
知识准备Chukwa是一个开源的用于监控大型分布式系统的数据收集系统。这是构建在Hadoop的HDFS和Mapreduce框架之上的,继承了Hadoop的可伸缩性和健壮性。Chukwa还包含了一个强大和灵活的工具集,可用于展示、监控和分析已收集的数据。(三)Chukwa一日志收集系统图3
文档评论(0)