- 1、本文档共2页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
1)请阐述数据采集有哪些方法?
(1)系统日志采集
许多公司的平台每天会产生大量的日志(一般为流式数据,如搜索引擎的pv,查询等),处理这些日志需要特定的日志系统。因此日志采集系统的主要工作就是收集业务日志数据供离线和在线的分析系统使用。这种大数据采集方式可以高效地收集、聚合和移动大量的日志数据,并且能提供可靠的容错性能。高可用性、高可靠性和可扩展性是日志采集系统的基本特征。目前常用的开源日志采集平台包含有:ApacheFlume、Fluentd、Logstash、Chukwa、Scribe以及SplunkForwarder等。这些采集平台大部分采用的是分布式架构,以满足大规模日志采集的需要。具体的日志采集平台在下一节会介绍。
(2)网络数据采集
网络数据采集是指利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取,并按照一定规则和筛选标准进行数据归类,并形成数据库文件的一个过程。目前网络数据采集采用的技术基本上是利用垂直搜索引擎技术的网络蜘蛛(或数据采集机器人)、分词系统、任务与索引系统等技术进行综合运用而完成,并且随着互联网技术的发展和网络海量信息的增长,对信息的获取与分拣会成为一种越来越大的需求。目前常用的网页爬虫系统有ApacheNutch、Crawler4j、Scrapy等框架。由于采用多个系统并行抓取数据,这种方式能充分利用机器的计算资源和存储能力,大大提高系统抓取数据的能力,同时大大降低了开发人员的开发速率,使得开发人员可以很快的完成一个数据系统的开发。
(3)数据库采集
数据库采集是将实时产生的数据以记录的形式直接写入到企业的数据库中,然后使用特定的数据处理系统进行进一步分析。目前比较常见的数据库采集主要有MySQL、Oracle、Redis、Bennyunn以及MongoDB等。这种方法通常在采集端部署大量数据库,并对如何在这些数据库之间进行负载均衡和分片进行深入的思考和设计。
2)数据采集平台有哪些?
Flume、Fluentd、Logstash、Chukwa、Scribe、Kafka
3)为什么要进行数据清洗?
数据的不断剧增是大数据时代的显著特征,大数据必须经过清洗、分析、建模、可视化才能体现其潜在的价值。然而在众多数据中总是存在着许多“脏”数据,即不完整、不规范、不准确的数据,因此数据清洗就是指把“脏数据”彻底洗掉,包括检查数据一致性,处理无效值和缺失值等,从而提高数据质量。在实际的工作中,数据清洗通常占开发过程的50%-70%左右的时间。
4)数据清洗有哪些流程?
(1)数据清洗-预处理
(2)数据清洗-缺省值清洗
(3)数据清洗-格式与内容清洗
(4)数据清洗-逻辑错误清洗
(5)数据清洗-多余的数据清洗
(6)数据清洗-关联性验证
5)什么是数据标准化?
数据的标准化,是通过一定的数学变换方式,将原始数据按照一定的比例进行转换,使之落入到一个小的特定区间内,例如0~1或-1~1的区间内,消除不同变量之间性质、量纲、数量级等特征属性的差异,将其转化为一个无量纲的相对数值。因此标准化数值是使各指标的数值都处于同一个数量级别上,从而便于不同单位或数量级的指标能够进行综合分析和比较。
6)请阐述什么是数据仓库。
数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境,它研究和解决从数据库中获取信息的问题,并为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
7)实施ETL有哪些常见工具?
目前在市场上常见的ETL工具包含有:
(1)Talend
Talend是第一家针对的数据集成工具市场的ETL开源软件供应商。Talend以它的技术和商业双重模式为ETL服务提供了一个全新的远景。它打破了传统的独有封闭服务,提供了一个针对所有规模的公司的公开的,创新的,强大的灵活的软件解决方案。
(2)DataStage
DataStage是IBM公司的商业软件,是一种数据集成软件平台,能够帮助企业从散布在各个系统中的复杂异构信息获得更多价值。DataStage?支持对数据结构从简单到高度复杂的大量数据进行收集、变换和分发操作。并且Datastage全部的操作在同一个界面中,不用切换界面,能够看到数据的来源,整个job的情况。
(3)Kettle
Kettle中文名称叫水壶,是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
(4)InformaticaPowerCenter
Informat
您可能关注的文档
- 《大数据技术与应用》课程标准.docx
- 大数据技术与应用 第2版 教案全套(含思政)黄源 第1--3章 大数据介绍---数据采集与清洗 .docx
- 大数据技术与应用 第2版 课件 第3章 数据采集与清洗.ppt
- 大数据技术与应用 第2版 课件 第4章 大数据存储.ppt
- 大数据技术与应用 第2版 课件 第5章 大数据分析与挖掘.ppt
- 大数据技术与应用 第2版 课件 第7章 数据治理.ppt
- 大数据技术与应用 第2版 课件 第8章 大数据安全.ppt
- 大数据技术与应用 第2版 课件 第9章 大数据的行业应用.ppt
- 大数据技术与应用 第2版 课件全套 黄源 第1--9章 大数据介绍--- 大数据的行业应用.ppt
- 大数据技术与应用 第2版 期末测试(1).doc
- 湖南省常德市汉寿县汉寿县第一中学2024-2025学年高三下学期2月月考英语试题(原卷版+解析版).docx
- 第9课《木兰诗》课件(共30张ppt)2024—2025学年统编版语文七年级下册.pptx
- 2025年中考语文复习名著阅读专题《水浒传》古典小说的阅读 课件(共62张ppt).pptx
- 山东省临沂市郯城县美澳学校2024-2025学年高一下学期3月月考政治试题(原卷版+解析版).docx
- 广西南宁市天桃实验学校2024-2025学年九年级3月单元作业(一)道德与法治试题(原卷版+解析版).docx
- 江苏省连云港市东海县第二中学2024-2025学年高一下学期学分认定考试政治试卷(原卷版+解析版).docx
- 2025年陕西省西安市校联考中考一模道德与法治试题(原卷版+解析版).docx
- 江苏省苏州市部分校2024-2025学年高二上学期期末迎考政治试题 (原卷版+解析版).docx
- 2025年人教版七年级语文下册早读PPT 七下早读(第三单元)课件(共40张ppt).pptx
- 黑龙江省齐齐哈尔市讷河市第二中学2024-2025学年高一下学期3月月考政治试题(原卷版+解析版).docx
最近下载
- 产科质量控制工作总结.pptx
- 2025年安徽职业技术学院单招职业适应性考试题库及参考答案.docx VIP
- BOSE博士 SoundTouch SA-5 功放 快速启动指南 简体中文.pdf
- IPC JEDEC-9704基础讲解丨PCB应力应变测试.pdf
- 统编版小学语文三年级下册 第七单元复习卡.doc VIP
- GB+16423-2020金属非金属矿山安全规程.docx VIP
- 高中通用技术苏教版2019必修 技术与设计1(2019)第3章 发现与明确问题 公开课公开课.pptx VIP
- 药店销售流程与技巧.ppt VIP
- 2024年《民用航空法》考试复习题库及答案(含各题型).pdf VIP
- UG经典技巧(一)_中国模具论坛网.doc VIP
文档评论(0)