- 1、本文档共2页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
1)请阐述数据采集有哪些方法?
(1)系统日志采集
许多公司的平台每天会产生大量的日志(一般为流式数据,如搜索引擎的pv,查询等),处理这些日志需要特定的日志系统。因此日志采集系统的主要工作就是收集业务日志数据供离线和在线的分析系统使用。这种大数据采集方式可以高效地收集、聚合和移动大量的日志数据,并且能提供可靠的容错性能。高可用性、高可靠性和可扩展性是日志采集系统的基本特征。目前常用的开源日志采集平台包含有:ApacheFlume、Fluentd、Logstash、Chukwa、Scribe以及SplunkForwarder等。这些采集平台大部分采用的是分布式架构,以满足大规模日志采集的需要。具体的日志采集平台在下一节会介绍。
(2)网络数据采集
网络数据采集是指利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取,并按照一定规则和筛选标准进行数据归类,并形成数据库文件的一个过程。目前网络数据采集采用的技术基本上是利用垂直搜索引擎技术的网络蜘蛛(或数据采集机器人)、分词系统、任务与索引系统等技术进行综合运用而完成,并且随着互联网技术的发展和网络海量信息的增长,对信息的获取与分拣会成为一种越来越大的需求。目前常用的网页爬虫系统有ApacheNutch、Crawler4j、Scrapy等框架。由于采用多个系统并行抓取数据,这种方式能充分利用机器的计算资源和存储能力,大大提高系统抓取数据的能力,同时大大降低了开发人员的开发速率,使得开发人员可以很快的完成一个数据系统的开发。
(3)数据库采集
数据库采集是将实时产生的数据以记录的形式直接写入到企业的数据库中,然后使用特定的数据处理系统进行进一步分析。目前比较常见的数据库采集主要有MySQL、Oracle、Redis、Bennyunn以及MongoDB等。这种方法通常在采集端部署大量数据库,并对如何在这些数据库之间进行负载均衡和分片进行深入的思考和设计。
2)数据采集平台有哪些?
Flume、Fluentd、Logstash、Chukwa、Scribe、Kafka
3)为什么要进行数据清洗?
数据的不断剧增是大数据时代的显著特征,大数据必须经过清洗、分析、建模、可视化才能体现其潜在的价值。然而在众多数据中总是存在着许多“脏”数据,即不完整、不规范、不准确的数据,因此数据清洗就是指把“脏数据”彻底洗掉,包括检查数据一致性,处理无效值和缺失值等,从而提高数据质量。在实际的工作中,数据清洗通常占开发过程的50%-70%左右的时间。
4)数据清洗有哪些流程?
(1)数据清洗-预处理
(2)数据清洗-缺省值清洗
(3)数据清洗-格式与内容清洗
(4)数据清洗-逻辑错误清洗
(5)数据清洗-多余的数据清洗
(6)数据清洗-关联性验证
5)什么是数据标准化?
数据的标准化,是通过一定的数学变换方式,将原始数据按照一定的比例进行转换,使之落入到一个小的特定区间内,例如0~1或-1~1的区间内,消除不同变量之间性质、量纲、数量级等特征属性的差异,将其转化为一个无量纲的相对数值。因此标准化数值是使各指标的数值都处于同一个数量级别上,从而便于不同单位或数量级的指标能够进行综合分析和比较。
6)请阐述什么是数据仓库。
数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境,它研究和解决从数据库中获取信息的问题,并为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。
7)实施ETL有哪些常见工具?
目前在市场上常见的ETL工具包含有:
(1)Talend
Talend是第一家针对的数据集成工具市场的ETL开源软件供应商。Talend以它的技术和商业双重模式为ETL服务提供了一个全新的远景。它打破了传统的独有封闭服务,提供了一个针对所有规模的公司的公开的,创新的,强大的灵活的软件解决方案。
(2)DataStage
DataStage是IBM公司的商业软件,是一种数据集成软件平台,能够帮助企业从散布在各个系统中的复杂异构信息获得更多价值。DataStage?支持对数据结构从简单到高度复杂的大量数据进行收集、变换和分发操作。并且Datastage全部的操作在同一个界面中,不用切换界面,能够看到数据的来源,整个job的情况。
(3)Kettle
Kettle中文名称叫水壶,是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
(4)InformaticaPowerCenter
Informat
您可能关注的文档
- 《大数据技术与应用》课程标准.docx
- 大数据技术与应用 第2版 教案全套(含思政)黄源 第1--3章 大数据介绍---数据采集与清洗 .docx
- 大数据技术与应用 第2版 课件 第3章 数据采集与清洗.ppt
- 大数据技术与应用 第2版 课件 第4章 大数据存储.ppt
- 大数据技术与应用 第2版 课件 第5章 大数据分析与挖掘.ppt
- 大数据技术与应用 第2版 课件 第7章 数据治理.ppt
- 大数据技术与应用 第2版 课件 第8章 大数据安全.ppt
- 大数据技术与应用 第2版 课件 第9章 大数据的行业应用.ppt
- 大数据技术与应用 第2版 课件全套 黄源 第1--9章 大数据介绍--- 大数据的行业应用.ppt
- 大数据技术与应用 第2版 期末测试(1).doc
- 讲稿:深入理解“五个注重”把握进一步深化改革统筹部署以钉钉子精神抓好落实.pdf
- 副市长在2025年全市医疗工作会议上的讲话.docx
- 2025年市县处级以上党委(党组)理论学习中心组专题学习计划.docx
- 市民族宗教事务局党组书记、局长2024年度民主生活会个人对照检视发言材料.docx
- 烟草局党组书记2024年度抓基层党建工作述职报告.docx
- (汇编)学习2025年全国教育工作会议精神心得体会发言心得感悟.pdf
- 汇编学习领会在二十届中纪委四次全会上的重要讲话精神心得体会.pdf
- 在2025年镇安全生产、消防安全和生态环境保护第一次全体会议上的讲话提纲.docx
- 书记干部座谈会上的讲话+纪委全会上的讲话.pdf
- 党课:从毛泽东诗词中感悟共产党人初心使命.docx
文档评论(0)