- 1、本文档共35页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据获取与预处理02DataAcquisitionAndPreprocessing
数据获取与预处理概述DataAcquisitionAndPreprocessingOverview
2.1.1数据获取在现实应用中,多个源系统的数据兼容性较差,因此需要对获取的异构数据进行处理。ETL方法提供了一个数据获取与预处理的标准流程和技术工具。数据获取是指从各种相关数据源获取数据的过程,也指ETL的数据获取环节,是数据分析与挖掘的基础。数据获取是ETL处理的第一步,也是最重要的一步,数据被成功获取后,才可以进行转换并加载到数据仓库中。
2.1.1数据获取传统数据获取和大数据获取有如下不同:数据源方面,传统数据获取的数据源单一,而大数据获取系统还需要从社交系统、互联网系统及各种类型的机器设备上获取数据。数据量方面,互联网系统和机器系统产生的数据量要远远大于企业系统产生的数据量。数据结构方面,传统数据获取系统获取的数据都是结构化数据,而大数据获取系统需要获取大量的视频、音频、照片等非结构化数据,以及网页、博客、日志等半结构化数据。数据产生速度,传统数据获取系统获取的数据几乎都是由人操作生成的,远远慢于机器生成数据的速度。
2.1.2数据清洗与数据转换在一般情况下,数据仓库分为ODS、DW两个部分。ODS是数据库到数据仓库的一种过渡,数据结构一般与数据源保持一致,便于减少ETL的工作复杂性,而且ODS的数据周期一般比较短。ODS的数据最终流入DW,DW是数据的归宿,这里保存着所有从ODS到来的数据,而且这些数据不会被修改。数据转换:它是在ODS到DW的过程中转换的,将数据转换为适用于查询和分析的形式和结构。数据从操作型源系统获取后,需要进行多种转换操作,通常是最复杂的部分,也是ETL处理中用时最长的一步。数据清洗:数据转换一个最重要的功能是数据清洗,目的是只有“合规”的数据才能进入目标数据仓库。这步操作在不同系统间交互和通信时尤为必要。
2.1.3数据加载数据加载就是将转换后的数据导入目标数据仓库中。这步操作需要重点考虑两个问题,一是数据加载的效率问题,二是一旦加载过程中失败了,如何再次执行加载过程。要提高数据加载的效率,加快加载速度,可以采用如下两种做法:保证足够的系统资源。在进行数据加载时,禁用数据库约束(唯一性、非空性、检查约束等)和索引,当加载过程完全结束后,再启用这些约束,重建索引。ETL系统一般会从多个应用系统中整合数据,常用实现方法有三种:借助ETL工具采用SQL方式ETL工具和SQL方式相结合为了提高ETL处理的效率,通常数据获取、数据转换、数据加载操作会并行执行。
数据获取技术DataAcquisitionTechnique
2.2.1数据获取技术概述数据获取需要在调研阶段做大量的工作。如果已经明确了需要获取的数据,下一步就该考虑从源系统获取数据的方法了。数据获取方法的选择高度依赖于源系统和目标数据仓库环境的业务需要。随着大数据的蓬勃发展,数据获取的来源广泛且数据量巨大,数据类型丰富,包括结构化数据、半结构化数据、非结构化数据,它们大多存在于分布式数据库中。目前大数据获取主要方法如下:数据库获取系统日志获取网络数据获取感知设备数据获取针对软件系统的数据获取,有如下三种方式:接口对接方式开放数据库方式基于底层数据交换的数据直接获取方式
2.2.2网络爬虫网络爬虫可以按照我们制定的规则自动浏览网络中的数据,这些规则称为网络爬虫算法。网络爬虫由控制节点、爬虫节点、资源库构成。控制节点主要负责根据URL分配线程,并调用爬虫节点进行具体的爬取爬虫节点会按照相关的算法,对网页进行具体的爬取,爬取后会将爬取结果存储到对应的资源库中。
通用网络爬虫通用网络爬虫的爬取目标是整个互联网上的所有网页。主要由初始URL集合、URL队列、网页爬取模块、网页分析模块、网页数据库、链接过滤模块等构成。通用网络爬虫在爬取的时候会采取一定的爬取策略,主要有深度优先策略和广度优先策略。这类网络爬虫主要应用于大型搜索引擎中,有非常高的应用价值。
聚焦网络爬虫聚焦网络爬虫是按照预先定义好的主题有选择地进行网页爬取的一种爬虫。可以大大节省爬虫爬取时所需的带宽资源和服务器资源。聚焦网络爬虫应用在对特定信息的爬取中,主要为某一类特定的人群提供服务,主要由初始URL集合、URL队列、网页爬取模块、网页分析模块、网页数据库、链接过滤模块、内容评价模块、链接评价模块等构成。聚焦网络爬虫的爬取策略主要有四种:基于内容评价的爬取策略基于链接评价的爬取策略基于强化学习的爬取策略基于语境图的爬取策略
增量式网络爬虫增量式更新指在更新的时候只更新改变的地方,未改变的地方则不更新,所以只爬取内容发生变化的网页或新产生的网页,对于未发生
您可能关注的文档
- 能源大数据分析理论与实践 课件 1.大数据概述.pptx
- 能源大数据分析理论与实践 课件 3.回归分析.pptx
- 能源大数据分析理论与实践 课件 4.分类分析.pptx
- 能源大数据分析理论与实践 课件 5.聚类分析.pptx
- 能源大数据分析理论与实践 课件 6.深度学习.pptx
- 能源大数据分析理论与实践 课件 7.能源系统.pptx
- 能源大数据分析理论与实践 课件 8.能源大数据应用.pptx
- 能源大数据分析理论与实践 课件 9.能源经济与管理大数据处理与分析案例.pptx
- 能源大数据分析理论与实践 课件 10.煤炭大数据案例.pptx
- 能源大数据分析理论与实践 课件 11.油气大数据分析案例.pptx
文档评论(0)