网站大量收购独家精品文档,联系QQ:2885784924

2.1数据采集概述.pdf

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大数据财务分析

主讲:李盼盼

爱岗敬业诚实守信坚持准则提高技能

廉洁自律客观公正参与管理强化服务

项目二数据采集

任务一数据采集概述

数据采集概述

一、什么是数据采集?

数据采集

又称数据获取,是指将数据从数据源采集到可以支持大数据架构环

境的过程。

爱岗敬业诚实守信

数据采集概述

一、什么是数据采集?

数据采集

是数据挖掘、数据分析的一个环节,在数据处理过程中是非常基

本的操作步骤,也是数据分析道路上的重中之重。再好的分析原

理、建模算法,没有高质量的数据都是没有用的。数据采集的质

量直接决定了后续的分析是否准确。

廉洁自律客观公正

数据采集概述

二、数据采集的特征

采集规模大采集范围全采集维度细采集时效准

充分考虑企业规模数据的数量较多,而数据更重要的是能满足分析提高数据采集的及时

和数据规模的增长,且能够代表整体数据需求。灵活、快速自定义数性,从而提高后续数

提前做好数据信息的各个部分,数据面据的多种属性和不同类型,据应用的及时性。

积累的准备。足够支撑分析需求。从而满足不同的分析目标。

坚持准则提高技能

数据采集概述

三、数据采集的数据源

内部数据

数据

外部数据

结构化数据

数据

类型半结构化数据

非结构化数据

参与管理强化服务

数据采集概述

三、数据采集的数据源

爱岗敬业诚实守信

数据采集概述

四、数据采集的工具

廉洁自律客观公正

数据采集概述

四、数据采集的工具

爬虫的概念

爬虫(网络爬虫的简称),是一种按照一定规则,自动抓取网络信

息的程序。爬虫可以理解为一只在网络上爬行的蜘蛛。互联网就像

一张大网,爬虫便是在这张网上爬来爬去的蜘蛛。如果遇到猎物(

即所需的资源),它就会将其抓取下来。所以爬虫的目的在于将目

标网页数据下载至本地,以便进行后续的数据分析。

Python是一门非常适合爬虫的编程语言,它能提供许多与爬虫相

关的库(Requests库),可以高效实现网页爬取,并且可以用极短

的代码完成网页标签过滤功能

文档评论(0)

学海无涯而人有崖 + 关注
实名认证
内容提供者

教师资格证、人力资源管理师持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年06月11日上传了教师资格证、人力资源管理师

1亿VIP精品文档

相关文档