人工智能采集和分析基础(Python版)课件 学习单元一 Python数据操作.pptx

人工智能采集和分析基础(Python版)课件 学习单元一 Python数据操作.pptx

  1. 1、本文档共43页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

任务1数据采集基础

任务2数据处理基础

任务3数据分析基础;任务1数据采集基础;数据是数据操作的前提,只有存在数据,才有操作数据的可能。本任务将对数据采集相关内容进行介绍,主要内容如下:

(1)数据采集概念;

(2)数据采集分类。

一、数据采集简介

数据采集,又称数据获取,是利用一种装置从系统外部采集数据并输入到系统内部的一个接口的过程。数据采集技术广泛应用在各个领域。采集的数据是已被转换为电信号的各种物理量,如温度、水位、风速、压力等,它们可以是模拟量,也可以是数字量。

;在互联网行业快速发展的今天,随着数据量的不断增长,数据采集已经被广泛应用于互联网及分布式领域。

新时代的数据采集是从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等获取数据的过程。数据包括RFID数据、传感器数据、用户行为数据、社交网络交互数据及移动互联网数据等各种结构化、非结构化及半结构化的海量数据。

1.结构化数据

结构化数据最常见,是指具有某种模式的数据,如图1-1所示。;2.非结构化数据

非结构化数据是指结构不规则或不完整,没有预定义模式的数据,包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等,如图1-2所示。

;3.半结构化数据

半结构化数据是介于结构化数据与非结构化数据之间的数据,如图1-3所示。XML和JSON就是常见的半结构化数据。;二、数据采集分类

相比于传统的人工录入、调查问卷、电话随访等数据采集方式,新时代的数据采集,根据数据源的不同,其方法也不相同。目前,数据采集有四种常用方法,即感知设备数据采集、系统日志采集、网络数据采集和数据库采集。

1.感知设备数据采集

感知设备数据采集指通过传感器、摄像头或其他智能终端自动感受信息,实现信号、图片、视频等数据的获取,并按一定规律变换成为电信号或其他所需形式的信息输出。例如,电子温度计、交通监控摄像头、照相机等的工作就属于感知设备数据采集。交通监控摄像头如图1-4所示。;2.系统日志采集

系统日志采集主要是收集系统日常产生的???量日志数据,如浏览日志(PV/UV等)、交互操作日志(操作事件)等,供离线和在线的数据分析系统使用。目前,系统日志采集通过在系统的页面中植入具有统计功能的JS代码来实现,可以在项目开发过程中手动植入,也可以在服务器请求时动态植入,并在采集完成后,根据不同需求选择立即或延迟汇总方式通过HTTP参数传递给后端,最后由后端脚本解析该HTTP参数,依据格式将数据存储到访问日志中。系统日志采集流程如图1-5所示。;3.网络数据采集

网络数据采集是使用网络爬虫、公开API等方式在网上到处或定向抓取特定网站网页数据信息的过程。其中,网络爬虫是目前网络数据采集最常用的方式,即从一个或多个网页的URL地址开始,在获取当前网页内容的同时,不断获取新的URL并放入访问队列,直到完成数据获取工作。

通过网络爬虫,可以将网页中的非结构化数据、半结构化数据从网页中提取出来,包括文本数据、图片数据、音频文件、视频文件等,最后可对提取后的数据进行分析或存储到本地文件、数据库等。

网页的爬取可以使用多种语言来实现。目前,Python提供了多个第三方用于爬虫操作的库,包括Requests、BeautifulSoup、XPath、re、Scrapy等。

1)?Requests

Requests是一个使用Python语言编写,基于urllib采用Apache2Licensed开源协议开发的HTTP库。;2)?BeautifulSoup

BeautifulSoup是一个HTML或XML解析库,它包含多个能快速获取数据的Python函数,通过少量代码即可编写出一个完整的应用程序,用于进行文档的解析,从而为用户抓取需要的数据。

3)?XPath

XPath即XML路径语言,是一门在XML文档中查找信息的语言,它同样适用于HTML文档的搜索,在爬取网页数据时可以使用XPath做相应的信息抽取。

4)?re

re模块是Python的一个内置模块,其提供了多个正则表达式应用方法,可以实现字符串的查询、替换、分割等。

5)?Scrapy

Scrapy是一个基于Python应用的可进行Twisted异步处理的第三方应用程序框架,用户只需要定制开发几个模块即可实现一个爬虫,用来快速爬取网站并从页面中抓取网页内容以及各种图片。;简单来说,Requests和Scrapy用于访问网页地址来获取页面内容,而BeautifulSoup、XPath和re则通过解析页面来提取数据。一个完整的网页爬取程序需要将Requests、BeautifulSoup、XPath、re、Scrapy等结合起来使用,并选择合适的库。

4.数据库采集

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档