- 6
- 0
- 约1.8千字
- 约 69页
- 2023-02-21 发布于广东
- 举报
数据采集概述;数据采集概述;数据采集概述;
在整个大数据的生命周期中,数据采集处于生命周期中的第一个阶段,是数据分析的前提。
数据采集又称为数据收集、数据获取、数据抓取。
数据采集是指通过各种技术手段实时或非实时地采集各种数据源产生的数据。
;结构化数据:结构化数据能够用统一、规范的数据结构加以表示,如传统的关系数据库存储的数据,一般可用二维表结构表示,可以用固定的键值获取相应的信息,且数据的格式是固定的。
非结构化数据:非结构化数据的数据结构不规整或不完整,没有预定义的数据模型。
半结构化数据:半结构化数据介于结构化数据和非结构的数据之间。;数据采集概述;数据采集概述;数据采集的性能要求;数据采集概述;数据采集概述;传统数据采集和大数据采集;谢谢观看;数据采集的工具;数据采集的工具;数据采集的工具;网络数据采集技术用于对互联网等网络平台上数据进行采集。
网络数据采集可进行广泛的或有针对性的数据抓取,按照一定规则和筛选标准对数据进行处理、归类,并存入数据库中。
网络数据采集是搜索引擎等信息系统的重要组成部分,主要利用网络爬虫等工具,从网络上获取数据。;选取一部分种子URL。
将这些URL放入待抓取URL队列。
从待抓取URL队列取出待抓取URL,通过域名解析,得到主机的IP地址,将URL对应的页面下载下来,并存储到已下载的页面库中。
将这些URL放入已抓取URL队列。
分析已抓取URL队列中的URL,分析其中的其他URL,并且将这些URL放入待抓取URL队列,进入下一轮循环。;网络数据采集;数据采集的工具;数据采集的工具;感知设备数据采集;感知设备数据采集;数据采集的工具;数据采集的工具;系统日志采集;系统日志采集;谢谢观看;分布式数据采集;分布式数据采集;分布式数据采集;随着数据量的增大,导致数据的采集和处理均需要采用分布式技术,采用分布式技术可以有效提高数据采集的速率。;分布式数据采集系统;分布式数据采集;分布式数据采集;分布式数据采集系统往往采用三层结构:
分布在不同地理位置的数据中心。
每个数据中心有若干台抓取服务器。
每台抓取服务器上又部署了若干??爬虫程序。;分布式数据采集系统的架构;谢谢观看;定向数据采集;定向数据采集;定向数据采集;通用数据采集的对象是从特定的种子链接开始的,采用广度搜索的方式,其目标是采集互联网上的全部页面。;定向数据采集服务于特定的专业群体,采集的数据只局限于某个主题或者与其相关的领域。
考虑发现的链接所对应的页面数据是否与主题具有相关性。
指定与主题相关的关键词,计算链接与主题的相关度。;定向数据采集;定向数据采集;定向数据采集算法;定向数据采集算法;定向数据采集;定向数据采集;Yahoo网站在成立初期主要采用人工方式采集网络数据,并将不同的网站进行分类,制作成树状目录。
网络爬虫可代替人工采集。
1994年,全世界首个搜索引擎Web Crawler创立。
1998年,Google公司正式成立。
2000年,致力于中文搜索的百度公司正式创立。;谢谢观看;网络数据采集系统;网络数据采集系统;网络数据采集系统;地震一场毁灭性的、不可避免的自然灾害,严重时会造成房屋损坏、交通瘫痪和人员伤亡。
在短时间内,精准地采集与灾害相关的页面数据,会对灾后救援产生积极的作用。以“地震”作为主题,通过设计定向数据采集系统,及时采集与灾害相关的数据,可以及时掌握地震的损害程度,合理地配置人力进行救援。;网络数据采集系统;网络数据采集系统;网络数据采集系统的架构;网络数据采集系统的架构;网络数据采集系统;网络数据采集系统;页面下载模块的主要作用:从互联网上采集与主题相关的页面数据。
页面下载模块的步骤:
根据URL获取页面所在的服务器。
与服务器建立连接。
通过多线程的方式下载页面数据。;解析不同的页面,判断待采集的链接是否与主题相关。
如果相关则把链接以参数的形式传递给采集对象。;链接调度模块的作用:完成海量链接的优化去重工作。
链接调度模块的步骤:
快速地过滤掉重复无用的链接。
对链接进行规范化处理,同时删除无意义的链接。
将获得的链接文件及逆行分割形成key,value,将中间结果合并。;网络数据采集系统;网络数据采集系统;网络数据采集系统的界面展示;网络数据采集系统的界面展示;网络数据采集系统的界面展示;谢谢观看
您可能关注的文档
- 《云计算与大数据》第10章 大数据应用.pptx
- 《云计算与大数据》第11章 大数据隐私保护.pptx
- 《云计算与大数据》第12章 商用云计算平台.pptx
- 《云计算与大数据》第13章 云操作系统OpenStack.pptx
- 《云计算与大数据》第14章 云仿真平台CloudSim.pptx
- 《云计算与大数据》第15章 分布式大数据平台Hadoop.pptx
- 《云计算与大数据》第16章 分布式内存计算平台Spark.pptx
- 《云计算与大数据》第1章 云计算概览.pptx
- 《云计算与大数据》第2章 虚拟化与容器技术.pptx
- 《云计算与大数据》第3章 云存储.pptx
- 《云计算与大数据》第9章 大数据处理.pptx
- 单片微机原理与接口技术——基于STC8H8K64U系列单片机-全套课件.pptx
- 电工电子技术实训教程(第2版)全套PPT课件.pptx
- 过程控制及其MATLAB实现(第3版)全套PPT课件.pptx
- 河南教材--中式面点技艺(第3版)全套PPT课件.pptx
- 基于eNSP的路由和交换实验——从模拟到实战-全套课件.pptx
- 汽车车身修复技术(第3版)全套PPT课件.pptx
- 数据分析基础技术——阿里云大数据分析师ACA认证培训教程-全套课件.pptx
- 数据分析实用技术——阿里云大数据分析师ACP认证培训教程-全套课件.pptx
- 中式烹饪原料(第3版)全套PPT课件.pptx
最近下载
- PEP人教版小学英语六年级下册教案 全册.pdf VIP
- 卸扣、卡线器出厂检测报告+合格证(1).pdf VIP
- 既有办公建筑超低能耗改造设计的策略与实践.docx VIP
- 2025(川教版)《生命生态安全》四年级下册全册教学设计 .pdf VIP
- 《人工智能通识》课件全套 模块1--4 从初识到大模型工具应用---从风险防范到未来发展.pptx
- 2026年人教版八年级生物下册 期末学情评估卷(含答案).pdf VIP
- 新解读《GB_T 38214 - 2019中空玻璃惰性气体含量测试方法》最新解读.docx VIP
- 捣固车自动作业控制系统设计与实现.pptx VIP
- 北师大版小学六年级数学毕业试卷(附答案).pptx VIP
- (2024-2025)中考语文名著《海底两万里》真题练习(学生版+解析版).docx
原创力文档

文档评论(0)