- 1、本文档共44页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第二章新媒体数据的采集
导语一场没有硝烟的战争正在进行中。与2003年SARS暴发时不同,新型冠状病毒感染的肺炎疫情暴发时,互联网已成为主要的信息平台,通过搜索引擎、信息流、社交网络、社交媒体、新闻客户端等,人们得以实时获取疫情动态和防疫知识,也可以知晓和关切疫区人民的状态。值得关注的是,2003年尚未出现的大数据,在这次疫情防控中发挥着重要作用,比如最新疫情信息发布、追溯传染源和传播路径、各方专家答疑解惑、社交媒体上的患者求助和认证、多平台防疫科普直播等。掌握科学的数据采集方法,可帮助我们探索更多未知世界。
学习目标“这是一个令人兴奋的时代,也是一个大数据的时代,数据科学让我们越来越多地从数据中观察到人类社会的复杂行为模式。”过去直觉和经验主导着我们的生活,而现如今,大数据时代的到来,已经深刻改变着我们的生产和生活,起决定性作用的是以数据为基础的技术正不断增加着我们的可用知识。如何从海量的数据中发现知识,寻找隐藏在数据中的模式、趋势和相关性,揭示社会现象与社会发展规律,都需要我们拥有较好的数据洞察力。为了使新媒体数据的分析更加精准、有效,被分析的数据必须通过科学的方法进行采集。本章主要讲解新媒体数据采集的基本原理,介绍几种常用的网络爬虫系统、智能爬虫软件的使用方法,并通过大量案例展示不同类型的新媒体平台的数据采集方法和途径。
目录第一节新媒体数据采集的基本原理第二节新媒体数据采集工具第三节常用新媒体平台的数据采集途径和方法
第一节新媒体数据采集的基本原理一、数据采集的基本途径二、网络数据爬取概述
一、数据采集的基本途径在互联网技术快速发展的今天,网络数据获取的需求和重要性不断凸显,数据采集技术日益迭代,国内外各种数据采集工具、数据获取平台先后问世,将数据采集带入了一个全新的时代。数据采集的基本途径有开放数据网站获取、新媒体平台后台数据获取、第三方数据公司提供、数据挖掘工具爬取四种。
(一)开放数据网站获取表常用开放数据网站
(二)新媒体平台后台数据获取互联网时代发展的重要趋向在于为用户提供更加个性化、更高质量的服务。目前,具有一定市场规模的新媒体平台可以为用户提供平台使用数据,供用户了解账号运营质量、预测运营方向、控制运营成本、评估运营效果。如果需要分析的数据新媒体后台可以提供,则无需花费时间进行统计与挖掘,直接在后台复制或下载数据即可。目前可以获取后台数据的新媒体平台包括微信公众平台、微博、淘宝、天猫、今日头条、百家号、爱奇艺、哔哩哔哩等。
(三)第三方数据公司提供在平台的后台无法对某项数据进行统计时,可以借助相关工具,在授权后利用第三方工具进行数据挖掘与获取,随后直接下载第三方工具得到的数据。其中包括免费的基础数据和付费的高级个性化数据两种。表常用第三方数据网站
(四)数据挖掘工具爬取网络爬取数据有两种方法:一种是通过使用网络爬虫系统爬取,另一种是通使用智能爬虫软件。网络爬虫系统智能爬虫软件R火车头采集器IBMSPSS八爪鱼采集器WEKA后羿采集器RapidMiner神箭手云爬虫Python集搜客
二、网络数据爬取概述网络爬虫(WebCrawler),又称为网络蜘蛛(WebSpider)或Web信息采集器,是一个自动下载网页的计算机程序或自动化脚本,是搜索引擎的重要组成部分。网络爬虫通常从一个称为种子集的URL集合开始运行,它首先将这些URL全部放入到一个有序的待爬虫队列里,按照一定的顺序从中取出URL并下载所指向的页面,分析页面内容,提取新的URL并存入待爬行URL队列中,如此重复上面的过程,直到URL队列为空或满足某个爬行终止条件,从而遍历Web,该过程成为网络爬虫。(一)网络爬虫的基本原理
(二)网络爬虫的分类网络爬虫按照不同的应用,可以分为批量型爬虫、增量型爬虫和垂直型爬虫三类;网络爬虫根据需求的不同可以爬取网页链接和爬取数据信息两类。
第二节新媒体数据采集工具一、常用的网络爬虫系统的基础介绍二、常用的智能爬虫软件的基础介绍
一、常用的网络爬虫系统的基础介绍(一)Python介绍Python是由GuidovanRossum在1989年开发的一种脚本新解释语言,是ABC语言的一种继承。由于开发者是MontyPython喜剧团的爱好者,故将系统命名为Python(蟒蛇)。Python作为一种热门语言,具有以下四个特点:1.语法清晰,代码友好,易读。2.应用广泛,具有大量的第三方库支持。3.可移植性强,易于操作各种存储数据的文本文件和数据库。4.Python是一种面向对象语言,支持开源思想。
(二)Python数据爬取程序基础介绍表常用数据爬取Python库库数据爬取中主要功能Requests重点在于页面下载,可实现页面级的HTTP请求BeautifulSoup网页文
您可能关注的文档
- 《婴幼儿心理发展》课件——第六章 学前儿童记忆的发展.pptx
- 《婴幼儿心理发展》课件——第九章 学前儿童言语的发展.pptx
- 《新媒体数据分析》课件——第8章 新媒体数据分析的高级应用.pptx
- 《新媒体数据分析》课件——第7章 新媒体数据分析的基础应用.pptx
- 《新媒体数据分析》课件——第6章 新媒体数据报告的撰写.pptx
- 《新媒体数据分析》课件——第5章 新媒体数据的可视化呈现.pptx
- 《新媒体数据分析》课件——第4章 新媒体数据的分析.pptx
- 《新媒体数据分析》课件——第3章 新媒体数据的处理.pptx
- 《新媒体数据分析》课件——第1章 新媒体数据分析概述.pptx
- 《物联网设备装调与维护》课件——第1章 物联网行业基础应用概述.pptx
- 2024年江西省寻乌县九上数学开学复习检测模拟试题【含答案】.doc
- 2024年江西省省宜春市袁州区数学九上开学学业水平测试模拟试题【含答案】.doc
- 《GB/T 44275.2-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第2部分:术语》.pdf
- 中国国家标准 GB/T 44275.2-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第2部分:术语.pdf
- GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构.pdf
- 《GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构》.pdf
- 中国国家标准 GB/T 44285.1-2024卡及身份识别安全设备 通过移动设备进行身份管理的构件 第1部分:移动电子身份系统的通用系统架构.pdf
- GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南.pdf
- 中国国家标准 GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南.pdf
- 《GB/T 44275.11-2024工业自动化系统与集成 开放技术字典及其在主数据中的应用 第11部分:术语制定指南》.pdf
文档评论(0)