网站大量收购闲置独家精品文档,联系QQ:2885784924

网络空间安全概论 实验7网络爬虫 scrapy爬虫+文本分类 .docx

网络空间安全概论 实验7网络爬虫 scrapy爬虫+文本分类 .docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

中国矿业大学计算机学院

2018级本科生课程报告

课程名称信息内容安全

报告题目scrapy爬虫+文本分类

报告时间2021.7.6

姓名刘昊

学号

任课教师曹天杰

2020-2021(二)《信息内容安全》课程报告评分表

序号

毕业要求

课程教学目标

考查方式与考查点

占比

得分

1

2.3

目标1:掌握信息内容安全的基本概念、分类、原理和相关技术,能够根据课程基本知识对信息内容安全领域出现的问题进行归类、分析、并有初步分析和解决问题的能力。

通过课堂讲授和课堂研讨掌握信息内容安全概念和理论知识。

40%

3.2

目标2:掌握信息内容安全处理相关的理论、技术以及健全的评价体系,能够根据具体问题分析算法、设计算法、实现算法并能综合评价算法。

2

4.3

目标3:掌握信息内容安全的基础知识,针对具体问题和要求选择正确的技术路线,通过在实验环境中进行仿真实验并能根据算法特点进行攻击测试和综合性能评价,得到具有参考价值的结论。

课程报告;实现有关信息内容安全的一个软件系统。分析和对比各项技术,选择相应的技术进行算法设计并在实验环境中进行仿真实验和性能评价,得到有效结论。

60%

总分

100%

评阅人:

2021年7月10日

报告摘要

使用了python中的scrapy爬虫框架爬取了豆瓣电影TOP250的电影相关信息,对这些信息进行了初步的统计分析,使用jieba分词工具对爬取的电影简介进行了分词及提取关键词的操作。还爬取了短评最多的电影的短评,但是由于豆瓣的限制,只能爬取到1500条短评。在进行数据清洗后将其按照评分打上对应的标签,之后生成训练集和测试集。使用fasttext分本分类工具和CNN对训练集进行有监督的学习,得到分类模型,最后使用测试集进行测试,评估模型的准确率。

关键词:scrapy;fasttext;监督学习;

报告正文

scrapy爬虫

scrapy是完全使用python语言编写的开源的爬虫框架。scrapy是基于twisted异步框架实现的,所以事件之间是异步非阻塞的。scrapy中已经实现了爬虫关键的部分,用户只需要编写几个模块就可以快速轻松的爬取网页内容。

数据流

图1.1scrapy数据流

scrapy框架的数据流如图1.1所示,数据流是由引擎控制的,流动顺序如下。

爬虫spiders将请求对象requests发送至引擎。

引擎将请求对象交给调度器对若干请求进行调度,然后接收后续的请求。

调度器将排序的第一个请求交给引擎。

引擎将请求通过下载中间件送至下载器。

请求页面下载完成后,下载器生成一个响应,再通过下载中间件送至引擎。

引擎接收响应并将其送至爬虫做处理,中间通过爬虫中间件。

爬虫处理响应,将需要的内容提取出来,和新的请求一并送至引擎。

引擎将提取的内容送至管道,将请求送至调度器。

重复上述步骤,直至调度器没有新的请求。

组件功能

引擎:控制所有组件之间的数据流,当特定行为发生时触发事件。

调度器:从引擎接收请求加入请求队列,当前请求完成后传送下一请求给引擎。

下载器:下载请求页面,生成响应,送至引擎。

爬虫:这是需要用户编写的组件,实现解析响应、提取内容和生成新请求。

管道:处理爬取的内容,一般为数据清洗、验证和可持续爬虫,如保存至数据库。

下载中间件:处理引擎和下载器之间传送的请求和响应。

爬虫中间件:处理引擎和爬虫之间传送的请求、响应和抓取的内容。

全局设置

在settings.py文件中进行全局的设置。主要的设置有设置下载延时为5秒,防止请求下载过快而被检测到;开启cookies,之后再进行请求的时候会自动带上上一次请求的cookies而无需再次添加;设置不遵循robots协议,豆瓣只允许几个特定的爬虫爬取其网页信息,所以想要爬取内容就要设置不遵循robots协议;设置日志等级为warning级别,使得输出信息更简洁;开启pipeline,需要指定pipeline及其优先级,多个管道之间通过优先级设置数据流通过管道的顺序,数字越小的优先级越高,管道内也可以区分爬虫,让不同的爬虫经过不同的管道;设置useragent,之后在请求的时候都会自动带上该useragent,一开始使用的是faker库来伪造useragent,每次请求时携带不同的useragent,但是由于没有使用代理,请求发送使用同一IP,useragent不同导致被检测到,IP被封禁了一段时间,所以后来直

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档