网络空间安全概论实验7网络爬虫基于python爬取携程景点评论信息.docx

下载文档

0
0
约2.35千字
约 6页
2025-01-14 发布于山东
举报
版权申诉
保障服务

网络空间安全概论实验7网络爬虫基于python爬取携程景点评论信息.docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中国矿业大学计算机学院

2018级本科生课程报告

课程名称信息内容安全

报告题目基于python爬取携程景点评论信息

报告时间2021.7.6

姓名常雨晴

学号

任课教师曹天杰

2020-2021(二)《信息内容安全》课程报告评分表

序号

毕业要求

课程教学目标

考查方式与考查点

占比

得分

2.3

目标1:掌握信息内容安全的基本概念、分类、原理和相关技术，能够根据课程基本知识对信息内容安全领域出现的问题进行归类、分析、并有初步分析和解决问题的能力。

通过课堂讲授和课堂研讨掌握信息内容安全概念和理论知识。

40%

3.2

目标2：掌握信息内容安全处理相关的理论、技术以及健全的评价体系，能够根据具体问题分析算法、设计算法、实现算法并能综合评价算法。

4.3

目标3：掌握信息内容安全的基础知识，针对具体问题和要求选择正确的技术路线，通过在实验环境中进行仿真实验并能根据算法特点进行攻击测试和综合性能评价，得到具有参考价值的结论。

课程报告；实现有关信息内容安全的一个软件系统。分析和对比各项技术，选择相应的技术进行算法设计并在实验环境中进行仿真实验和性能评价，得到有效结论。

60%

总分

100%

评阅人：

2021年7月10日

报告摘要

如今，人类社会已经进入了大数据时代，数据成为了必不可少的部分，如何有效地提取并利用这些数据成为一个巨大的挑战。可见数据的获取非常重要，传统的通用搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性。因此如果市场上没有我们要的数据，那么就需要用爬虫来获得想要的数据。

关键词：爬虫；可视化；词云;

报告正文

1爬虫介绍

1.1爬虫原理

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。所有被爬虫抓取的网页将会被系统存贮，进行一定的分析、过滤，并建立索引，以便之后的查询和检索。

在运行爬虫之前，我们要知道网页三大特征：1）网页都有自己唯一的URL(统一资源定位符)来进行定位。2）网页都使用HTML(超文本标记语言)来描述页面信息。3）网页都使用HTTP/HTTPS(超文本传输协议)协议来传输HTML数据。因此，我们在设计一个爬虫时，首先确定要爬取的网页URL地址，接着通过HTTP/HTTPS协议来获取对于的HTML页面，提取HTML里面有用的数据，如果是有用的数据，那么就保存起来，如果是页面里有其他URL，那么就继续获取HTML页面知道爬取到有用的数据。

1.2爬虫流程

在本文中的爬虫运行流程基本如下：1）发起请求：通过HTTP库向目标站点发送一个Request，请求可以包含headers、data等信息，然后等待服务器响应。这个请求的过程就像我们打开浏览器，在浏览器地址栏输入网址，然后点击回车。这个过程其实就相当于浏览器作为一个浏览的客户端，向服务器端发送了一次请求。2）获取响应内容：如果服务器能正常响应，我们会得到一个Response，Response的内容便是所要获取的内容，类型可能有HTML、Json字符串，二进制数据等类型。这个过程就是服务器接收客户端的请求，进过解析发送给浏览器的网页HTML文件。3）解析内容：得到的内容可能是HTML，可以使用正则表达式，网页解析库进行解析。也可能是Json，可以直接转为Json对象解析。可能是二进制数据，可以做保存或者进一步处理。这一步相当于浏览器把服务器端的文件获取到本地，再进行解释并且展现出来。4）保存数据：保存的方式可以是把数据存为文本，也可以把数据保存到数据库，或者保存为特定的jpg，mp4等格式的文件。这就相当于我们在浏览网页时，下载了网页上的图片或者视频。

首先观察携程网站，点击评论下一页后，对浏览器的链接没有影响，这说明数据是Ajax异步请求。F12查看评论区的具体代码。F5刷新，打开网页的审查因素，查看network的传输内容。request的方式为POST，我们可以采取最简单的post方法。我们对URL进行筛选，筛选关键词为“comment”，选择“方法”列值为“POST”的URL。在“请求”中找到payload，就此我们得到了请求伪造的参

您可能关注的文档

文档评论（0）

balala11 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

网络空间安全概论实验7网络爬虫基于python爬取携程景点评论信息.docx