网站大量收购闲置独家精品文档,联系QQ:2885784924

网络空间安全概论 实验7网络爬虫 租房信息爬虫及数据分析.docx

网络空间安全概论 实验7网络爬虫 租房信息爬虫及数据分析.docx

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

PAGE2

中国矿业大学计算机学院

2018级本科生课程报告

课程名称信息内容安全

报告题目租房信息爬虫及数据分析

报告时间2021.7.6

姓名李辰

学号

任课教师曹天杰

2020-2021(二)《信息内容安全》课程报告评分表

序号

毕业要求

课程教学目标

考查方式与考查点

占比

得分

1

2.3

目标1:掌握信息内容安全的基本概念、分类、原理和相关技术,能够根据课程基本知识对信息内容安全领域出现的问题进行归类、分析、并有初步分析和解决问题的能力。

通过课堂讲授和课堂研讨掌握信息内容安全概念和理论知识。

40%

3.2

目标2:掌握信息内容安全处理相关的理论、技术以及健全的评价体系,能够根据具体问题分析算法、设计算法、实现算法并能综合评价算法。

2

4.3

目标3:掌握信息内容安全的基础知识,针对具体问题和要求选择正确的技术路线,通过在实验环境中进行仿真实验并能根据算法特点进行攻击测试和综合性能评价,得到具有参考价值的结论。

课程报告;实现有关信息内容安全的一个软件系统。分析和对比各项技术,选择相应的技术进行算法设计并在实验环境中进行仿真实验和性能评价,得到有效结论。

60%

总分

100%

评阅人:

2021年7月10日

目录

TOC\o1-3\h\u21828报告摘要 4

19060报告正文 4

29376一、对58同城租房信息爬取 4

177191、网页内容定位爬取 4

749(1)租房价格 4

9449(2)租房标题 4

32335(3)其他租房信息 5

5092、反爬虫机制绕过 6

7556(1)访问时延设置 6

5293(2)伪造UA头 6

22952(3)绕过SSL认证,设置verify=False 6

13382(4)当过多,过快的对58同城网站进行爬取,导致IP封禁 6

278853、文件导出和去重 7

23012(1)数据处理过程 7

15596(2)数据文件展示 8

25594、IP代理池的IP过滤 8

9332(1)从网上爬取IP 8

25466(2)对IP进行过滤 9

2305、租房网页链接有效性判断 10

18453二、对导出数据进行分析 11

182731、导入数据格式处理 11

29031(1)去除size中的㎡ 11

18498(2)按区域处理数据 11

78982、数据可视化 11

15308(1)直方图显示户型 12

11314(2)折线图显示各区域平均祖金 12

18681(3)柱状图显示各区域租房数量 12

7595(4)图表展示 13

报告摘要

摘要:在数据爆炸的时代,繁杂冗余的数据让人眼花缭乱。我们需要对数据进行收集和分析,让我们对数据有更直观的认识。本报告主要对58同城的租房信息进行爬取和分析,最终以图表的方式显示出来。

关键词:爬虫;分析

报告正文

对58同城租房信息爬取

网页内容定位爬取

租房价格

分析图1.1.1中的价格位置,可以直接复制其中的CSS路径。(这里是以火狐为例,如果是谷歌的话复制selector路径)

图1.1.1

通过空列表暂时存储爬取的价格

图1.1.2

租房标题

分析图1.2.1中的标题位置,通过节点的迭代向下寻找到标题所在的节点。

图1.2.1

如图1.2.2其中使用正则表达式去除不需要的噪音信息。

图1.2.2

其他租房信息

如图1.3.1,其他租房信息按照标题的方式进行爬取和去除噪音信息。

图1.3.2

反爬虫机制绕过

访问时延设置

这里的time是用来设置休眠时间,random使用每次访问时延不同,防止被识别出。

time.sleep(random.randint(0,3))

伪造UA头

UA头使用的是fake_useragent库使每次访问爬取的时候都采用的时不同的UA头。

headers?=?{User-Agent:str(UserAgent().random)}

绕过SSL认证,设置verify=False

如图2.3.1所示,若未设置时,会出现人机验证,阻止进一步爬取。

图2.3.1

设置后如图2.3.2所示

图2.3.2

当过多,过快的对58同城网站进行爬取,导致IP封禁

如图2.4.1所示,被检测到

您可能关注的文档

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档