《Python安全实践——PythonHacking》课件_第3章.pptx

下载文档

0
0
约5.49千字
约 90页
2025-03-11 发布于广东
举报
版权申诉
保障服务

《Python安全实践——PythonHacking》课件_第3章.pptx

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、本文档共90页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第三章Python信息收集;

3.1简介

;

3.2外围信息收集

;

3.2.1Whois

Whois是用来查询域名注册信息的传输协议。通过域名注册信息可以判断所查询域名是否已经被注册，假如被注册，还可以查看到其域名注册时间、过期时间、注册商、注册商地址以及管理员的电话、邮箱、传真等信息。这些信息为社会工程学提供了可能。

使用Whois命令或者通过Whois查询网站对单个域名进行Whois查询是有效的，但在对多个站点进行批量查询时，其效率就比较低。在Python中可以使用ipwhois第三方库来完成上述工作。

;

ipwhois模块是一个提供了获取和解析IPv4及IPv6地址的Whois信息的Python第三方库。通过它可以获得指定IP的Whois信息并将其解析为字典结构，可以通过官方文档对其进行详细了解(网址为http://ipwhois.readthedocs.io/en/latest/)。

通过下面例子，了解ipwhois对单个IP的Whois查询过程。具体步骤如下：

;

(1)在终端执行如下命令：

pipinstallipwhois

(2)新建名为whois_auto.py的文件并输入以下代码：

;

(3)运行代码结果如下：

;;;

(4)上述代码实现了对单个域名进行Whois查询的功能。倘若需要查询多个域名，可以先将域名写入文件中，然后从文件中读取并逐个查询。修改上述代码，添加读取文件功能：

;;

(5)运行结果如下：

;;;;;

3.2.2GoogleHacking

GHDB(GoogleHackingDatabase)是一个收集了各种具有渗透用途的高级搜索语句数据库。其大致分为十四个模块，包括敏感文件搜索语句模块、包含用户名的文件搜索语句模块、包含密码的文件搜索语句模块等。我们可以批量地将这些高级搜索语句作用在一个网站上，用于收集关于此网站的信息，这就是本小节脚本所要实现的功能。GHDB类别如图3-1所示。

;;

脚本功能组成如图3-2所示，其主要分为GHDB更新模块和Google搜索模块。前部分比较容易完成，但是对于Google来说，正常情况下国内用户是访问不到的，这里需要使用代理，并且Google有很完善的反爬虫机制，这就需要脚本想尽一切方法来绕过。尽管脚本总体上看起来复杂，但实质上其只是两???爬虫的结合体，并且前面章节中也已经学习过爬虫的相关知识，本小节中结合实际用途对已介绍的知识进行巩固和扩展。

;;

在编写GHDB更新模块时，脚本需要对其主页进行爬取从而获得数据。在之前介绍过的爬虫编写的实例中，我们往往使用requests模块来获得网页内容，然后对其进行解析从而获得页面内容。但是这种方法并不适用于GHDB这类通过Ajax动态加载页面内容的网页。这是因为requests模块仅仅能够获得服务器原始的响应数据，但并不会像浏览器那样对其中的脚本进行解析运行，为此本小节中将要介绍新的爬虫编写技术，这种爬虫技术需要能够解析JS代码并执行。

;

Selenium-python是一个Web自动化测试框架，可以通过其官方主页https://selenium-python.readthedocs.io/对其安装流程及使用进行了解。Selenium模块提供了运行JS代码的能力，为此可以应用其对使用Ajax动态加载内容的网页进行爬取。

首先完成脚本的第一部分功能：更新GHDB数据库。创建名为Gh.py的脚本文件，输入以下代码：

;;;;;

打开存储在本地的高级搜索语句库，会发现每个库中存在很多条高级搜索语句，我们的目的是将每条语句与特定域名结合后并通过Google搜索，然后提取相应的搜索结果。此时可以计算对Google的访问量大概为

;

其中，i为所使用库的序号，ni为序号为i的库中的语句的数量。通过该公式计算可知访问量巨大，这就很容易使脚本被Google识别为爬虫。但是通过该公式我们还可以得到另外一条信息，就是如果将每页结果数调大，则我们的访问量会减少，每页访问量可以通过url中的num参数指定，本例中将其指定为100。除了尽量减小访问量外，还需要在每次访问时选择随机的代理，两次访问间隔不能太短并且要将其设置为随机数，每次访问选择随机的Google服务端。当然，如果有条件的话可以设置随机的代理服务器，本例中未对其进行实现。因为有上述条件的约束，所以代码在执行时非常慢，读者可以在完成所有脚本后体验一下。

;

上面的GHDB数据库的更新很简单，接下来完成Google内容的爬取。按照以下步骤完成本脚本中最难的部分：

(1)在终端执行如下命令：

(2)在importrandom后面添加：

您可能关注的文档

文档评论（0）

kd8w + 关注: 实名认证

内容提供者

kd8w

咨询Ta 进入空间

1亿VIP精品文档

更多 >

《Python安全实践——PythonHacking》课件_第3章.pptx