网站大量收购独家精品文档,联系QQ:2885784924

《Python安全实践——PythonHacking》课件_第3章.pptx

《Python安全实践——PythonHacking》课件_第3章.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共90页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第三章Python信息收集;

3.1简介

;

3.2外围信息收集

;

3.2.1Whois

Whois是用来查询域名注册信息的传输协议。通过域名注册信息可以判断所查询域名是否已经被注册,假如被注册,还可以查看到其域名注册时间、过期时间、注册商、注册商地址以及管理员的电话、邮箱、传真等信息。这些信息为社会工程学提供了可能。

使用Whois命令或者通过Whois查询网站对单个域名进行Whois查询是有效的,但在对多个站点进行批量查询时,其效率就比较低。在Python中可以使用ipwhois第三方库来完成上述工作。

;

ipwhois模块是一个提供了获取和解析IPv4及IPv6地址的Whois信息的Python第三方库。通过它可以获得指定IP的Whois信息并将其解析为字典结构,可以通过官方文档对其进行详细了解(网址为http://ipwhois.readthedocs.io/en/latest/)。

通过下面例子,了解ipwhois对单个IP的Whois查询过程。具体步骤如下:

;

(1)在终端执行如下命令:

pipinstallipwhois

(2)新建名为whois_auto.py的文件并输入以下代码:

;

(3)运行代码结果如下:

;;;

(4)上述代码实现了对单个域名进行Whois查询的功能。倘若需要查询多个域名,可以先将域名写入文件中,然后从文件中读取并逐个查询。修改上述代码,添加读取文件功能:

;;

(5)运行结果如下:

;;;;;

3.2.2GoogleHacking

GHDB(GoogleHackingDatabase)是一个收集了各种具有渗透用途的高级搜索语句数据库。其大致分为十四个模块,包括敏感文件搜索语句模块、包含用户名的文件搜索语句模块、包含密码的文件搜索语句模块等。我们可以批量地将这些高级搜索语句作用在一个网站上,用于收集关于此网站的信息,这就是本小节脚本所要实现的功能。GHDB类别如图3-1所示。

;;

脚本功能组成如图3-2所示,其主要分为GHDB更新模块和Google搜索模块。前部分比较容易完成,但是对于Google来说,正常情况下国内用户是访问不到的,这里需要使用代理,并且Google有很完善的反爬虫机制,这就需要脚本想尽一切方法来绕过。尽管脚本总体上看起来复杂,但实质上其只是两???爬虫的结合体,并且前面章节中也已经学习过爬虫的相关知识,本小节中结合实际用途对已介绍的知识进行巩固和扩展。

;;

在编写GHDB更新模块时,脚本需要对其主页进行爬取从而获得数据。在之前介绍过的爬虫编写的实例中,我们往往使用requests模块来获得网页内容,然后对其进行解析从而获得页面内容。但是这种方法并不适用于GHDB这类通过Ajax动态加载页面内容的网页。这是因为requests模块仅仅能够获得服务器原始的响应数据,但并不会像浏览器那样对其中的脚本进行解析运行,为此本小节中将要介绍新的爬虫编写技术,这种爬虫技术需要能够解析JS代码并执行。

;

Selenium-python是一个Web自动化测试框架,可以通过其官方主页https://selenium-python.readthedocs.io/对其安装流程及使用进行了解。Selenium模块提供了运行JS代码的能力,为此可以应用其对使用Ajax动态加载内容的网页进行爬取。

首先完成脚本的第一部分功能:更新GHDB数据库。创建名为Gh.py的脚本文件,输入以下代码:

;;;;;

打开存储在本地的高级搜索语句库,会发现每个库中存在很多条高级搜索语句,我们的目的是将每条语句与特定域名结合后并通过Google搜索,然后提取相应的搜索结果。此时可以计算对Google的访问量大概为

;

其中,i为所使用库的序号,ni为序号为i的库中的语句的数量。通过该公式计算可知访问量巨大,这就很容易使脚本被Google识别为爬虫。但是通过该公式我们还可以得到另外一条信息,就是如果将每页结果数调大,则我们的访问量会减少,每页访问量可以通过url中的num参数指定,本例中将其指定为100。除了尽量减小访问量外,还需要在每次访问时选择随机的代理,两次访问间隔不能太短并且要将其设置为随机数,每次访问选择随机的Google服务端。当然,如果有条件的话可以设置随机的代理服务器,本例中未对其进行实现。因为有上述条件的约束,所以代码在执行时非常慢,读者可以在完成所有脚本后体验一下。

;

上面的GHDB数据库的更新很简单,接下来完成Google内容的爬取。按照以下步骤完成本脚本中最难的部分:

(1)在终端执行如下命令:

(2)在importrandom后面添加:

您可能关注的文档

文档评论(0)

kd8w + 关注
实名认证
内容提供者

kd8w

1亿VIP精品文档

相关文档