- 1、本文档共90页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第三章Python信息收集;
3.1简介
;
3.2外围信息收集
;
3.2.1Whois
Whois是用来查询域名注册信息的传输协议。通过域名注册信息可以判断所查询域名是否已经被注册,假如被注册,还可以查看到其域名注册时间、过期时间、注册商、注册商地址以及管理员的电话、邮箱、传真等信息。这些信息为社会工程学提供了可能。
使用Whois命令或者通过Whois查询网站对单个域名进行Whois查询是有效的,但在对多个站点进行批量查询时,其效率就比较低。在Python中可以使用ipwhois第三方库来完成上述工作。
;
ipwhois模块是一个提供了获取和解析IPv4及IPv6地址的Whois信息的Python第三方库。通过它可以获得指定IP的Whois信息并将其解析为字典结构,可以通过官方文档对其进行详细了解(网址为http://ipwhois.readthedocs.io/en/latest/)。
通过下面例子,了解ipwhois对单个IP的Whois查询过程。具体步骤如下:
;
(1)在终端执行如下命令:
pipinstallipwhois
(2)新建名为whois_auto.py的文件并输入以下代码:
;
(3)运行代码结果如下:
;;;
(4)上述代码实现了对单个域名进行Whois查询的功能。倘若需要查询多个域名,可以先将域名写入文件中,然后从文件中读取并逐个查询。修改上述代码,添加读取文件功能:
;;
(5)运行结果如下:
;;;;;
3.2.2GoogleHacking
GHDB(GoogleHackingDatabase)是一个收集了各种具有渗透用途的高级搜索语句数据库。其大致分为十四个模块,包括敏感文件搜索语句模块、包含用户名的文件搜索语句模块、包含密码的文件搜索语句模块等。我们可以批量地将这些高级搜索语句作用在一个网站上,用于收集关于此网站的信息,这就是本小节脚本所要实现的功能。GHDB类别如图3-1所示。
;;
脚本功能组成如图3-2所示,其主要分为GHDB更新模块和Google搜索模块。前部分比较容易完成,但是对于Google来说,正常情况下国内用户是访问不到的,这里需要使用代理,并且Google有很完善的反爬虫机制,这就需要脚本想尽一切方法来绕过。尽管脚本总体上看起来复杂,但实质上其只是两???爬虫的结合体,并且前面章节中也已经学习过爬虫的相关知识,本小节中结合实际用途对已介绍的知识进行巩固和扩展。
;;
在编写GHDB更新模块时,脚本需要对其主页进行爬取从而获得数据。在之前介绍过的爬虫编写的实例中,我们往往使用requests模块来获得网页内容,然后对其进行解析从而获得页面内容。但是这种方法并不适用于GHDB这类通过Ajax动态加载页面内容的网页。这是因为requests模块仅仅能够获得服务器原始的响应数据,但并不会像浏览器那样对其中的脚本进行解析运行,为此本小节中将要介绍新的爬虫编写技术,这种爬虫技术需要能够解析JS代码并执行。
;
Selenium-python是一个Web自动化测试框架,可以通过其官方主页https://selenium-python.readthedocs.io/对其安装流程及使用进行了解。Selenium模块提供了运行JS代码的能力,为此可以应用其对使用Ajax动态加载内容的网页进行爬取。
首先完成脚本的第一部分功能:更新GHDB数据库。创建名为Gh.py的脚本文件,输入以下代码:
;;;;;
打开存储在本地的高级搜索语句库,会发现每个库中存在很多条高级搜索语句,我们的目的是将每条语句与特定域名结合后并通过Google搜索,然后提取相应的搜索结果。此时可以计算对Google的访问量大概为
;
其中,i为所使用库的序号,ni为序号为i的库中的语句的数量。通过该公式计算可知访问量巨大,这就很容易使脚本被Google识别为爬虫。但是通过该公式我们还可以得到另外一条信息,就是如果将每页结果数调大,则我们的访问量会减少,每页访问量可以通过url中的num参数指定,本例中将其指定为100。除了尽量减小访问量外,还需要在每次访问时选择随机的代理,两次访问间隔不能太短并且要将其设置为随机数,每次访问选择随机的Google服务端。当然,如果有条件的话可以设置随机的代理服务器,本例中未对其进行实现。因为有上述条件的约束,所以代码在执行时非常慢,读者可以在完成所有脚本后体验一下。
;
上面的GHDB数据库的更新很简单,接下来完成Google内容的爬取。按照以下步骤完成本脚本中最难的部分:
(1)在终端执行如下命令:
(2)在importrandom后面添加:
您可能关注的文档
- 2024-2025学年北师大版小学数学三年级下册教学计划及进度表.docx
- 2024-2025学年北师大版(三起)(2024)小学英语三年级下册教学计划.docx
- 2024-2025学年教科版(2024)小学英语三年级下册教学计划.docx
- 2024-2025学年冀教版(三起)(2024)小学英语三年级下册教学计划及进度表.docx
- 2024-2025学年人教 PEP 版(2024)小学英语三年级下册教学计划及进度表.docx
- 2024-2025学年人教版(2024)初中生物七年级下册教学计划及进度表.docx
- 内蒙古巴林右旗大板三中2025届高考全国统考预测密卷英语试卷含解析.doc
- 2024-2025学年北师大版(2024)小学数学一年级下册教学计划及进度表.docx
- 2024-2025学年人教版小学数学六年级下册教学计划及进度表.docx
- 2024-2025学年人教版小学数学三年级下册教学计划及进度表.docx
- 2024-2025学年人教版小学数学四年级下册教学计划及进度表.docx
- 2024-2025学年北师大版小学数学二年级下册教学计划及进度表.docx
- 2024-2025学年人教版小学数学五年级下册教学计划及进度表.docx
- 2024-2025学年人教大同版(2024)小学英语三年级下册教学计划.docx
- 2024-2025学年人教精通版(三起)(2024)小学英语三年级下册教学计划.docx
- 2024-2025学年统编版初中道德与法治八年级下册教学计划及进度表.docx
- 2024-2025学年统编版(2024)初中道德与法治七年级下册教学计划及进度表.docx
- 2023-2024学年上海黄埔区中考二模综合测试(物理部分)试卷及答案.pdf
- 2024-2025学年外研版(三起)(2024)小学英语三年级下册教学计划及进度表.docx
- 2025届北京市北京第四中学高三冲刺模拟数学试卷含解析.doc
最近下载
- 统编版(新教材)一年级下册语文第二单元《热爱中国共产党》第1课时教学课件.pptx VIP
- SAE AMS8660-2018 硅酮化合物代号S-736.pdf
- 2024年统编版(高中)政治新教材必修3政治与法治第一次月考试卷 2套汇编(含答案解析).pdf
- “技能兴威”第一届威海市职业技能大赛“无人机操控”赛项实施方案.docx
- 2024年阳泉职业技术学院单招职业技能测试题库及答案(必刷).docx VIP
- 武汉市2025届高中毕业生二月调研考试(二调)数学试卷(含答案详解).pdf
- 《基于哈佛分析框架的房地产公司财务研究国内外文献综述5100字》.pdf VIP
- 新12J01图集 工程作法.pdf
- 《热爱中国共产党》课件-2024-2025学年统编版语文一年级下册第二单元阅读1.pptx VIP
- 详解2025《增值税法》课件.ppt
文档评论(0)