seleniumwebdriver图像匹配技术逆向前端js.PPTVIP

seleniumwebdriver图像匹配技术逆向前端js.PPT

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
seleniumwebdriver图像匹配技术逆向前端js

面向QQ空间信息采集的网络爬虫 QQ ZONE CRAWLER FOR COLLECTING INFOMATION 组长:刘婷 组员:鲍恩雪 黄芳玲 张人月 时间:2017秋 01 项目概况 项目设计及实现 02 03 项目测试 总结说明 04 目录 CONTENTS 01 项目概况 作品功能和特性 性质:网络爬虫。 采集信息:QQ号码、昵称、个人资料、说说、最近访客基本信息、空间动态等。 通过对模拟QQ空间用户登陆、QQ空间反爬虫机制的解决、多线程爬虫的实现、无访问权限QQ空间的异常处理等模块的实现,最终完成一个高性能,爬取速度快,出错概率小的高效网络爬虫。 自动提取网页 抓取特定信息 项目性质 QQ空间信息价值 爬虫项目练手 决策支持帮助 项目动机 01 项目概况 项目 概况 01 02 03 04 模拟登陆 模块 采集信息 QQ空间动态 QQ空间个人信息 QQ空间最近访客 多线程 IP代理池 数据去重 达到指标 01 项目概况 特色工程 采集一万个QQ空间 * 02 项目设计及实现 采集对象 采集信息范围 QQ用户的个人空间 QQ号码、昵称、个人资料、说说、 最近访客、基本信息、空间动态等 2.1 软件功能 2.2 工作分配 QQ空间模拟登陆 QQ空间信息采集 反爬虫机制处理 后期测试 多线程和参数设置 黄芳玲 鲍恩雪 刘婷 张人月 2.3 实现原理 QQ空间信息采集 QQ号去重处理 (1)模拟登录 (2)解析响应信息 (3)计算cookie值和qzonetoken值 (4)计算gtk值 (5)发送请求报文 (6)解析Json包 (7)提取数据,存入数据库 (1)将QQ号映射成位信息 (2)将位信息存入redis数据库中 (3)QQ号加入待爬队列前先 与redis数据对比 2.5 关键源码 模拟登陆 构建请求url 解析返回的json包 2.5 关键源码 去重处理 多线程处理 2.5 软件框图 2.5 达到指标 达到指标为爬取QQ空间数大于或等于一万个。 由于部分空间设置了访问权限,不能进行访问,排除这部分QQ空间,本程序一共采集了可访问的QQ空间超过了一万个。 数据库截图 03 说明与总结 1.多线程并发结构 3.去重处理 2.维护IP代理池 4.模块化 3.1 创新性说明 3.2 存在问题及解决方案 爬虫速度限制 登陆验证问题 有4种解决方案: (1)系统层工具使用 (2)selenium webdriver (3)图像匹配技术 (4)逆向前端js 人机验证是滑动拼图, 程序中未自动解决验证 问题。需重开线程或手 工验证。 爬取1万个QQ花费了 数小时的时间 解决方案: 可能是因为代码过于冗余,不够精简。 后期会考虑对代码模块进行重构,从 而提高速度 谢谢! THANK YOU FOR WATCHING 模板来自于 模板来自于

文档评论(0)

zhaoxiaoj + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档