【一起学习Python网络爬虫03】Python爬虫使用Selenium+PhantomJS抓取Ajax与动态HTML内容.pdfVIP

【一起学习Python网络爬虫03】Python爬虫使用Selenium+PhantomJS抓取Ajax与动态HTML内容.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Python 爬虫使用 Selenium+PhantomJS 抓取Ajax 和动态HTML 内容 作者:华天清 1 ,引言 在 Python 网络爬虫内容提取器一文我们详细讲解了核心部件:可插拔的内 容提取器类 gsExtractor。本文记录了确定 gsExtractor 的技术路线过程中所做 的编程实验。这是第二部分,第一部分实验了用xslt 方式一次性提取静态网页内 容并转换成 xml 格式。留下了一个问题:javascript 管理的动态内容怎样提取? 那么本文就回答这个问题。 2 ,提取动态内容的技术部件 在上一篇 python 使用 xslt 提取网页数据中,要提取的内容是直接从网页的 source code 里拿到的。但是一些 Ajax 动态内容是在 source code 找不到的, 就要找合适的程序库把异步或动态加载的内容加载上来,交给本项目的提取器进 行提取。 python 可以使用 selenium 执行javascript ,selenium 可以让浏览器自动 加载页面,获取需要的数据。selenium 自己不带浏览器,可以使用第三方浏览 器如 Firefox ,Chrome 等,也可以使用 headless 浏览器如 PhantomJS 在后台 执行。 3 ,源代码和实验过程 假如我们要抓取京东手机页面的手机名称和价格(价格在网页源码是找不到 的) ,如下图: 第一步 :利用集搜客谋数台的直观标注功能,可以极快速度自动生成一个调试好 的抓取规则,其实是一个标准的 xslt 程序,如下图,把生成的 xslt 程序拷贝到 下面的程序中即可。注意:本文只是记录实验过程,实际系统中,将采用多种方 式把 xslt 程序注入到内容提取器重。 第二步 :执行如下代码(在 windows10 ,python3.2 下测试通过,源代码下载 地址请见文章末尾的 GitHub 源) ,请注意:xslt 是一个比较长的字符串,如果删 除这个字符串,代码没有几行,足以见得 Python 之强大 #/usr/bin/python from urllib import request from lxml import etree from selenium import webdriver import time # 京东手机商品页面 url = /1312640.html # 下面的 xslt 是通过集搜客的谋数台图形界面自动生成的 xslt_root = etree.XML(\ xsl:stylesheet version=1.0 xmlns:xsl=/1999/XSL/Transform xsl:template match=/ 商品 xsl:apply-templates select=//*[ @id=itemInfo and count(.//*[@id=summary-price]/div[posi tion()=2]/strong/text())0 and count(.//*[@id=name]/h1/text())0] mode=商品/ /商品 /xsl:template xsl:template match=//*[ @id=itemInfo and count(.//*[@id=summary-price]/div[position()= 2]/strong/text())0 and count(.//*[@id=name]/h1/text())0] mode=商品 item 价格 xsl:value-of select=*//*[@id=summary-price]/div[position()=2]/strong/text()/ xsl:value-of select=*[@id=summary-price]/div[position()=2]/strong/text()/ xsl:if test=@id=summary-price xsl:value-of select=div[position()=2]/strong/text()/ /xsl:if /价格 名称 xsl:value-of select=*//*[@id=name]/h1/text()/ xsl:value-of select=*[@id=name]/h1/text()/ xsl:if t

文档评论(0)

xiaofei2001129 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档