【一起学习Python网络爬虫03】Python爬虫使用Selenium+PhantomJS抓取Ajax与动态HTML内容.pdfVIP

下载本文档

35
0
约3.04千字
约 6页
2017-07-07 发布于北京
举报
版权申诉

【一起学习Python网络爬虫03】Python爬虫使用Selenium+PhantomJS抓取Ajax与动态HTML内容.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Python 爬虫使用 Selenium+PhantomJS 抓取Ajax 和动态HTML 内容作者：华天清 1 ，引言在 Python 网络爬虫内容提取器一文我们详细讲解了核心部件：可插拔的内容提取器类 gsExtractor。本文记录了确定 gsExtractor 的技术路线过程中所做的编程实验。这是第二部分，第一部分实验了用xslt 方式一次性提取静态网页内容并转换成 xml 格式。留下了一个问题：javascript 管理的动态内容怎样提取？那么本文就回答这个问题。 2 ，提取动态内容的技术部件在上一篇 python 使用 xslt 提取网页数据中，要提取的内容是直接从网页的 source code 里拿到的。但是一些 Ajax 动态内容是在 source code 找不到的，就要找合适的程序库把异步或动态加载的内容加载上来，交给本项目的提取器进行提取。 python 可以使用 selenium 执行javascript ，selenium 可以让浏览器自动加载页面，获取需要的数据。selenium 自己不带浏览器，可以使用第三方浏览器如 Firefox ，Chrome 等，也可以使用 headless 浏览器如 PhantomJS 在后台执行。 3 ，源代码和实验过程假如我们要抓取京东手机页面的手机名称和价格(价格在网页源码是找不到的) ，如下图：第一步：利用集搜客谋数台的直观标注功能，可以极快速度自动生成一个调试好的抓取规则，其实是一个标准的 xslt 程序，如下图，把生成的 xslt 程序拷贝到下面的程序中即可。注意：本文只是记录实验过程，实际系统中，将采用多种方式把 xslt 程序注入到内容提取器重。第二步：执行如下代码(在 windows10 ，python3.2 下测试通过，源代码下载地址请见文章末尾的 GitHub 源) ，请注意：xslt 是一个比较长的字符串，如果删除这个字符串，代码没有几行，足以见得 Python 之强大 #/usr/bin/python from urllib import request from lxml import etree from selenium import webdriver import time # 京东手机商品页面 url = /1312640.html # 下面的 xslt 是通过集搜客的谋数台图形界面自动生成的 xslt_root = etree.XML(\ xsl:stylesheet version=1.0 xmlns:xsl=/1999/XSL/Transform xsl:template match=/ 商品 xsl:apply-templates select=//*[ @id=itemInfo and count(.//*[@id=summary-price]/div[posi tion()=2]/strong/text())0 and count(.//*[@id=name]/h1/text())0] mode=商品/ /商品 /xsl:template xsl:template match=//*[ @id=itemInfo and count(.//*[@id=summary-price]/div[position()= 2]/strong/text())0 and count(.//*[@id=name]/h1/text())0] mode=商品 item 价格 xsl:value-of select=*//*[@id=summary-price]/div[position()=2]/strong/text()/ xsl:value-of select=*[@id=summary-price]/div[position()=2]/strong/text()/ xsl:if test=@id=summary-price xsl:value-of select=div[position()=2]/strong/text()/ /xsl:if /价格名称 xsl:value-of select=*//*[@id=name]/h1/text()/ xsl:value-of select=*[@id=name]/h1/text()/ xsl:if t