- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Python 爬虫使用 Selenium+PhantomJS
抓取Ajax 和动态HTML 内容
作者:华天清
1 ,引言
在 Python 网络爬虫内容提取器一文我们详细讲解了核心部件:可插拔的内
容提取器类 gsExtractor。本文记录了确定 gsExtractor 的技术路线过程中所做
的编程实验。这是第二部分,第一部分实验了用xslt 方式一次性提取静态网页内
容并转换成 xml 格式。留下了一个问题:javascript 管理的动态内容怎样提取?
那么本文就回答这个问题。
2 ,提取动态内容的技术部件
在上一篇 python 使用 xslt 提取网页数据中,要提取的内容是直接从网页的
source code 里拿到的。但是一些 Ajax 动态内容是在 source code 找不到的,
就要找合适的程序库把异步或动态加载的内容加载上来,交给本项目的提取器进
行提取。
python 可以使用 selenium 执行javascript ,selenium 可以让浏览器自动
加载页面,获取需要的数据。selenium 自己不带浏览器,可以使用第三方浏览
器如 Firefox ,Chrome 等,也可以使用 headless 浏览器如 PhantomJS 在后台
执行。
3 ,源代码和实验过程
假如我们要抓取京东手机页面的手机名称和价格(价格在网页源码是找不到
的) ,如下图:
第一步 :利用集搜客谋数台的直观标注功能,可以极快速度自动生成一个调试好
的抓取规则,其实是一个标准的 xslt 程序,如下图,把生成的 xslt 程序拷贝到
下面的程序中即可。注意:本文只是记录实验过程,实际系统中,将采用多种方
式把 xslt 程序注入到内容提取器重。
第二步 :执行如下代码(在 windows10 ,python3.2 下测试通过,源代码下载
地址请见文章末尾的 GitHub 源) ,请注意:xslt 是一个比较长的字符串,如果删
除这个字符串,代码没有几行,足以见得 Python 之强大
#/usr/bin/python
from urllib import request
from lxml import etree
from selenium import webdriver
import time
# 京东手机商品页面
url = /1312640.html
# 下面的 xslt 是通过集搜客的谋数台图形界面自动生成的
xslt_root = etree.XML(\
xsl:stylesheet version=1.0 xmlns:xsl=/1999/XSL/Transform
xsl:template match=/
商品
xsl:apply-templates select=//*[ @id=itemInfo and count(.//*[@id=summary-price]/div[posi
tion()=2]/strong/text())0 and count(.//*[@id=name]/h1/text())0] mode=商品/
/商品
/xsl:template
xsl:template match=//*[ @id=itemInfo and count(.//*[@id=summary-price]/div[position()=
2]/strong/text())0 and count(.//*[@id=name]/h1/text())0] mode=商品
item
价格
xsl:value-of select=*//*[@id=summary-price]/div[position()=2]/strong/text()/
xsl:value-of select=*[@id=summary-price]/div[position()=2]/strong/text()/
xsl:if test=@id=summary-price
xsl:value-of select=div[position()=2]/strong/text()/
/xsl:if
/价格
名称
xsl:value-of select=*//*[@id=name]/h1/text()/
xsl:value-of select=*[@id=name]/h1/text()/
xsl:if t
您可能关注的文档
最近下载
- 2025.6.27--12、博微配电网工程设计软件使用手册.pdf VIP
- 阿里巴巴集团股权结构分析.doc VIP
- 锡安长老纪要1-24本.pdf VIP
- YYT 0735.1-2009 麻醉和呼吸设备 湿化人体呼吸气体的热湿交换器(HME) 第1部分:用于最小潮气量为250mL的HME.docx VIP
- 汽车仪表盘图标全解.docx VIP
- 阿里巴巴上市后的股权结构(阿里巴巴最新股权结构).doc VIP
- 氧气、乙炔管理制度.docx VIP
- 上海众辰NZ100变频器用户使用说明书调试手册.pdf
- 伴有肺炎的肺脓肿多学科决策模式中国专家共识(2025版).docx VIP
- fwd系列高静压风机盘管机组-特灵空调.pdf VIP
原创力文档


文档评论(0)