python课件教案14_数据提取之lxml.pptxVIP

  • 0
  • 0
  • 约3.28千字
  • 约 25页
  • 2026-03-12 发布于广西
  • 举报

数据提取之xpath

情景引入通过xpath,我们实现了对网页数据的批量提取

情景引入但是这仅是在xpathhelper插件完成了数据的提取, 如何把xpath的语法使用到python代码中, 得到如下的内容输入呢?

目录认识lxml库豆瓣电影数据爬取lxml库的使用

认识lxml库

新知教授lxml,是python的一个解析库(网页内容解析),支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高!安装方式:pipinstalllxml

思维构建1、导入lxml的etree库(导入没有提示不代表不能用)fromlxmlimportetreepycharm中出现红色提示下划线,可忽略,不影响正常使用!

思维构建2、利用etree.HTML,将字符串转化为Element对象,Element对象具有xpath的方法,返回结果的列表,能够接受bytes类型的数据和str类型的数据html=etree.HTML(text)

ret_list=html.xpath(xpath字符串)

思维构建3、把转化后的element对象转化为字符串,返回bytes类型结果 print(html) #转化后的element对象data=etree.tostring(html)

print(data)

lxml库的使用

循序善

文档评论(0)

1亿VIP精品文档

相关文档