- 73
- 0
- 约7.02万字
- 约 57页
- 2016-12-29 发布于重庆
- 举报
Beautiful Soup 中文文档
原文 by Leonard Richardson (leonardr@) 翻译 by Richie Yan (richieyan@) ###如果有些翻译的不准确或者难以理解,直接看例子吧。### 英文原文点这里
Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。 对于Ruby,使用Rubyful Soup。
这个文档说明了Beautiful Soup 3.0主要的功能特性,并附有例子。从中你可以知道这个库有哪些好处,它是怎样工作的,怎样让它帮做你想做的事以及你该怎样做当它做的和你期待不一样。
目录
快速开始
剖析文档
剖析 HTML
剖析 XML
如果它不工作
使用Unicode的Beautiful Soup, Dammit
输出文档
剖析树
Tags的属性
Navigating 剖析树
parent
contents
string
nextSibling and previousSibling
next and previous
遍历Tag
使用标签名作为成员
Searching 剖析树
The basic find method: findAll(name, attrs, recursive, text, limit, **kwargs)
使用CSS类查找
像 findall一样调用tag
find(name, attrs, recursive, text, **kwargs)
first哪里去了?
Searching 剖析树内部
findNextSiblings(name, attrs, text, limit, **kwargs) and findNextSibling(name, attrs, text, **kwargs)
findPreviousSiblings(name, attrs, text, limit, **kwargs) and findPreviousSibling(name, attrs, text, **kwargs)
findAllNext(name, attrs, text, limit, **kwargs) and findNext(name, attrs, text, **kwargs)
findAllPrevious(name, attrs, text, limit, **kwargs) and findPrevious(name, attrs, text, **kwargs)
Modifying 剖析树
改变属性值
删除元素
替换元素
添加新元素
常见问题(Troubleshooting)
为什么Beautiful Soup不能打印我的no-ASCII字符?
Beautiful Soup 弄丢了我给的数据!为什么?为什么?????
Beautiful Soup 太慢了!
高级主题
产生器(Generators)
其他的内部剖析器
定制剖析器(Parser)
实体转换
使用正则式处理糟糕的数据
玩玩SoupStrainers
通过剖析部分文档来提升效率
使用extract改进内存使用
其它
使用Beautiful Soup的其他应用
类似的库
小结
快速开始
从这里获得 Beautiful Soup。 变更日志 描述了3.0 版本与之前版本的不同。
在程序中中导入 Beautiful Soup库:
from BeautifulSoup import BeautifulSoup # For processing HTML
from BeautifulSoup import BeautifulStoneSoup # For processing XML
import BeautifulSoup # To get everything
下面的代码是Beautiful Soup基本功能的示范。你可以复制粘贴到你的python文件中,自己运行看看。
from BeautifulSoup import BeautifulSoup
import re
doc = [htmlheadtitlePage title/title/head,
bodyp id=firstpara align=centerThis is paragraph bone/b.,
p id=secondpara align=blahThis is paragraph
您可能关注的文档
最近下载
- 我国服务型政府建设问题探析——以A省为例.doc
- 智能网联汽车技术专业《智能传感器装调与测试》课程标准.docx VIP
- 辽宁石油化工大学无机化学考试题.doc VIP
- GB_T51357-2019:城市轨道交通通风空气调节与供暖设计标准.pdf VIP
- 光伏电站集电线路施工组织设计方案.pdf VIP
- 钢结构构造与识图(第2版) 课件 单元6 门式刚架主结构构造与识图.ppt
- 内经气阴阳五行演示文稿.pptx VIP
- 普通生态学 第四章群落生态学 第五章生态系统生态学课件.ppt
- AQ4273-2016 粉尘爆炸危险场所用除尘系统安全技术规范.docx VIP
- 家纺店合作合同协议.docx VIP
原创力文档

文档评论(0)