BeautifulSoup中文.docVIP

下载本文档

73
0
约7.02万字
约 57页
2016-12-29 发布于重庆
举报

BeautifulSoup中文.doc

Beautiful Soup 中文文档原文 by Leonard Richardson (leonardr@) 翻译 by Richie Yan (richieyan@) ###如果有些翻译的不准确或者难以理解，直接看例子吧。### 英文原文点这里 Beautiful Soup 是用Python写的一个HTML/XML的解析器，它可以很好的处理不规范标记并生成剖析树(parse tree)。它提供简单又常用的导航（navigating），搜索以及修改剖析树的操作。它可以大大节省你的编程时间。对于Ruby，使用Rubyful Soup。这个文档说明了Beautiful Soup 3.0主要的功能特性，并附有例子。从中你可以知道这个库有哪些好处，它是怎样工作的，怎样让它帮做你想做的事以及你该怎样做当它做的和你期待不一样。目录快速开始剖析文档剖析 HTML 剖析 XML 如果它不工作使用Unicode的Beautiful Soup, Dammit 输出文档剖析树 Tags的属性 Navigating 剖析树 parent contents string nextSibling and previousSibling next and previous 遍历Tag 使用标签名作为成员 Searching 剖析树 The basic find method: findAll(name, attrs, recursive, text, limit, **kwargs) 使用CSS类查找像 findall一样调用tag find(name, attrs, recursive, text, **kwargs) first哪里去了? Searching 剖析树内部 findNextSiblings(name, attrs, text, limit, **kwargs) and findNextSibling(name, attrs, text, **kwargs) findPreviousSiblings(name, attrs, text, limit, **kwargs) and findPreviousSibling(name, attrs, text, **kwargs) findAllNext(name, attrs, text, limit, **kwargs) and findNext(name, attrs, text, **kwargs) findAllPrevious(name, attrs, text, limit, **kwargs) and findPrevious(name, attrs, text, **kwargs) Modifying 剖析树改变属性值删除元素替换元素添加新元素常见问题(Troubleshooting) 为什么Beautiful Soup不能打印我的no-ASCII字符? Beautiful Soup 弄丢了我给的数据!为什么?为什么????? Beautiful Soup 太慢了! 高级主题产生器(Generators) 其他的内部剖析器定制剖析器(Parser) 实体转换使用正则式处理糟糕的数据玩玩SoupStrainers 通过剖析部分文档来提升效率使用extract改进内存使用其它使用Beautiful Soup的其他应用类似的库小结快速开始从这里获得 Beautiful Soup。变更日志描述了3.0 版本与之前版本的不同。在程序中中导入 Beautiful Soup库: from BeautifulSoup import BeautifulSoup # For processing HTML from BeautifulSoup import BeautifulStoneSoup # For processing XML import BeautifulSoup # To get everything 下面的代码是Beautiful Soup基本功能的示范。你可以复制粘贴到你的python文件中，自己运行看看。 from BeautifulSoup import BeautifulSoup import re doc = [htmlheadtitlePage title/title/head, bodyp id=firstpara align=centerThis is paragraph bone/b., p id=secondpara align=blahThis is paragraph

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

BeautifulSoup中文.docVIP