BeautifulSoup中文.docVIP

  • 73
  • 0
  • 约7.02万字
  • 约 57页
  • 2016-12-29 发布于重庆
  • 举报
Beautiful Soup 中文文档 原文 by Leonard Richardson (leonardr@) 翻译 by Richie Yan (richieyan@) ###如果有些翻译的不准确或者难以理解,直接看例子吧。### 英文原文点这里 Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。 对于Ruby,使用Rubyful Soup。 这个文档说明了Beautiful Soup 3.0主要的功能特性,并附有例子。从中你可以知道这个库有哪些好处,它是怎样工作的,怎样让它帮做你想做的事以及你该怎样做当它做的和你期待不一样。 目录 快速开始 剖析文档 剖析 HTML 剖析 XML 如果它不工作 使用Unicode的Beautiful Soup, Dammit 输出文档 剖析树 Tags的属性 Navigating 剖析树 parent contents string nextSibling and previousSibling next and previous 遍历Tag 使用标签名作为成员 Searching 剖析树 The basic find method: findAll(name, attrs, recursive, text, limit, **kwargs) 使用CSS类查找 像 findall一样调用tag find(name, attrs, recursive, text, **kwargs) first哪里去了? Searching 剖析树内部 findNextSiblings(name, attrs, text, limit, **kwargs) and findNextSibling(name, attrs, text, **kwargs) findPreviousSiblings(name, attrs, text, limit, **kwargs) and findPreviousSibling(name, attrs, text, **kwargs) findAllNext(name, attrs, text, limit, **kwargs) and findNext(name, attrs, text, **kwargs) findAllPrevious(name, attrs, text, limit, **kwargs) and findPrevious(name, attrs, text, **kwargs) Modifying 剖析树 改变属性值 删除元素 替换元素 添加新元素 常见问题(Troubleshooting) 为什么Beautiful Soup不能打印我的no-ASCII字符? Beautiful Soup 弄丢了我给的数据!为什么?为什么????? Beautiful Soup 太慢了! 高级主题 产生器(Generators) 其他的内部剖析器 定制剖析器(Parser) 实体转换 使用正则式处理糟糕的数据 玩玩SoupStrainers 通过剖析部分文档来提升效率 使用extract改进内存使用 其它 使用Beautiful Soup的其他应用 类似的库 小结 快速开始 从这里获得 Beautiful Soup。 变更日志 描述了3.0 版本与之前版本的不同。 在程序中中导入 Beautiful Soup库: from BeautifulSoup import BeautifulSoup # For processing HTML from BeautifulSoup import BeautifulStoneSoup # For processing XML import BeautifulSoup # To get everything 下面的代码是Beautiful Soup基本功能的示范。你可以复制粘贴到你的python文件中,自己运行看看。 from BeautifulSoup import BeautifulSoup import re doc = [htmlheadtitlePage title/title/head, bodyp id=firstpara align=centerThis is paragraph bone/b., p id=secondpara align=blahThis is paragraph

文档评论(0)

1亿VIP精品文档

相关文档