jsoup中文帮助文档.docVIP

  • 17
  • 0
  • 约1.2万字
  • 约 10页
  • 2017-05-12 发布于河南
  • 举报
jsoup中文帮助文档

jsoup中文帮助文档Parsed HTML into a doc. ; Document doc = Jsoup.parse(html); (更详细内容可查看 解析一个HTML 字符串.) 其解析器能够尽最大可能从你提供的HTML 文档来创见一个干净的解析结果,无论HTML 的格 式是否完整。比如它可以处理:  没有关闭的标签 (比如: Lorem Ipsum parses to Lorem Ipsum )  隐式标签 (比如. 它可以自动将 Table data包装成 ?)  创建可靠的文档结构(html 标签包含head 和 body,在head 只出现恰当的元素) 一个文档的对象模型  文档由多个Elements 和TextNodes 组成 (以及其它辅助nodes:详细可查看:nodes package tree).  其继承结构如下:Document 继承Element 继承Node. TextNode 继承 Node.  一个Element 包含一个子节点集合,并拥有一个父Element。他们还提供了一个唯一的 子元素过滤列表。 参见  数据抽取:DOM遍历  数据抽取:Selector syntax 2.解析一个HTML 字符串 存在问题 来自用户输入,一个文件或一个网站的HTML 字符串,你可能需要对它进行解析并取其内容, 或校验其格式是否完整,或想修改它。怎么办?jsonu 能够帮你轻松解决这些问题 解决方法 使用静态Jsoup.parse(String html) 方法或 Jsoup.parse(String html, String baseUri)示例代码: String html = + Parsed HTML into a doc. ; Document doc = Jsoup.parse(html); 描述 parse(String html, String baseUri) 这方法能够将输入的HTML 解析为一个新 的文档 (Document),参数 baseUri 是用来将相对 URL 转成绝对URL,并指定从哪个网站 获取文档。如这个方法不适用,你可以使用 parse(String html) 方法来解析成HTML 字符串如上面的示例。. 只要解析的不是空字符串,就能返回一个结构合理的文档,其中包含(至少) 一个head 和一个 body 元素。 一旦拥有了一个Document,你就可以使用Document 中适当的方法或它父类 Element 和 Node 中的方法来取得相关数据。 3.解析一个body 片断 问题 假如你有一个HTML 片断 (比如. 一个 div 包含一对 p 标签; 一个不完整的HTML 文档) 想 对它进行解析。这个HTML 片断可以是用户提交的一条评论或在一个CMS 页面中编辑body 部 分。 办法 使用Jsoup.parseBodyFragment(String html)方法. String html = Lorem ipsum. ; Document doc = Jsoup.parseBodyFragment(html); Element body = doc.body(); 说明 parseBodyFragment 方法创建一个空壳的文档,并插入解析过的HTML 到body 元素中。 假如你使用正常的 Jsoup.parse(String html) 方法,通常你也可以得到相同的结果, 但是明确将用户输入作为 body 片段处理,以确保用户所提供的任何糟糕的HTML 都将被解析 成body 元素。 Document.body() 方法能够取得文档body 元素的所有子元素,与 doc.getElementsByTag(body)相同。 保证安全Stay safe 假如你可以让用户输入HTML 内容,那么要小心避免跨站脚本攻击。利用基于 Whitelist 的 清除器和 clean(String bodyHtml, Whitelist whitelist)方法来清除用户输入 的恶意内容。 4.从一个URL 加载一个Document 存在问题 你需要从一个网站获取和解析一个HTML 文档,并查找其中的相关数据。你可以使用下面解决 方法: 解决方法 使用 Jsoup.connect(String url)方法: Document doc = Jsoup.connect(/).get(); String title = doc.title(); 说明 connect(String url) 方法创建一个新的 Connection, 和 get() 取得和解析一个 HTML 文件。如果从该URL 获取HTML 时发生错误,便会抛出 IOEx

文档评论(0)

1亿VIP精品文档

相关文档