jsoup中文帮助文档.docVIP

下载本文档

17
0
约1.2万字
约 10页
2017-05-12 发布于河南
举报

jsoup中文帮助文档.doc

jsoup中文帮助文档

jsoup中文帮助文档Parsed HTML into a doc. ; Document doc = Jsoup.parse(html); (更详细内容可查看解析一个HTML 字符串.) 其解析器能够尽最大可能从你提供的HTML 文档来创见一个干净的解析结果，无论HTML 的格式是否完整。比如它可以处理：  没有关闭的标签 (比如： Lorem Ipsum parses to Lorem Ipsum )  隐式标签 (比如. 它可以自动将 Table data包装成 ?)  创建可靠的文档结构（html 标签包含head 和 body，在head 只出现恰当的元素) 一个文档的对象模型  文档由多个Elements 和TextNodes 组成 (以及其它辅助nodes：详细可查看：nodes package tree).  其继承结构如下：Document 继承Element 继承Node. TextNode 继承 Node.  一个Element 包含一个子节点集合，并拥有一个父Element。他们还提供了一个唯一的子元素过滤列表。参见  数据抽取：DOM遍历  数据抽取：Selector syntax 2.解析一个HTML 字符串存在问题来自用户输入，一个文件或一个网站的HTML 字符串，你可能需要对它进行解析并取其内容，或校验其格式是否完整，或想修改它。怎么办？jsonu 能够帮你轻松解决这些问题解决方法使用静态Jsoup.parse(String html) 方法或 Jsoup.parse(String html, String baseUri)示例代码： String html = + Parsed HTML into a doc. ; Document doc = Jsoup.parse(html); 描述 parse(String html, String baseUri) 这方法能够将输入的HTML 解析为一个新的文档 (Document），参数 baseUri 是用来将相对 URL 转成绝对URL，并指定从哪个网站获取文档。如这个方法不适用，你可以使用 parse(String html) 方法来解析成HTML 字符串如上面的示例。. 只要解析的不是空字符串，就能返回一个结构合理的文档，其中包含(至少) 一个head 和一个 body 元素。一旦拥有了一个Document，你就可以使用Document 中适当的方法或它父类 Element 和 Node 中的方法来取得相关数据。 3.解析一个body 片断问题假如你有一个HTML 片断 (比如. 一个 div 包含一对 p 标签; 一个不完整的HTML 文档) 想对它进行解析。这个HTML 片断可以是用户提交的一条评论或在一个CMS 页面中编辑body 部分。办法使用Jsoup.parseBodyFragment(String html)方法. String html = Lorem ipsum. ; Document doc = Jsoup.parseBodyFragment(html); Element body = doc.body(); 说明 parseBodyFragment 方法创建一个空壳的文档，并插入解析过的HTML 到body 元素中。假如你使用正常的 Jsoup.parse(String html) 方法，通常你也可以得到相同的结果，但是明确将用户输入作为 body 片段处理，以确保用户所提供的任何糟糕的HTML 都将被解析成body 元素。 Document.body() 方法能够取得文档body 元素的所有子元素，与 doc.getElementsByTag(body)相同。保证安全Stay safe 假如你可以让用户输入HTML 内容，那么要小心避免跨站脚本攻击。利用基于 Whitelist 的清除器和 clean(String bodyHtml, Whitelist whitelist)方法来清除用户输入的恶意内容。 4.从一个URL 加载一个Document 存在问题你需要从一个网站获取和解析一个HTML 文档，并查找其中的相关数据。你可以使用下面解决方法：解决方法使用 Jsoup.connect(String url)方法： Document doc = Jsoup.connect(/).get(); String title = doc.title(); 说明 connect(String url) 方法创建一个新的 Connection, 和 get() 取得和解析一个 HTML 文件。如果从该URL 获取HTML 时发生错误，便会抛出 IOEx

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

jsoup中文帮助文档.docVIP