- 17
- 0
- 约1.2万字
- 约 10页
- 2017-05-12 发布于河南
- 举报
jsoup中文帮助文档
jsoup中文帮助文档Parsed HTML into a doc.
; Document doc = Jsoup.parse(html); (更详细内容可查看 解析一个HTML 字符串.)
其解析器能够尽最大可能从你提供的HTML 文档来创见一个干净的解析结果,无论HTML 的格 式是否完整。比如它可以处理:
没有关闭的标签 (比如:
Lorem
Ipsum parses to
Lorem
Ipsum
)
隐式标签 (比如. 它可以自动将 Table data包装成
?)
创建可靠的文档结构(html 标签包含head 和 body,在head 只出现恰当的元素)
一个文档的对象模型 文档由多个Elements 和TextNodes 组成 (以及其它辅助nodes:详细可查看:nodes package tree). 其继承结构如下:Document 继承Element 继承Node. TextNode 继承 Node. 一个Element 包含一个子节点集合,并拥有一个父Element。他们还提供了一个唯一的 子元素过滤列表。
参见 数据抽取:DOM遍历 数据抽取:Selector syntax 2.解析一个HTML 字符串 存在问题 来自用户输入,一个文件或一个网站的HTML 字符串,你可能需要对它进行解析并取其内容, 或校验其格式是否完整,或想修改它。怎么办?jsonu 能够帮你轻松解决这些问题 解决方法 使用静态Jsoup.parse(String html)
方法或 Jsoup.parse(String html, String baseUri)示例代码:
String html = +
Parsed HTML into a doc.
; Document doc = Jsoup.parse(html); 描述 parse(String html, String baseUri)
这方法能够将输入的HTML 解析为一个新 的文档 (Document),参数 baseUri 是用来将相对 URL 转成绝对URL,并指定从哪个网站 获取文档。如这个方法不适用,你可以使用 parse(String html)
方法来解析成HTML 字符串如上面的示例。. 只要解析的不是空字符串,就能返回一个结构合理的文档,其中包含(至少)
一个head 和一个 body 元素。
一旦拥有了一个Document,你就可以使用Document 中适当的方法或它父类 Element 和 Node 中的方法来取得相关数据。
3.解析一个body 片断 问题 假如你有一个HTML 片断 (比如. 一个 div 包含一对 p 标签; 一个不完整的HTML 文档)
想 对它进行解析。这个HTML 片断可以是用户提交的一条评论或在一个CMS 页面中编辑body 部 分。
办法 使用Jsoup.parseBodyFragment(String html)方法. String html =
Lorem ipsum.
; Document doc = Jsoup.parseBodyFragment(html); Element body = doc.body(); 说明 parseBodyFragment 方法创建一个空壳的文档,并插入解析过的HTML 到body 元素中。
假如你使用正常的 Jsoup.parse(String html)
方法,通常你也可以得到相同的结果, 但是明确将用户输入作为 body 片段处理,以确保用户所提供的任何糟糕的HTML 都将被解析 成body 元素。
Document.body()
方法能够取得文档body 元素的所有子元素,与 doc.getElementsByTag(body)相同。
保证安全Stay safe 假如你可以让用户输入HTML 内容,那么要小心避免跨站脚本攻击。利用基于 Whitelist 的 清除器和 clean(String bodyHtml, Whitelist whitelist)方法来清除用户输入 的恶意内容。
4.从一个URL 加载一个Document 存在问题 你需要从一个网站获取和解析一个HTML 文档,并查找其中的相关数据。你可以使用下面解决 方法:
解决方法 使用 Jsoup.connect(String url)方法:
Document doc = Jsoup.connect(/).get(); String title = doc.title(); 说明 connect(String url)
方法创建一个新的 Connection, 和 get()
取得和解析一个 HTML 文件。如果从该URL 获取HTML 时发生错误,便会抛出 IOEx
您可能关注的文档
- C.语言实例.doc
- CAD 命令全集2.doc
- cad中如何使用vba.doc
- CAD操作摘要.doc
- CAD学习第六次课任务.doc
- CAD操作法.doc
- cad电子教案1.doc
- CAD阶段考试1.doc
- CAD考证练习5、6.doc
- CAD自己设定菜单文件.doc
- 小区绿化施工协议书.docx
- 墙面施工协议书.docx
- 1 古诗二首(课件)--2025-2026学年统编版语文二年级下册.pptx
- (2026春新版)部编版八年级道德与法治下册《3.1《公民基本权利》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《4.3《依法履行义务》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《6.2《按劳分配为主体、多种分配方式并存》PPT课件.pptx
- (2026春新版)部编版八年级道德与法治下册《6.1《公有制为主体、多种所有制经济共同发展》PPT课件.pptx
- 初三教学管理交流发言稿.docx
- 小学生课外阅读总结.docx
- 餐饮门店夜经济运营的社会责任报告(夜间贡献)撰写流程试题库及答案.doc
最近下载
- ntvf调试资料解读.doc VIP
- 电影《色.戒》的叙事伦理.doc VIP
- 上海大学2023-2024学年第1学期《高等数学(上)》期末考试试卷(A卷)附参考答案.pdf
- 佳能EOS1500D基本使用说明书说明书.pdf VIP
- 上海大学2023-2024学年第1学期《高等数学(上)》期末考试试卷(B卷)附参考答案.pdf
- 渣打银行(香港)有限公司.PDF VIP
- 2024年吉林高职高专院校单招统一考试《语文》试卷及参考答案.pdf VIP
- JSG202515机器人系统集成应用技术样题-学生组.docx VIP
- 棋盘博弈采购法战略体系.ppt VIP
- 节后复产复工安全知识考试试卷及答案.docx
原创力文档

文档评论(0)