- 0
- 0
- 约8.35千字
- 约 6页
- 2017-02-13 发布于江苏
- 举报
htmlparser
htmlparser所有的filter htmlparser所有的Tags HtmlparseUtil.java
文章分类:Java编程
该类并不是一个通用的工具类,需要按自己的要求实现,这里只记录了Htmlparse.jar包的一些用法。仅此而已! 详细看这里:/blog/704311
Java代码 ?
import?java.util.*; ??
import?org.htmlparser.Node; ??
import?org.htmlparser.NodeFilter; ??
import?org.htmlparser.Parser; ??
import?org.htmlparser.filters.AndFilter; ??
import?org.htmlparser.filters.HasAttributeFilter; ??
import?org.htmlparser.filters.NodeClassFilter; ??
import?org.htmlparser.filters.TagNameFilter; ??
import?org.htmlparser.tags.BodyTag; ??
import?org.htmlparser.tags.LinkTag; ??
import?org.htmlparser.util.NodeList; ??
import?org.htmlparser.util.ParserException; ??
??
/** ?
?*?httpclient与htmlparse对网页的解析 ?
?*? ?
?*?@author?Administrator ?
?*? ?
?*/??
public?class?HtmlparseUtil?{ ??
????WebHttpClient?util=new?WebHttpClient(); ??
????/** ?
?????*?获得网页中的超链接,将href和text保存在Map中:map(href,text) ?
?????*?@param?url ?
?????*?@param?charset ?
?????*?@return ?
?????*/??
????public?MapString,?String?linkGet(String?url,?String?charset)?{ ??
????????String?content=util.getWebContentByGet(url,charset); ??
????????MapString,?String?linkMap?=?new?HashMapString,?String(); ??
????????try?{ ??
????????????//开始解析 ??
????????????Parser?parser?=?Parser.createParser(content,?charset); ??
????????????//?过滤出a/a标签 ??
????????????NodeFilter?linkFilter?=?new?NodeClassFilter(LinkTag.class); ??
????????????NodeList?list?=?parser.extractAllNodesThatMatch(linkFilter); ??
????????????Node?node?=?null; ??
????????????for?(int?i?=?0;?i??list.size();?i++)?{ ??
????????????????node?=?list.elementAt(i); ??
????????????????//?获得网页中的链接map(href,text) ??
????????????????linkMap.put(((LinkTag)?node).getLink(),?cessText(((LinkTag)?node).getLinkText())); ??
????????????} ??
????????}?catch?(ParserException?e)?{ ??
????????????e.printStackTrace(); ??
????????}? ??
????????return?linkMap; ??
????} ??
??
????/** ?
?????*?获得网页body/body标签中的内容,?保存在body中 ?
?????*?@param?url ?
?????*?@param?charset ?
?????*?@return ?
?????*/??
????public?String?body
您可能关注的文档
- gsx一元二次不等式和含绝对值的不等式的解法.doc
- G图像传输模组规格书.doc
- GY管桩.doc
- G学习资料.doc
- GTi9100root机教程.doc
- G市配电网可靠性规划.doc
- g试题.doc
- G手机设置方式.doc
- H1250BV试航意见.doc
- H3CUSB上网的配置.doc
- 安徽省安庆市潜山市部分学校2025-2026学年七年级下学期阶段学情自测数学试题-普通用卷.docx
- 2026《微型无人机的设计基础综述》2600字.docx
- 安徽六安市金安区2025-2026学年八年级上学期2月期末物理试题-普通用卷.docx
- 2026《五菱汽车公司经营者股权激励实施成效及其启示》9700字.doc
- 北京市第一零九中学2026届高三下学期开学考试数学试题-普通用卷.docx
- 北京海淀实验中学2026届高三下学期数学开学检测试题-普通用卷.docx
- 2026《五菱汽车公司融资模式及融资风险分析》8700字.doc
- 2026《五菱汽车公司物流成本控制研究》文献综述开题报告(含提纲)3800字.doc
- 2026《五菱汽车公司薪酬改革问题研究》开题报告(文献综述)4200字.doc
- 2026《物流企业反内卷的战略转型研究—以顺丰控股为例》13000字.doc
最近下载
- 施工临时用电专项施工方案.pdf VIP
- 2026天津城投集团校招面笔试题及答案.doc VIP
- 2025年江苏学位英语试卷及答案.doc VIP
- 2026年江西信息应用职业技术学院单招职业适应性测试题库参考答案详解.docx VIP
- 造价咨询全过程实施方案.docx VIP
- 2025-2026年演出经纪人之演出市场政策与法律法规模拟题库及答案下载.pdf VIP
- 2025年春西师大版一年级下册数学全册课件.pptx
- 2026年春教科版(新教材)小学科学二年级下册(全册)教学设计(附目录P91).pdf
- 2025年深入贯彻中央八项规定精神学习教育应知应会试题含完整答案详解.docx VIP
- T∕GDEA 001-2024 智能配电房技术规范.pdf VIP
原创力文档

文档评论(0)