- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
HTMLparser技术解析HTML源代码
package test;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.io.OutputStream;
import .URL;
import .URLConnection;
import java.util.ArrayList;
import java.util.Iterator;
import java.util.List;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.tags.ImageTag;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import com.sun.corba.se.spi.orbutil.fsm.State;
/**
* 用HTMLparser抓取img标签的路径
* @author Administrator token@
* @param content:要爬取的文本
* @return 返回SRC路径改为服务器路径的文本
* @throws Exception:io异常
*/
public class HtmlparserDemo {
/**
* example : new HtmlparserDemo().parserto(img src = /aa/,D:\test);
* @param contentString 要取img标签的内容
* @param pathString 要存到服务器的路径
*/
public static String parserto(String contentString,String pathString,String dispPath) {
String stringBuffer=null;
try {
List list = new ArrayList();
Parser parser = Parser.createParser(contentString, UTF-8);
NodeList nodeList = parser
.extractAllNodesThatMatch(new NodeFilter() {
public boolean accept(Node node) {
if (node instanceof ImageTag)// img标记
return true;
return false;
}
});
for (int i = 0; i nodeList.size(); i++) {
ImageTag n = (ImageTag) nodeList.elementAt(i);
list.add(n.getImageURL());
int start = 0;
start = n.getImageURL().lastIndexOf(/);
String picname=n.getImageURL().substring(start,n.getImageURL().length());
contentString=contentString.replace(n.getImageURL(), dispPath+picname);
if(n.getImageURL().indexOf()==1){
contentString.replace(,);
}
}
ListString listImg = new ArrayListString();
listImg.add(.jpg);
listImg.add(.JPG);
listImg.add(.jpeg);
listImg.add(.JPEG);
listImg.add(.bmp);
listImg.add(.BMP);
listImg.add(.gif);
listImg.add(.GIF);
listImg.add(.png);
listImg.add(.PNG);
Iterator ite = li
您可能关注的文档
- 人教版 一年级语文《语文园地四》ppt课件.ppt
- 2011版与08版的对比 《安全生产管理》考试大纲.doc
- 稳态 ansys热分析例题3.doc
- 青岛版 六年级数学反比例教学课件.ppt
- 01地下结构.doc
- 01自动化英语翻译的标准ppt.ppt
- 06秋高二生物第一次测试题.doc
- 06概率统计试卷.doc
- 09土木三班安全应急预案.doc
- 03第三单元复习中国地理.doc
- 2025至2030国内冶金矿山设备行业市场发展现状及竞争格局及有效策略与实施路径评估报告.docx
- 旅游服务业市场全面调研现状分析发展趋势研究报告.docx
- 南亚农业跨境电商平台运营评估及市场拓展与发展潜力报告.docx
- 节能环保设备行业市场全景调研及品牌推广与资本运作新路径报告.docx
- 中国动漫衍生品市场消费规模调查及创新销售模式研究报告.docx
- 金融科技行业市场全面剖析及创新发展与投资策略战略布局研究报告.docx
- 中国布地奈德行业市场发展趋势与前景展望战略研究报告.docx
- 微生物组与组织再生的交互作用研究.docx
- 中国数控卷簧机行业需求状况分析与发展趋势前景预判研究报告.docx
- 中国癸酸甘油酯市场风险评估及销售规模分析研究报告.docx
原创力文档


文档评论(0)