- 6
- 0
- 约1.62万字
- 约 13页
- 2018-02-24 发布于河南
- 举报
spider简单的爬虫程序!!!经典
spider简单的爬虫程序
2008-10-10 16:29
spider简单的爬虫程序
1、基础准备htmlparser首页:/projects/htmlparser/下载:/project/showfiles.php?group_id=24399文件:htmlparser1_6zipdependencygroupIdorg.htmlparser/groupIdartifactIdhtmlparser/artifactIdversion1.6/version/dependency
cpdetector首页:/下载:/project/showfiles.php?group_id=114421文件:cpdetector_eclipse_project_1.0.7.zip
dependencygroupIdcpdetector/groupIdartifactIdcpdetector/artifactIdversion1.0.5/version/dependency
spindle首页:/projects/spindle/?(但是已经无法访问)
2 修改spindle代码得到的spider简单的将URL打印出来了,解析的内容等等都没有处理
解析HTML的基类HtmlParserUtil.javapackage mons.utils.html;
import java.io.BufferedReader;import java.io.FileNotFoundException;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.io.UnsupportedEncodingException;import .MalformedURLException;import .SocketException;import .SocketTimeoutException;import .URL;import .UnknownHostException;import java.nio.charset.Charset;
import org.htmlparser.Parser;import org.htmlparser.util.NodeList;import org.htmlparser.util.ParserException;import org.htmlparser.visitors.HtmlPage;
import?cpdetector.io.ASCIIDetector;import?cpdetector.io.CodepageDetectorProxy;import?cpdetector.io.JChardetFacade;import?cpdetector.io.ParsingDetector;import?cpdetector.io.UnicodeDetector;
public class HtmlParserUtil {
/* StringBuffer的缓冲区大小 */public static int TRANSFER_SIZE = 4096;
/* 当前平台的行分隔符 */public static String lineSep = System.getProperty(line.separator);
/* 自动探测页面编码,避免中文乱码的出现 */public static String autoDetectCharset(URL url) {
?? CodepageDetectorProxy detector = CodepageDetectorProxy.getInstance();?? /**?? * ParsingDetector可用于检查HTML、XML等文件或字符流的编码 构造方法中的参数用于指示是否显示探测过程的详细信息?? * 为false则不显示?? */?? detector.add(new ParsingDetector(false));?? detector.add(JChardetFacade.getInstance());?? detector.add(ASCIIDetector.getInstance());?? detector.add(UnicodeDetector.getInstance());
?? Charset charset = null;?? try {??? charset = detector.detectCode
您可能关注的文档
- iTunes图文教程.doc
- JAVATE第一阶段测试题.doc
- JAVA中clone方法详解.doc
- JAVA技术文章收集.doc
- JL-A001工程开工报审表.doc
- K3医药公司工作程序.doc
- KITTE幼儿涂色.doc
- linux下常用的基本命令.doc
- Linux系统扫盲行动.doc
- Lesson63(冀教版七年级英语下册Lesson63).ppt
- 广东省广州省实验中学教育集团2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州大学附属中学2025-2026学年八年级上学期奥班期中物理试题(解析版).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(含答案).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(解析版).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 2026《中国人寿上海分公司营销员培训体系优化研究》18000字.docx
- 《生物探究性实验教学》中小学教师资格模拟试题.docx
最近下载
- 中医护理技术在骨科中的应用.ppt VIP
- 非煤矿山节后复工安全培训.pptx VIP
- 吉林省松原市长岭县2025~2026学年度下学期第一次月考试卷 八年英语(含答题卡、答案).docx VIP
- 2019新人教版高中英语必修二Unit4词汇表.pdf VIP
- 2025年上半年中国铁路西安局集团有限公司校招笔试题带答案.docx VIP
- 教育学原理-第三章-教育与人的发展【实用参考】.ppt VIP
- 婴幼儿早期教育课程标准.docx VIP
- 景成道人培训课件.ppt VIP
- 2022年高中军训心得体会(集合15篇).docx VIP
- (统编版2024)语文七年级下册 第三单元《课外古诗词诵读》课件(新教材).pptx
原创力文档

文档评论(0)