基于JAVA术的网页内容智能抓取.docVIP

下载本文档

3
0
约8.7千字
约 11页
2018-06-23 发布于浙江
举报

基于JAVA术的网页内容智能抓取.doc

基于JAVA术的网页内容智能抓取

基于JAVA技术的网页内容智能抓取目录基于JAVA技术的网页内容智能抓取 1 架构 1 核心技术 1 基本业务流程描述 1 目前缺陷功能描述 2 快速上手 2 目前功能描述 2 抓取目标定义 2 清除目标定义 5 处理过程定义 7 案例 9 抓取javaeye博客内容 9 架构完全基于java的技术核心技术 XML解析，HTML解析，开源组件应用。应用的开源组件包括： DOM4J：解析XML文件 jericho-html-2.5：解析HTML文件 commons-httpclient：读取WEB页面内容工具其他必须的辅助引用包括： commons-codec commons-logging jaxen 基本业务流程描述通过XML文件定义抓取目标通过DOM4J开源组件读取XML配置文件根据配置文件执行抓取任务对抓取到的内容根据定义进行解析与处理目前缺陷功能描述抓取内容如果有分页，则无法获取下一分页目标页面可能包含有想抓取的信息，但没有抓取的配置选项。如百度贴吧目标页面链接定义不够灵活，对于百度贴吧的链接参数以50增加的只能手动定义没有多线程支持日志输出比较混乱错误处理比较简单程序架构不够清晰，代码略显凌乱不支持抓取结果存入多个表，目前只能将结果放在一个表中是否考虑写一个XML类，提供通用的调用XML节点跟解析结果的方法？规定任务文件的DTD？

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于JAVA术的网页内容智能抓取.docVIP