[网页内容智能抓取实现及实例详解.docVIP

下载本文档

2
0
约8.57千字
约 10页
2017-01-06 发布于北京
举报

[网页内容智能抓取实现及实例详解.doc

[网页内容智能抓取实现及实例详解

网页内容智能抓取实现及实例详解架构完全基于java的技术核心技术 XML解析，HTML解析，开源组件应用。应用的开源组件包括： DOM4J：解析XML文件 jericho-html-2.5：解析HTML文件 commons-httpclient：读取WEB页面内容工具其他必须的辅助引用包括： commons-codec commons-logging jaxen 基本业务流程描述通过XML文件定义抓取目标通过DOM4J开源组件读取XML配置文件根据配置文件执行抓取任务对抓取到的内容根据定义进行解析与处理目前缺陷功能描述抓取内容如果有分页，则无法获取下一分页目标页面可能包含有想抓取的信息，但没有抓取的配置选项。如百度贴吧目标页面链接定义不够灵活，对于百度贴吧的链接参数以50增加的只能手动定义没有多线程支持日志输出比较混乱错误处理比较简单，不能对失败的任务自动重新执行，很多地方缺乏错误判断，如空数组程序架构不够清晰，代码略显凌乱不支持抓取结果存入多个表，目前只能将结果放在一个表中是否考虑写一个XML类，提供通用的调用XML节点跟解析结果的方法？规定任务文件的DTD？通配符替换不支持多个替换目前功能描述抓取目标定义作用：批量的定义抓取目标，自动生成要抓取的网页的地址。系统通过这个定义，自动生成要抓取的目标。网页抓取的意义在于

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

[网页内容智能抓取实现及实例详解.docVIP