基于JAVA术的网页内容智能抓取.docVIP

  • 3
  • 0
  • 约8.7千字
  • 约 11页
  • 2018-06-23 发布于浙江
  • 举报
基于JAVA术的网页内容智能抓取

基于JAVA技术的网页内容智能抓取 目录 基于JAVA技术的网页内容智能抓取 1 架构 1 核心技术 1 基本业务流程描述 1 目前缺陷功能描述 2 快速上手 2 目前功能描述 2 抓取目标定义 2 清除目标定义 5 处理过程定义 7 案例 9 抓取javaeye博客内容 9 架构 完全基于java的技术 核心技术 XML解析,HTML解析,开源组件应用。应用的开源组件包括: DOM4J:解析XML文件 jericho-html-2.5:解析HTML文件 commons-httpclient:读取WEB页面内容工具 其他必须的辅助引用包括: commons-codec commons-logging jaxen 基本业务流程描述 通过XML文件定义抓取目标 通过DOM4J开源组件读取XML配置文件 根据配置文件执行抓取任务 对抓取到的内容根据定义进行解析与处理 目前缺陷功能描述 抓取内容如果有分页,则无法获取下一分页 目标页面可能包含有想抓取的信息,但没有抓取的配置选项。如百度贴吧 目标页面链接定义不够灵活,对于百度贴吧的链接参数以50增加的只能手动定义 没有多线程支持 日志输出比较混乱 错误处理比较简单 程序架构不够清晰,代码略显凌乱 不支持抓取结果存入多个表,目前只能将结果放在一个表中 是否考虑写一个XML类,提供通用的调用XML节点跟解析结果的方法? 规定任务文件的DTD?

文档评论(0)

1亿VIP精品文档

相关文档