- 3
- 0
- 约8.7千字
- 约 11页
- 2018-06-23 发布于浙江
- 举报
基于JAVA术的网页内容智能抓取
基于JAVA技术的网页内容智能抓取
目录
基于JAVA技术的网页内容智能抓取 1
架构 1
核心技术 1
基本业务流程描述 1
目前缺陷功能描述 2
快速上手 2
目前功能描述 2
抓取目标定义 2
清除目标定义 5
处理过程定义 7
案例 9
抓取javaeye博客内容 9
架构
完全基于java的技术
核心技术
XML解析,HTML解析,开源组件应用。应用的开源组件包括:
DOM4J:解析XML文件
jericho-html-2.5:解析HTML文件
commons-httpclient:读取WEB页面内容工具
其他必须的辅助引用包括:
commons-codec
commons-logging
jaxen
基本业务流程描述
通过XML文件定义抓取目标
通过DOM4J开源组件读取XML配置文件
根据配置文件执行抓取任务
对抓取到的内容根据定义进行解析与处理
目前缺陷功能描述
抓取内容如果有分页,则无法获取下一分页
目标页面可能包含有想抓取的信息,但没有抓取的配置选项。如百度贴吧
目标页面链接定义不够灵活,对于百度贴吧的链接参数以50增加的只能手动定义
没有多线程支持
日志输出比较混乱
错误处理比较简单
程序架构不够清晰,代码略显凌乱
不支持抓取结果存入多个表,目前只能将结果放在一个表中
是否考虑写一个XML类,提供通用的调用XML节点跟解析结果的方法?
规定任务文件的DTD?
您可能关注的文档
- 地下通道工专项方案.doc
- 地下金属矿山井下帷幕浆实施方案.doc
- 地下防水施工方案secret.doc
- 地下车库高模施工方案.doc
- 地下深基车站主体结构施工方案.doc
- 地产单位监理单位预控重管理方案.doc
- 地产建筑工质量通病防治办法.doc
- 地产客户诉处理程序.doc
- 地坑及抗渗施工方案.doc
- 地块地下防施工方案.doc
- 2.9+辽、西夏与北宋的并立++课件++2025-2026学年统编版七年级历史下册.pptx
- 2026年小学英语1-6年级必备英语单词500个.docx
- 2026年新课标小学语文考编模拟试题及答案(共50题).docx
- 2026年五一劳动节前的集体廉洁提醒谈话.docx
- 2026年新课标中小学美术考编模拟试题及答案(共50题).docx
- 企业内部合规管理手册.docx
- 2026年新课标中小学英语考编模拟试题及答案(共50题).docx
- 2026年医院三基招聘考试题库及答案(共100题).docx
- 初一数学期末复习模拟试题解析.docx
- 2026年语文教师考编专业知识主观题案例分析20题及解析答案.docx
原创力文档

文档评论(0)