- 5
- 0
- 约 10页
- 2016-10-02 发布于浙江
- 举报
网页内容智能抓实现及实例详解
网页内容智能抓取实现及实例详解
架构
完全基于java的技术
核心技术
XML解析,HTML解析,开源组件应用。应用的开源组件包括:
DOM4J:解析XML文件
jericho-html-2.5:解析HTML文件
commons-httpclient:读取WEB页面内容工具
其他必须的辅助引用包括:
commons-codec
commons-logging
jaxen
基本业务流程描述
通过XML文件定义抓取目标
通过DOM4J开源组件读取XML配置文件
根据配置文件执行抓取任务
对抓取到的内容根据定义进行解析与处理
目前缺陷功能描述
抓取内容如果有分页,则无法获取下一分页
目标页面可能包含有想抓取的信息,但没有抓取的配置选项。如百度贴吧
目标页面链接定义不够灵活,对于百度贴吧的链接参数以50增加的只能手动定义
没有多线程支持
日志输出比较混乱
错误处理比较简单,不能对失败的任务自动重新执行,很多地方缺乏错误判断,如空数组
程序架构不够清晰,代码略显凌乱
不支持抓取结果存入多个表,目前只能将结果放在一个表中
是否考虑写一个XML类,提供通用的调用XML节点跟解析结果的方法?
规定任务文件的DTD?
通配符替换不支持多个替换
目前功能描述
抓取目标定义
作用:
批量的定义抓取目标,自动生成要抓取的网页的地址。系统通过这个定义,自动生成要抓取的目标。网页抓取的意义在于
您可能关注的文档
- 网规网优部传播型测试与校正工作指南.doc
- 网银共性问题处方法.doc
- 网页上不能导出ORD的解决方法.doc
- 网页上的图片不示的解决方法.doc
- 网页中留言板的作 2.doc
- 网页制作复习提答案.doc
- 网页制作与网站发从入门到精通.doc
- 网页制作中关于链接.doc
- 网页不能复制解方法(图解).doc
- 网页制作-在线业_A 答案.docx
- 2026年山东省滨州市惠民县中考化学一模试卷(含答案).pdf
- 2026年山东省济南市历城区中考化学二模试卷(含答案).pdf
- 2026年山东省烟台市福山区中考化学模拟试卷(含答案).pdf
- 2026年山东省临沂市郯城县中考化学一模(含答案).pdf
- 2026年四川省德阳市中江县中考化学二诊试卷(含答案).pdf
- 2026年四川省绵阳市梓潼县中考化学二模试卷(含答案).pdf
- 2026年新疆乌鲁木齐市沙依巴克区中考化学适应性试卷(含答案).pdf
- 2026年重庆市永川区中考化学质检试卷(含答案).pdf
- 2026年重庆市第一中学校中考化学全真模拟试卷(二)(含答案).pdf
- 安徽池州市第二中学等校2025-2026学年高一下学期期中物理试卷A(含答案).pdf
最近下载
- 3套2025年发展对象考试100分试题(附全答案).docx VIP
- 校园闲置物品交易平台的设计与实现.docx VIP
- 2023版中国近现代史纲要课件:13第十三专题 把握历史主动 坚定历史自信.pptx VIP
- 2024-2025学年上海市杨浦区高二下学期6月模拟质量调研化学试卷含详解.docx VIP
- 2024-2025学年上海市杨浦区高二下学期6月等级考模拟考试生物试题(解析版).docx VIP
- 铁路动车组作业指导书crh380blm30802001司机室空调装置检查.doc VIP
- 《珍稀药用植物资源》课件.ppt VIP
- 施工临时用电专项方案.doc VIP
- 儿童用药安全专家共识(2025年版).docx VIP
- (五调)武汉市2025届高三年级五月模拟训练数学试卷(含答案解析).pdf
原创力文档

文档评论(0)