- 2
- 0
- 约8.57千字
- 约 10页
- 2017-01-06 发布于北京
- 举报
[网页内容智能抓取实现及实例详解
网页内容智能抓取实现及实例详解
架构
完全基于java的技术
核心技术
XML解析,HTML解析,开源组件应用。应用的开源组件包括:
DOM4J:解析XML文件
jericho-html-2.5:解析HTML文件
commons-httpclient:读取WEB页面内容工具
其他必须的辅助引用包括:
commons-codec
commons-logging
jaxen
基本业务流程描述
通过XML文件定义抓取目标
通过DOM4J开源组件读取XML配置文件
根据配置文件执行抓取任务
对抓取到的内容根据定义进行解析与处理
目前缺陷功能描述
抓取内容如果有分页,则无法获取下一分页
目标页面可能包含有想抓取的信息,但没有抓取的配置选项。如百度贴吧
目标页面链接定义不够灵活,对于百度贴吧的链接参数以50增加的只能手动定义
没有多线程支持
日志输出比较混乱
错误处理比较简单,不能对失败的任务自动重新执行,很多地方缺乏错误判断,如空数组
程序架构不够清晰,代码略显凌乱
不支持抓取结果存入多个表,目前只能将结果放在一个表中
是否考虑写一个XML类,提供通用的调用XML节点跟解析结果的方法?
规定任务文件的DTD?
通配符替换不支持多个替换
目前功能描述
抓取目标定义
作用:
批量的定义抓取目标,自动生成要抓取的网页的地址。系统通过这个定义,自动生成要抓取的目标。网页抓取的意义在于
您可能关注的文档
- [网卡属性设置详解说明.doc
- [02基础操作精雕曲面设计】.doc
- [网优之悲剧转行.doc
- [02广告发展史广告学概论1302.doc
- [网友晒成长清单上大学4年花费10多万很内疚.doc
- 《电力电子课程学习心得.doc
- 《电力电子技术课后答案与复习资料.doc
- [网上银行术语名词解释.doc
- [03-学生手册.doc
- 《电力系统专业英语考试翻译2.doc
- 【人民日报】十五五规划必刷100题及答案.docx
- 国家电网有限公司高校毕业生招聘考试公共与行业知识题库及答案(2026版).docx
- 高中入团积极分子考试题库及答案.docx
- 北京工业大学耿丹学院《社会福利思想》2025-2026学年期末试卷.doc
- 北京工业大学耿丹学院《新中国史》2025-2026学年期末试卷.doc
- 北京工业大学耿丹学院《文献信息检索与利用》2025-2026学年期末试卷.doc
- 活动策划丨长城炮越野皮卡上市发布方案 .pdf
- 【中考动员】主题班会《100天做自己的六边形战士+》.pptx
- 中考英语高频词汇第二部分 阅读技能·提升练(学用).pdf
- 商业综合体安全生产管理制度.docx
最近下载
- 2025年重点高中中考自主招生模拟化学试卷试题(含答案详解).pdf VIP
- 急诊专科护理敏感指标ppT.pptx
- 污水处理药剂采购投标方案(技术方案).doc VIP
- DBJ 33T 1321-2024建筑施工拉杆式悬挑脚手架安全技术规程(OCR).docx VIP
- 人教版八年级下册(2026年新版)英语单元知识梳理.pdf VIP
- 国家义务教育质量监测小学四年级英语核心素养提升国测模拟测试题.doc VIP
- 2020年最新查询网址汇总.doc VIP
- 中医护理专科护士考核试题及答案.docx VIP
- 爱学娃基本笔画控笔训练-v20200407.pdf VIP
- Seven Worlds, One Planet《七个世界,一个星球(2019)》第一季第七集完整中英文对照剧本.docx VIP
原创力文档

文档评论(0)