- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
JAVA技术的网页内容智能抓取
基于JAVA技术的网页内容智能抓取
架构
完全基于java的技术
核心技术
XML解析,HTML解析,开源组件应用。应用的开源组件包括:
DOM4J:解析XML文件
jericho-html-2.5:解析HTML文件
commons-httpclient:读取WEB页面内容工具
其他必须的辅助引用包括:
commons-codec
commons-logging
jaxen
基本业务流程描述
通过XML文件定义抓取目标
通过DOM4J开源组件读取XML配置文件
根据配置文件执行抓取任务
对抓取到的内容根据定义进行解析与处理
目前缺陷功能描述
抓取内容如果有分页,则无法获取下一分页
目标页面可能包含有想抓取的信息,但没有抓取的配置选项。如百度贴吧
目标页面链接定义不够灵活,对于百度贴吧的链接参数以50增加的只能手动定义
没有多线程支持
日志输出比较混乱
错误处理比较简单,不能对失败的任务自动重新执行,很多地方缺乏错误判断,如空数组
程序架构不够清晰,代码略显凌乱
不支持抓取结果存入多个表,目前只能将结果放在一个表中
是否考虑写一个XML类,提供通用的调用XML节点跟解析结果的方法?
规定任务文件的DTD?
通配符替换不支持多个替换
目前功能描述
抓取目标定义
作用:
批量的定义抓取目标,自动生成要抓取的网页的地址。系统通过这个定义,自动生成要抓取的目标。网页抓取的意义在于批量自动化抓取,不可能手动的输入网址一个个进行抓取,所以抓取目标的自动生成是必须的。
抓取目标定义的XML文件范例:
target encode=UTF-8 timeout=8000
multi-url
single-url href=/?page=1 /
/multi-url
wildcard-url href=/?page=(*)
startpos=1 endpos=3 /
target-regex root=http://
![CDATA[
href\=\(/blog/\d*)\
]]
/target-regex
/target
XML规则:
必须包含target节点,target的encode与timeout属性如果采用默认,可以不设置
multi-url与wildcard-url可以任选一个,也可以并存,最多2个。合理的情况包括:只有一个multi-url,只有一个wildcard-url,一个multi-url和一个wildcard-url。注意,无论wildcard-url跟multi-url的顺序如何,系统都会从multi-url开始执行。
multi-url下包含至少一个single-url元素,通过single-url元素的href属性设置url
wildcard-url属性包括href,startpos,endpos,这3个属性都是必须的。目前只支持(*)通配,url中只能有一个(*),(*)将会被替换成startpos和endpos之间的数字。
target-regex属性包括root,该属性值将会被添加在通过这个正则匹配得到的url之前。主要针对相对url。相对url需要加上站点的根路径组成完整路径。而如果是绝对url的话,可以将root属性放空。注意,正则表达式需要放在CDATA标签内。因为正则包含特殊字符,必须放在CDATA内,否则很可能导致解析错误。
解析过程:
首先获得页面编码与超时设置,在接下来读取任何html页面的过程中,这2个参数都会被应用。默认的编码为 UTF-8,默认的超时时限为5000ms。如果要抓取的网站访问很慢,响应时间特别长,那么这个超时时限可以相应设置得高一点。如果在target中没有指定这2个值,那么系统会采用默认的编码跟超时设置。
判断是否包含multi-url定义,包含的话调用相应的方法,如果target下定义了target-regex元素,那么multi-url中定义的url会先被读取,然后将读取到的内容使用target-regex中定义的正则表达式进行匹配,将匹配结果作为目标列表返回。如果target下没有定义target-regex,那么将multi-url下所有的url作为目标列表返回。
判断是否包含wildcard-url定义,包含的话调用相应的方法,首先获得起始跟终结位置,替换生成所有通配的url,接下来同multi-url,如果target下定义了target-regex元素,那么所有生成的通配url会先被读取,然后将读取到的内容使用target-regex中定义的正则表达式进行匹配,将匹配结果作为目标列表返回。如果target下没有定义target-regex,那么将所有生成的通配url作为目标列表返回。
举例1:最简单的定义抓取目标
例如我
您可能关注的文档
- (DCR2626)常用功能及其配置.doc
- (哈工程机械考研机械设计题库)第7章 齿轮传动.doc
- (摄像头的工作原理(获取视频数据))摄像头视频采集压缩及传输.doc
- 0000基于层次分析法的南通出口主导产业选择.doc
- 000000a0急诊感染的现状与对策.doc
- -开题报告 注水肉”快速检测系统研究.doc
- 000000b2HIV感染者围手术期脓毒症相关危险因素分析.doc
- 004-3种不锈钢多辊冷轧机的使用比较.doc
- 013-2009中国联通基于UICC平台的Java卡互操作性技术规范v10.doc
- (宋明玉)迈氏干涉仪教案.doc
- 六年级上册语文试题期中检测试卷(有答案) 人教新课标.doc
- 2024年04月贵州贵阳贵安招考聘用中小学幼儿园教师963人笔试历年典型考题及考点研判与答案详解.docx
- 2024年04月浙江省金华市司法局所属事业单位金华市法律事务中心2024年公开选调1名工作人员笔试历年典型考题及考点研判与答案详解.docx
- 2024年04月浙江台州仙居县卫生健康系统招考聘用卫技人员56人笔试历年典型考题及考点研判与答案详解.docx
- 2024年04月福建省南平碳计量中心紧缺急需岗位招考聘用8人笔试历年典型考题及考点研判与答案详解.docx
- 2024年04月甘肃庆阳市庆城县卫健系统事业单位引进人才笔试历年典型考题及考点研判与答案详解.docx
- 2024年04月浙江省台州市精筑建设工程施工图中心2024年公开招考1名合同制法务人员笔试历年典型考题及考点研判与答案详解.docx
- 2024年04月浙江省天台县应急管理局公开2024年选聘1名工作人员笔试历年典型考题及考点研判与答案详解.docx
- 2024年04月湖南长沙学院招考聘用优秀博士47人笔试历年典型考题及考点研判与答案详解.docx
- 2024年04月福建省龙岩市永定区融媒体中心2024年专项公开招考6名事业编制工作人员笔试历年典型考题及考点研判与答案详解.docx
最近下载
- ISO27001-2022信息安全管理体系内审全套记录表格.pdf VIP
- 六大纪律违纪风险点排查及对应防控措施.docx VIP
- 2022-2023学年天津市部分区高二(下)期末物理试卷(含解析).docx
- AQT9009-2015《生产安全事故应急演练评估规范》(AQT 9009-2015).pdf
- 预防艾滋病、梅毒和乙肝母婴传播登记及随访表.docx
- 园区保洁服务方案.docx
- DB-13 T 886-2007 森林害鼠预测预报与防治技术规程.pdf
- 关于新形势下党内政治生活的若干准则解读幻灯课件.pptx VIP
- SL101-2014水工钢闸门和启闭机安全检测技术规程.docx VIP
- 辽宁市政道路(桥梁)维修养护工程施工组织设计.doc
文档评论(0)