JAVA技术的网页内容智能抓取.doc

下载文档 降价啦

2
0
约8.55千字
约 10页
2017-08-16 发布于重庆
举报
版权申诉
保障服务

JAVA技术的网页内容智能抓取.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

JAVA技术的网页内容智能抓取

基于JAVA技术的网页内容智能抓取架构完全基于java的技术核心技术 XML解析，HTML解析，开源组件应用。应用的开源组件包括： DOM4J：解析XML文件 jericho-html-2.5：解析HTML文件 commons-httpclient：读取WEB页面内容工具其他必须的辅助引用包括： commons-codec commons-logging jaxen 基本业务流程描述通过XML文件定义抓取目标通过DOM4J开源组件读取XML配置文件根据配置文件执行抓取任务对抓取到的内容根据定义进行解析与处理目前缺陷功能描述抓取内容如果有分页，则无法获取下一分页目标页面可能包含有想抓取的信息，但没有抓取的配置选项。如百度贴吧目标页面链接定义不够灵活，对于百度贴吧的链接参数以50增加的只能手动定义没有多线程支持日志输出比较混乱错误处理比较简单，不能对失败的任务自动重新执行，很多地方缺乏错误判断，如空数组程序架构不够清晰，代码略显凌乱不支持抓取结果存入多个表，目前只能将结果放在一个表中是否考虑写一个XML类，提供通用的调用XML节点跟解析结果的方法？规定任务文件的DTD？通配符替换不支持多个替换目前功能描述抓取目标定义作用：批量的定义抓取目标，自动生成要抓取的网页的地址。系统通过这个定义，自动生成要抓取的目标。网页抓取的意义在于批量自动化抓取，不可能手动的输入网址一个个进行抓取，所以抓取目标的自动生成是必须的。抓取目标定义的XML文件范例： target encode=UTF-8 timeout=8000 multi-url single-url href=/?page=1 / /multi-url wildcard-url href=/?page=(*) startpos=1 endpos=3 / target-regex root=http:// ![CDATA[ href\=\(/blog/\d*)\ ]] /target-regex /target XML规则：必须包含target节点，target的encode与timeout属性如果采用默认，可以不设置 multi-url与wildcard-url可以任选一个，也可以并存，最多2个。合理的情况包括：只有一个multi-url，只有一个wildcard-url，一个multi-url和一个wildcard-url。注意，无论wildcard-url跟multi-url的顺序如何，系统都会从multi-url开始执行。 multi-url下包含至少一个single-url元素，通过single-url元素的href属性设置url wildcard-url属性包括href，startpos，endpos，这3个属性都是必须的。目前只支持（*）通配，url中只能有一个(*)，（*）将会被替换成startpos和endpos之间的数字。 target-regex属性包括root，该属性值将会被添加在通过这个正则匹配得到的url之前。主要针对相对url。相对url需要加上站点的根路径组成完整路径。而如果是绝对url的话，可以将root属性放空。注意，正则表达式需要放在CDATA标签内。因为正则包含特殊字符，必须放在CDATA内，否则很可能导致解析错误。解析过程：首先获得页面编码与超时设置，在接下来读取任何html页面的过程中，这2个参数都会被应用。默认的编码为 UTF-8，默认的超时时限为5000ms。如果要抓取的网站访问很慢，响应时间特别长，那么这个超时时限可以相应设置得高一点。如果在target中没有指定这2个值，那么系统会采用默认的编码跟超时设置。判断是否包含multi-url定义，包含的话调用相应的方法，如果target下定义了target-regex元素，那么multi-url中定义的url会先被读取，然后将读取到的内容使用target-regex中定义的正则表达式进行匹配，将匹配结果作为目标列表返回。如果target下没有定义target-regex，那么将multi-url下所有的url作为目标列表返回。判断是否包含wildcard-url定义，包含的话调用相应的方法，首先获得起始跟终结位置，替换生成所有通配的url，接下来同multi-url，如果target下定义了target-regex元素，那么所有生成的通配url会先被读取，然后将读取到的内容使用target-regex中定义的正则表达式进行匹配，将匹配结果作为目标列表返回。如果target下没有定义target-regex，那么将所有生成的通配url作为目标列表返回。举例1：最简单的定义抓取目标例如我