基于JAVA技术的网页内容智能抓取.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于JAVA技术的网页内容智能抓取

基于JAVA技术的网页内容智能抓取 目录 基于JAVA技术的网页内容智能抓取 1 架构 1 核心技术 1 基本业务流程描述 1 目前缺陷功能描述 2 快速上手 2 目前功能描述 2 抓取目标定义 2 清除目标定义 5 处理过程定义 7 案例 9 抓取javaeye博客内容 9 架构 完全基于java的技术 核心技术 XML解析,HTML解析,开源组件应用。应用的开源组件包括: DOM4J:解析XML文件 jericho-html-2.5:解析HTML文件 commons-httpclient:读取WEB页面内容工具 其他必须的辅助引用包括: commons-codec commons-logging jaxen 基本业务流程描述 通过XML文件定义抓取目标 通过DOM4J开源组件读取XML配置文件 根据配置文件执行抓取任务 对抓取到的内容根据定义进行解析与处理 目前缺陷功能描述 抓取内容如果有分页,则无法获取下一分页 目标页面可能包含有想抓取的信息,但没有抓取的配置选项。如百度贴吧 目标页面链接定义不够灵活,对于百度贴吧的链接参数以50增加的只能手动定义 没有多线程支持 日志输出比较混乱 错误处理比较简单 程序架构不够清晰,代码略显凌乱 不支持抓取结果存入多个表,目前只能将结果放在一个表中 是否考虑写一个XML类,提供通用的调用XML节点跟解析结果的方法? 规定任务文件的DTD? 通配符替换不支持多个替换 快速上手 在/p/playfish/ 上面将war包下载到本地,导入到eclipse中。 使用WebContent/sql下的wcc.sql文件建立一个范例数据库修改src包下wcc.core的dbConfig.txt,将用户名与密码设置成你自己的mysql用户名密码。运行SystemCore,运行时候会在控制台,无参数会执行默认的example.xml的配置文件,参数配置文件名。target encode=UTF-8 timeout=8000 multi-url single-url href=/?page=1 / /multi-url wildcard-url href=/?page=(*) startpos=1 endpos=3 / target-regex root=http:// ![CDATA[ href\=\(/blog/\d*)\ ]] /target-regex /target XML规则: 必须包含target节点,target的encode与timeout属性如果采用默认,可以不设置 multi-url与wildcard-url可以任选一个,也可以并存,最多2个。合理的情况包括:只有一个multi-url,只有一个wildcard-url,一个multi-url和一个wildcard-url。注意,无论wildcard-url跟multi-url的顺序如何,系统都会从multi-url开始执行。 multi-url下包含至少一个single-url元素,通过single-url元素的href属性设置url wildcard-url属性包括href,startpos,endpos,这3个属性都是必须的。目前只支持(*)通配,url中只能有一个(*),(*)将会被替换成startpos和endpos之间的数字。 target-regex属性包括root,该属性值将会被添加在通过这个正则匹配得到的url之前。主要针对相对url。相对url需要加上站点的根路径组成完整路径。而如果是绝对url的话,可以将root属性放空。注意,正则表达式需要放在CDATA标签内。因为正则包含特殊字符,必须放在CDATA内,否则很可能导致解析错误。 解析过程: 首先获得页面编码与超时设置,在接下来读取任何html页面的过程中,这2个参数都会被应用。默认的编码为 UTF-8,默认的超时时限为5000ms。如果要抓取的网站访问很慢,响应时间特别长,那么这个超时时限可以相应设置得高一点。如果在target中没有指定这2个值,那么系统会采用默认的编码跟超时设置。 判断是否包含multi-url定义,包含的话调用相应的方法,如果target下定义了target-regex元素,那么multi-url中定义的url会先被读取,然后将读取到的内容使用target-regex中定义的正则表达式进行匹配,将匹配结果作为目标列表返回。如果target下没有定义target-regex,那么将multi-url下所有的url作为目标列表返回。 判断是否包含wildcard-url定义,包含的话调用相应的方法,首先获得起始跟终结位置,替换生成所有通配的url,接下来同multi-url,如果target下定义了targ

文档评论(0)

tiangou + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档