利用OSS-HttpClient批量抓取网络资源的探讨.pdfVIP

利用OSS-HttpClient批量抓取网络资源的探讨.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
DLIBtOSS 2009学术研讨会论文 利用OSS.HttpClient批量抓取 网络资源的探讨 陶勇 (中国科技技术信息研究所北京100038) i蕊要3溲用文献数据库网站时,有时需要查询并批量获取论文的文摘信息,本文探讨的是在 Java环境下,利用开源软件(OSS)Htll)ClieIlt,实现对网络资源的批量抓取。 [关键词]JavaOSSHtq,Client批量抓取 fromWebsiteBasedon BatchMethodtoSnatchatData HttpClient 胁协孵 lo0038 《Isnc chinn) Be谤ing on amethodt0 dataf.rom w6bsitebased 【Abstract】Tllispaplerprovides grasp也e specific an So氚,areiIlJava 王I£tpCiieIltOp锶一Source pIa响加. OSS batchmethod i卫bywords】JavaHtlpClient 1 实现目标 在使用万方、维普、EI等文献数据库网站时,通常输入某些关键词,获得特定的 论文信息。但如果要批量获取资料信息,手工操作,费时费力,因此需要利用程序实现 自动批量查淘、抓取论文信息。 2 HttpClient的使用 的应用中,在易厢性、Session的保持等方面还有很多不足之处。丽基『.java的开源 软什HttpClient相比较而言,却有效的弥补了这些。 2.}HttpClient与其他软件的比较 (1)java.net java.net提供了使用Http协议的基本的方法,但是对于很多应用来说还不够完善。 HttpClient是JakartaCo咖ons的一个子项目,它基丁.标准的纯正Java,支持H”P1.0及 HTTPl.1,在一个可扩展的面向对蒙的框架内实现了HTTP的所有方法(GET,POST,PUT, overSSL)协议盼幻密处理,可 DELETE,H£AD,0PTIONs,andTRACE),支持H丁TPs(HTTP 以通过代理进行HTTP连接,支持自动转向,可以直接将请求信息流送到服务器的端口,直 接读取从服务器的端口送出的应答信息。 (2).NET 2.O下的webClient Mircsoft在.NET2.0框架下提供的向URI标识的资源发送数据和从URI标识的资源 接收数据的公共方法——帮ebClient类,通过这个类,可以处理发送请求和接收响应的协议 .93. DLIB&oss 2009学术研讨会论文 件机制的cookie策略。 2.2使用步骤 步骤一、获取软件包 HttpClient可以在 ient实例 步骤二、创建HttpCl client=new HttpClient HttpClient(connManager): 步骤三、创建连接方法 TraceMethod)的一个实例,一般可用目标URL为构造函数的参数。 步骤四、执行方法,读取应答 读取应答的方式有三种:getResponseBody,该方法返回目标的byte流:第二种。 地址中有大量数据需要传输。 步骤五、释放连接,处理应答 无论执行方法是否成功,都

文档评论(0)

hnlhfdc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档