- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
DLIBtOSS
2009学术研讨会论文
利用OSS.HttpClient批量抓取
网络资源的探讨
陶勇
(中国科技技术信息研究所北京100038)
i蕊要3溲用文献数据库网站时,有时需要查询并批量获取论文的文摘信息,本文探讨的是在
Java环境下,利用开源软件(OSS)Htll)ClieIlt,实现对网络资源的批量抓取。
[关键词]JavaOSSHtq,Client批量抓取
fromWebsiteBasedon
BatchMethodtoSnatchatData HttpClient
胁协孵
lo0038
《Isnc chinn)
Be谤ing
on
amethodt0 dataf.rom w6bsitebased
【Abstract】Tllispaplerprovides grasp也e specific
an So氚,areiIlJava
王I£tpCiieIltOp锶一Source pIa响加.
OSS batchmethod
i卫bywords】JavaHtlpClient
1 实现目标
在使用万方、维普、EI等文献数据库网站时,通常输入某些关键词,获得特定的
论文信息。但如果要批量获取资料信息,手工操作,费时费力,因此需要利用程序实现
自动批量查淘、抓取论文信息。
2 HttpClient的使用
的应用中,在易厢性、Session的保持等方面还有很多不足之处。丽基『.java的开源
软什HttpClient相比较而言,却有效的弥补了这些。
2.}HttpClient与其他软件的比较
(1)java.net
java.net提供了使用Http协议的基本的方法,但是对于很多应用来说还不够完善。
HttpClient是JakartaCo咖ons的一个子项目,它基丁.标准的纯正Java,支持H”P1.0及
HTTPl.1,在一个可扩展的面向对蒙的框架内实现了HTTP的所有方法(GET,POST,PUT,
overSSL)协议盼幻密处理,可
DELETE,H£AD,0PTIONs,andTRACE),支持H丁TPs(HTTP
以通过代理进行HTTP连接,支持自动转向,可以直接将请求信息流送到服务器的端口,直
接读取从服务器的端口送出的应答信息。
(2).NET
2.O下的webClient
Mircsoft在.NET2.0框架下提供的向URI标识的资源发送数据和从URI标识的资源
接收数据的公共方法——帮ebClient类,通过这个类,可以处理发送请求和接收响应的协议
.93.
DLIB&oss
2009学术研讨会论文
件机制的cookie策略。
2.2使用步骤
步骤一、获取软件包
HttpClient可以在
ient实例
步骤二、创建HttpCl
client=new
HttpClient HttpClient(connManager):
步骤三、创建连接方法
TraceMethod)的一个实例,一般可用目标URL为构造函数的参数。
步骤四、执行方法,读取应答
读取应答的方式有三种:getResponseBody,该方法返回目标的byte流:第二种。
地址中有大量数据需要传输。
步骤五、释放连接,处理应答
无论执行方法是否成功,都
文档评论(0)