基于网络爬虫的文献检索系统的研究和实现.pdfVIP

基于网络爬虫的文献检索系统的研究和实现.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于网络爬虫的文献检索系统的研究和实现.pdf

第24卷 第 11期 计 算机 技 术 与 发 展 Vo1.24 No.11 2014年 11月 COMPUTER TECHNOLOGY AND DEVELOPMENT Nov. 20l4 基于网络爬虫的文献检索系统的研究和实现 杨 洋 ,李晓风 ,赵 赫 ,刘 冰 (1.中国科学院 合肥物质科学研究院,安徽 合肥 230031; 2.中国科学院大学,北京 100049; 3.中国科学技术大学,安徽 合肥 230026) 摘 要:文中系统基于网络爬虫技术实现了文献资源的智能搜索和关键信息的抓取功能,把采集到的信息采用本体论的 方法进行分类识别,并 自动存储文献资源到本地服务器。下载子系统采用负载均衡的方法把下载任务分配到多个服务 器。系统采用高效的Pmtobufsocket通信手段,提供高效准确的内部下载服务。通过对内提供统--f-I户入口的方式对检索 和下载行为进行记录,有效避免了同一资源的重复下载,也使得文献检索和下载行为变得可追溯,为图书文献情报管理和 研究工作提供了数据支撑。该系统可有效减少科研机构获取学术资源所需的资金投入并减少网络带宽占用。 关键词:网络爬虫;本体论;论文检索;Web;MVC;负载均衡 中图分类号 :TP393.4 文献标识码:A 文章编号:1673—629X(2014)11—0o35一o4 doi:10.3969/j.issn.1673-629X.2014.11.009 ResearchandRealizationofAcademicSearchSystem BasedonNetworkCrawler YANG Yang ,LIXiao—feng ,ZHAO He ,LIU Bingf (1.HefeiInstitutesofPhysicalScience,ChineseAcademyofSciences,Hefei230031,China; 2.UniversityofChineseAcademyofSciences,Beijing100049,China; 3.UniversityofScienceandTechnologyofChina,Hefei230026,China) Abstract:Thissystem hasrealizedintelligentserachandexternalacademicresourcescapturebasedonnetworkcrawlertechnique.Ituses ontologytechnologytoidentifyeacharticleandautomaticallystoretheresollrcesintolocalrepository.Downloadingsubsystem inthissys— tem appliesloadbalancemehtodtodistributedownloadingtasksequallytoeachdownloadserver.Protobuf,ahigh-effi ciencycommunica- tionmechanism ,providesdownloadingservicewitl1highavailabilitynadaccuracyinhtissystem,Athtesalnetime,thissystem hassolved hteproblem ofrepeatde downloadingna daccessrecordingbyofferingauniqueentrancetohtewholeinstitute.Accessconrtolisalsode— signedtoelim

文档评论(0)

月光般思恋 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档