主题网络机器人系统结构研究.docVIP

下载本文档

2
0
约3.38千字
约 5页
2018-04-07 发布于北京
举报
版权申诉

主题网络机器人系统结构研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

主题网络机器人系统结构研究　　摘要:作为搜索引擎的重要组成部分,网络机器人能从Internet上自动获取网页,替搜索引擎在Internet上搜集网页。通用网络机器人以种子URL作为入口,对整个Web进行遍历下载。而主题网络机器人不单单是充当一个获取网页的工具,还能够对链接以及页面内容进行主题相关性识别。主题网络机器人并不仅把目标定位覆盖率,还要提高获取主题相关网页的准确性,为搜索引擎提供一个主题相关的网页库。现在,主题网络机器人已经成为搜索引擎技术领域的一个研究热点,是搜索引擎的发展的重点方向之一。　　关键词:网络;搜索;机器人　　中图分类号:TP393 文献标识码:A文章编号:1007-9599 (2010) 06-0000-01 　　Topical Web Robot Syetem Research 　　Tu Yuan 　　(PLA 61716 Troop,Fuzhou350003,China) 　　Abstract:As an important part of search engine,web robot can automatically download web pages from Internet.It helps search engine gather web pages.Web robot starts work with some seed links,and then it tranverse the whole web.However,topical web robot is not only a tool that downloads pages from web,but also can recognize topical relevece of links and the content of web pages.The main goal of topical web robot is not only to fulfill the recall rate,but also to improve the precision rate,providing search engine with a topical web warehouse.Nowadays, topical web robot,a important developing direction of search engine has become a research hot spot in the domain of search engine technology. 　　Keywords:Web;Search;Robot 　　一、主题网络机器人的主要结构　　主题网络机器人(Topical Web Robot,也称聚焦网络机器人:Focused Web Robot)是对网络中搜集相关主题页面的技术,当网络信息量呈爆发性增长时,以特定主题为目标的垂直式搜索将会越来越可行及实用,并将与通用搜索引擎形成强大的互补。　　为网络机器人提供了主题关键字,并在存储之前增加了一个主题相关性判断步骤,若页面与主题相关就存储,否则就丢弃。这样的网络机器人虽然能对主题资源进行搜集,但它依然要遍历整个网络,并没有提高搜集的效率,并且网页爬行的效果在相当大程度上依赖于种子站点的质量。同时无法避免的是,这样的网络机器人还会下载很多与主题无关的页面,对带宽和网络资源的造成了极大的浪费。　　为了改进上述诸多的缺点,通过遍历各种算法和策略来保证网络机器人把搜集目标尽可能聚焦到相关主题页面。主要研究工作为如何将待爬行的URL按一定策略进行排序,使得与主题相关且质量高的URL优先爬行。　　主题网络机器人包括以下三个主要模块: 　　(一)页面相关度评价模块:该模块主要特点是以文本分类的思想作为基础。在主题网络机器人爬行开始的时候,本模块根据用户输入的主题关键字和初始信息逐渐进行学习,训练一个页面相关度评价模型。每当搜集到一个页面,本模块将计算其主题相关度值,若该值大于或等于给定的阈值,则该页面就被存入页面库,否则丢弃。　　(二)链接评价模块:该模块是主题网络机器人的最关键的模块,主要用于快速评价从页面提取出来的URL与主题的相关程度,并提供爬行策略用以指导网络机器人搜集页面。URL的超链接评价得分越高,其优先级就越高,即它就应该优先被爬取。反之,若发现某链接与主题无关,则将该URL去除,这个过程被称为剪枝。通过适当的剪枝,网络机器人就无需遍历与主题不相关的页面,从而在很大程度上保证了爬行效率与查准率。然而,剪枝也可能将潜在的与主题相关的页面也剪掉,从而牺牲了部分的查全率。所以,链接评价模块合理的选用评价机制对网络机器