垂直搜索引擎中主题网络蜘蛛爬行技术的研究-计算机应用技术专业论文.docx

垂直搜索引擎中主题网络蜘蛛爬行技术的研究-计算机应用技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
垂直搜索引擎中主题网络蜘蛛爬行技术的研究-计算机应用技术专业论文

摘 要 随着Internet的飞速发展,Web的信息量越来越大,通用搜索引擎在信息采集、存 储等方面面临更大的挑战。此外,由于通用搜索引擎面向所有的用户,力争在返回结 果上做到面面俱到,而包罗万象的结果显然不能满足用户精确搜索的需求,因此,面 向专业领域的搜索引擎即垂直搜索引擎应运而生。 网络蜘蛛是搜索引擎的重要组成部分。通用搜索引擎的网络蜘蛛(简称通用网络 蜘蛛)的目标是要发现和下载尽可能多的网页,以使搜索引擎能回答更多的用户查询。 而垂直搜索引擎的网络蜘蛛(简称主题网络蜘蛛)的目标是在尽可能少地遍历Web的 前提下,尽可能多地发现与主题相关的网页。因此,如何设计一个好的主题网络蜘蛛 是构建垂直搜索引擎的关键。本文主要研究的是面向垂直搜索引擎的主题网络蜘蛛爬 行技术。主题网络蜘蛛在爬行过程中要解决以下几个关键问题:(1)怎样准确判断一个 己经爬取的网页是否与主题相关;(2) 如何决定待爬行URL的访问次序以提高主题网 络蜘蛛的收获比;(3)怎样穿越隧道以提高主题网络蜘蛛的召回率。 对于问题(1)本文分析了页面主题判别中的两种算法:主题中心向量法和基于文本 分类器的页面主题判别算法的优缺点,并采用文本分类器中的朴素贝叶斯分类器作为 本文的页面主题判别算法;对于问题(2)本文提出了基于分块提取链接上下文的主题预 测算法,将网页分块技术应用到链接上下文提取,这样提取的链接上下文对于链接主 题的预测具有较高的准确度;对于问题(3)本文改进了隧道技术,提出了基于主题相似 度的隧道技术并设计了一种基于主题相似度指导网络蜘蛛穿越隧道的爬行算法。所改 进的隧道技术能有效的在WWW上鉴别隧道页面和非隧道页面,从而在保证一定收获 比的前提下,使主题网络蜘蛛具有较高的召回率。 最后设计实现了一个主题网络蜘蛛系统,并在该系统中对本文提出的基于分块提 取链接上下文的主题预测算法和基于主题相似度指导网络蜘蛛穿越隧道的爬行算法分 别进行了主题爬行实验。 关键词:垂直搜索引擎; 主题网络蜘蛛; 主题判别;主题预测;隧道技术. 万方数据 I – Abstract The rapid growth of the Internet poses unprecedented scaling challenges for general- purpose search engine.In addition,general-purpose search engine provides service for all users,so the results from them are too exhaustive,thousands of irrelative results obviously do not meet precise search needs.Therefore,vertical search engine which provides service in a single field emerged. Web spide is an important component of search engine.General-purpose web spi- der’s goal is to discover and download the page as much as possible, so that search engine can answer more user queries,but topic-oriented web spide’s goal is to find more web pages associated with the topic as far as possible under the premise of web traver- sal as Little as possible, therefore, how to design a good topic-oriented web spide is the key of constructing vertical search engine. In this paper, the major research is topic-oriented web spide’s crawling technique for vertical search engine. Topic-oriented web spide needs to resolve some important problems in the process of crawling as fol- lows:(1)How to accurately judge the crawling page

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档