主题搜索引擎设计与实现.doc

  1. 1、本文档共56页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要 随着网络信息资源数量的急速增长,通用搜索引擎已经很难满足人们对专业化 信息检索服务的要求。主题搜索引擎只搜索与特定主题相关的 Web 资源,能更好地 满足用户对获取信息快速、准确的性能要求。实现主题搜索引擎,核心是设计一个 面向主题的网络爬虫,改进网络爬虫中对页面的过滤方法和网络爬行的策略,将有 助于提高主题搜索引擎的性能。 经过对现有的各种主题相关度判断方法的分析,以基于语义判断的方法为基础, 加入链接标签和元数据等信息作为判断因素,提出了综合使用向量空间模型和链接 标签分析及元数据分析的页面相关度判断的方法。实验表明,该方法可以提高主题 相关度判定的效率和准确率。 在对目前各种搜索策略的研究的基础上,决定采用效率较高的基于内容评定策 略进行网络爬行。针对基于内容评定策略中存在的“近视”问题,设计了一种基于 当前页面 URL 的简单链接结构分析方法,综合使用内容评定和链接结构分析方法作 为网络爬行策略。该方法能在一定程度上缓解 “近视”问题,提高爬虫的效率。 在通用搜索引擎的基础上,通过对其网络爬虫部分进行改进,设计和实现了一 个完整的主题搜索引擎。实验结果表明,上述主题相关度判断方法和爬行策略可以 有效地控制爬虫对主题相关的信息进行爬行,达到了设计要求。 关键词:主题搜索引擎,网络爬虫,爬行策略,页面过滤 I Abstract With the development of the network technology and the rapid growth of Internet information resource, traditional Search Engines can’t satisfy the requirement of personalized information retrieval service. Topical Search Engine only searches the Web resources related with specific theme, so it will do better in special information search. To design a Topical Search Engine, the core task is to design a topical crawler. And improve the method of page filtration and crawling strategy are two most important tasks of topical crawler. After analyzing the relevant judge methods, this paper presents a new method in relativity judgment by integrated use of vector space model, link tags analysis and metadata analysis. Result shows that it may improve the speed of crawler. Based on the research of current crawling strategy, think about the problem of the performance of crawler, the content-based strategy is decided to use in this paper. But there are some shortages such as “short sight” in the crawling strategy. In order to improve the crawling strategy, an easy structure analysis method base on URL content is added to control the crawler. We combine content-based determinant with the simple link analysis and URL tag information as the crawling strategy. This strategy can resolve the “short sight” shortage and improve the performance of crawler. Based on the survey of topical Search Engine and traditional Se

文档评论(0)

ww88656 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档