- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
研究搜索引擎剖析搜索引擎算法
(1)通用搜索引擎
对所有网页和文件进行收录整理并提供搜索服务,又可以分为两类,一类以Google为代表,
几乎完全是由程序自动控制整个流程,人为的干预很少,效率比较高,比较公平,但缺点是
由于程序的信息处理能力的局限性,对于网页内容的分类不够准确,有可能给用户提供实际
并不需要的页面链接;另一种以Yahoo为代表,依靠人工建立庞大细致的分类体系,方便
用户找到自己最需要的页面,这样可以最大限度保证分类的准确性,但是互联网上的信息量
正以前所未有的速度增长,人工分类的效率相比之下就过于低下了,不能满足查“全”的要求。
(2)专业搜索引擎
针对某一特定领域或特定文件类型进行收录整理并提供搜索服务。例如CiteSeer,就是典
型的专业搜索引擎。其他的如中国北大天网FTP搜索引擎,专门针对FTP目录下的文件进
行搜索;最近随着博客(网络日志)兴起而兴起的博客搜索引擎,由于博客的分类机制比较
稳定,而且博客的世界里常常关心的是最新的最有意思的一些新闻,因此未来很可能有大的
发展;音乐搜索引擎、电影搜索引擎,针对特定的音频、视频文件格式提供搜索;等等。
(3)元搜索引擎
元搜索引擎是基于通用Web搜索引擎GSE框架建立的一种搜索机制。GSE框架结构主要
由用户、Web服务器、Web信息获取与处理接口、任务调度器、连接管理器Web及搜索
引擎组成。用户只需递交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定
的独立搜索引擎,并将所有查询结果集中起来以整体统一的格式呈现到用户面前。通用Web
搜索引擎框架将因特网上众多的现有的Web搜索引擎看成一个整体,为用户提供一个透明
的分布式异构Web搜索引擎环境,该种方式的引擎可以看作元搜索引擎,它为用户提供一
个统一的、集成的查询请求,元搜索引擎根据知识库中的信息转换为各个Web搜索引擎所
能识别的格式,然后发给各个搜索引擎,由这些搜索引擎完成实际的信息检索。元检索引擎
在搜索到各个Web搜索引擎系统返回的结果后,经过比较分析,然后以一定的格式返回用
户。
3、搜索引擎目前主要存在的问题
现在的搜索引擎可谓百花齐放“”,Google、Yahoo、百度、天网等搜索引擎激烈竞争,
连之前很少涉及搜索引擎领域的微软也按捺不住,推出了MSN搜索引擎。但是仍然有许多
问题:
(1)网络信息量太大,而且处于不断的更新当中,难以进行全面的收录,而且收录得越多,
全面的更新越困难。
(2)对于搜索引擎使用者的真正需求,程序并不能准确判断。同样的关键词,不同的人可
能需要查找的内容不一样。要在返回查找结果的过程中,将所有结果按重要程度从高到低的
顺序组织起来呈现给用户,排序算法是十分关键的。目前许多搜索引擎都使用基于关键字查
询的传统的信息检索算法和技术,返回的页面数量仍然是成千上万。然而据“估计近85%的
用户只浏览搜索引擎返回的第一页结果”因此,如何将用户最感兴趣、最重要的页面放在搜
索结果的前面就成为影响搜索质量的一个重要因素。
(3)现在越来越多的人为了能够在搜索引擎返回的结果中排位靠前,特别针对搜索引擎的
算法进行一定的优化,如在网页中大量添加热门搜索词汇等,影响搜索引擎的正确判断,使
得用户得到许多毫无用处的结果。
(4)分词技术不完善,对中文的检索结果很多不能与用户期望的很好匹配。
4、几种排序算法简介
(1)HITS算法
它是由康奈尔大学(CornellUniversity)的JonKleinberg博士于1998年首先提出的,HITS
的英文全称为Hypertext-InducedTopicSearch。目前,它为IBM公司阿尔马登研究中心
(IBMAlmadenResearchCenter)的名为“CLEVER”的研究项目中的一部分。Kleinberg认为
搜索开始于用户的检索提问,每个页面的重要性也依赖于用户的检索提问,他将用户检索提
问分为三种:特指主题检索提问(specificqueries,也称窄主题检索提问)、泛指主题检索提问
(Broad-topicquerie
文档评论(0)