seo代码优化第四课.pdfVIP

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

研究搜索引擎剖析搜索引擎算法

(1)通用搜索引擎

对所有网页和文件进行收录整理并提供搜索服务,又可以分为两类,一类以Google为代表,

几乎完全是由程序自动控制整个流程,人为的干预很少,效率比较高,比较公平,但缺点是

由于程序的信息处理能力的局限性,对于网页内容的分类不够准确,有可能给用户提供实际

并不需要的页面链接;另一种以Yahoo为代表,依靠人工建立庞大细致的分类体系,方便

用户找到自己最需要的页面,这样可以最大限度保证分类的准确性,但是互联网上的信息量

正以前所未有的速度增长,人工分类的效率相比之下就过于低下了,不能满足查“全”的要求。

(2)专业搜索引擎

针对某一特定领域或特定文件类型进行收录整理并提供搜索服务。例如CiteSeer,就是典

型的专业搜索引擎。其他的如中国北大天网FTP搜索引擎,专门针对FTP目录下的文件进

行搜索;最近随着博客(网络日志)兴起而兴起的博客搜索引擎,由于博客的分类机制比较

稳定,而且博客的世界里常常关心的是最新的最有意思的一些新闻,因此未来很可能有大的

发展;音乐搜索引擎、电影搜索引擎,针对特定的音频、视频文件格式提供搜索;等等。

(3)元搜索引擎

元搜索引擎是基于通用Web搜索引擎GSE框架建立的一种搜索机制。GSE框架结构主要

由用户、Web服务器、Web信息获取与处理接口、任务调度器、连接管理器Web及搜索

引擎组成。用户只需递交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定

的独立搜索引擎,并将所有查询结果集中起来以整体统一的格式呈现到用户面前。通用Web

搜索引擎框架将因特网上众多的现有的Web搜索引擎看成一个整体,为用户提供一个透明

的分布式异构Web搜索引擎环境,该种方式的引擎可以看作元搜索引擎,它为用户提供一

个统一的、集成的查询请求,元搜索引擎根据知识库中的信息转换为各个Web搜索引擎所

能识别的格式,然后发给各个搜索引擎,由这些搜索引擎完成实际的信息检索。元检索引擎

在搜索到各个Web搜索引擎系统返回的结果后,经过比较分析,然后以一定的格式返回用

户。

3、搜索引擎目前主要存在的问题

现在的搜索引擎可谓百花齐放“”,Google、Yahoo、百度、天网等搜索引擎激烈竞争,

连之前很少涉及搜索引擎领域的微软也按捺不住,推出了MSN搜索引擎。但是仍然有许多

问题:

(1)网络信息量太大,而且处于不断的更新当中,难以进行全面的收录,而且收录得越多,

全面的更新越困难。

(2)对于搜索引擎使用者的真正需求,程序并不能准确判断。同样的关键词,不同的人可

能需要查找的内容不一样。要在返回查找结果的过程中,将所有结果按重要程度从高到低的

顺序组织起来呈现给用户,排序算法是十分关键的。目前许多搜索引擎都使用基于关键字查

询的传统的信息检索算法和技术,返回的页面数量仍然是成千上万。然而据“估计近85%的

用户只浏览搜索引擎返回的第一页结果”因此,如何将用户最感兴趣、最重要的页面放在搜

索结果的前面就成为影响搜索质量的一个重要因素。

(3)现在越来越多的人为了能够在搜索引擎返回的结果中排位靠前,特别针对搜索引擎的

算法进行一定的优化,如在网页中大量添加热门搜索词汇等,影响搜索引擎的正确判断,使

得用户得到许多毫无用处的结果。

(4)分词技术不完善,对中文的检索结果很多不能与用户期望的很好匹配。

4、几种排序算法简介

(1)HITS算法

它是由康奈尔大学(CornellUniversity)的JonKleinberg博士于1998年首先提出的,HITS

的英文全称为Hypertext-InducedTopicSearch。目前,它为IBM公司阿尔马登研究中心

(IBMAlmadenResearchCenter)的名为“CLEVER”的研究项目中的一部分。Kleinberg认为

搜索开始于用户的检索提问,每个页面的重要性也依赖于用户的检索提问,他将用户检索提

问分为三种:特指主题检索提问(specificqueries,也称窄主题检索提问)、泛指主题检索提问

(Broad-topicquerie

文档评论(0)

138****5496 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档