seo代码优化第四课.pdfVIP

下载本文档

1
0
约1.05万字
约 14页
2024-09-12 发布于河南
举报
版权申诉

seo代码优化第四课.pdf

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

研究搜索引擎剖析搜索引擎算法

(1)通用搜索引擎

对所有网页和文件进行收录整理并提供搜索服务，又可以分为两类，一类以Google为代表，

几乎完全是由程序自动控制整个流程，人为的干预很少，效率比较高，比较公平，但缺点是

由于程序的信息处理能力的局限性，对于网页内容的分类不够准确，有可能给用户提供实际

并不需要的页面链接；另一种以Yahoo为代表，依靠人工建立庞大细致的分类体系，方便

用户找到自己最需要的页面，这样可以最大限度保证分类的准确性，但是互联网上的信息量

正以前所未有的速度增长，人工分类的效率相比之下就过于低下了，不能满足查“全”的要求。

(2)专业搜索引擎

针对某一特定领域或特定文件类型进行收录整理并提供搜索服务。例如CiteSeer，就是典

型的专业搜索引擎。其他的如中国北大天网FTP搜索引擎，专门针对FTP目录下的文件进

行搜索；最近随着博客（网络日志）兴起而兴起的博客搜索引擎，由于博客的分类机制比较

稳定，而且博客的世界里常常关心的是最新的最有意思的一些新闻，因此未来很可能有大的

发展；音乐搜索引擎、电影搜索引擎，针对特定的音频、视频文件格式提供搜索；等等。

(3)元搜索引擎

元搜索引擎是基于通用Web搜索引擎GSE框架建立的一种搜索机制。GSE框架结构主要

由用户、Web服务器、Web信息获取与处理接口、任务调度器、连接管理器Web及搜索

引擎组成。用户只需递交一次检索请求，由元搜索引擎负责转换处理后提交给多个预先选定

的独立搜索引擎，并将所有查询结果集中起来以整体统一的格式呈现到用户面前。通用Web

搜索引擎框架将因特网上众多的现有的Web搜索引擎看成一个整体，为用户提供一个透明

的分布式异构Web搜索引擎环境，该种方式的引擎可以看作元搜索引擎，它为用户提供一

个统一的、集成的查询请求，元搜索引擎根据知识库中的信息转换为各个Web搜索引擎所

能识别的格式，然后发给各个搜索引擎，由这些搜索引擎完成实际的信息检索。元检索引擎

在搜索到各个Web搜索引擎系统返回的结果后，经过比较分析，然后以一定的格式返回用

户。

3、搜索引擎目前主要存在的问题

现在的搜索引擎可谓百花齐放“”，Google、Yahoo、百度、天网等搜索引擎激烈竞争，

连之前很少涉及搜索引擎领域的微软也按捺不住，推出了MSN搜索引擎。但是仍然有许多

问题：

(1)网络信息量太大，而且处于不断的更新当中，难以进行全面的收录，而且收录得越多，

全面的更新越困难。

(2)对于搜索引擎使用者的真正需求，程序并不能准确判断。同样的关键词，不同的人可

能需要查找的内容不一样。要在返回查找结果的过程中，将所有结果按重要程度从高到低的

顺序组织起来呈现给用户，排序算法是十分关键的。目前许多搜索引擎都使用基于关键字查

询的传统的信息检索算法和技术，返回的页面数量仍然是成千上万。然而据“估计近85%的

用户只浏览搜索引擎返回的第一页结果”因此，如何将用户最感兴趣、最重要的页面放在搜

索结果的前面就成为影响搜索质量的一个重要因素。

(3)现在越来越多的人为了能够在搜索引擎返回的结果中排位靠前，特别针对搜索引擎的

算法进行一定的优化，如在网页中大量添加热门搜索词汇等，影响搜索引擎的正确判断，使

得用户得到许多毫无用处的结果。

(4)分词技术不完善，对中文的检索结果很多不能与用户期望的很好匹配。

4、几种排序算法简介

(1)HITS算法

它是由康奈尔大学(CornellUniversity)的JonKleinberg博士于1998年首先提出的，HITS

的英文全称为Hypertext-InducedTopicSearch。目前，它为IBM公司阿尔马登研究中心

(IBMAlmadenResearchCenter)的名为“CLEVER”的研究项目中的一部分。Kleinberg认为

搜索开始于用户的检索提问，每个页面的重要性也依赖于用户的检索提问，他将用户检索提

问分为三种:特指主题检索提问(specificqueries，也称窄主题检索提问)、泛指主题检索提问

(Broad-topicquerie

您可能关注的文档

文档评论（0）

138****5496 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

seo代码优化第四课.pdfVIP