搜索引擎算法详解.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎算法详解 、搜索词处理 当搜索引擎接收到用户输入的关键词后,需要对关键词做相应处理,才能进入排名过程。 处理包括这么几个方面: 中文分词与页面索引一样,关键词也需要进行中文分词,将查询字符串转换为以词 为基础的关键词组合。原理和页面分词相同。 去停止词跟索引时一样,搜索引擎也需要把关键词中的停止词去掉,为了提高排名 相关性及效率。 指令处理关键词完成分伺候,搜索引擎的默认处理方式是在关键词之间使用“与”逻 辑。也就是说用户搜索“SEO博客”时,程序分词为“SEO”和“博客”两个词,搜索引擎排序 时默认认为,用户寻找的是既包含“SEO”,也包含“博客”的也页面。那么只包含“SEO”不包 含“博客”,或者只包含“博客”不包含“SEO”的页面,会被认为是不符合搜索条件的。当然, 这只是一种简单的说法,其实内部处理还是相当复杂,实际上我们还是会看到只包含一部分 关键词的搜索结果,这里与网站权重,还有页面内容等等有密切关联。 拼写错误矫正用户如果不小心输入的错误的拼写单词或者英文单词,搜索引擎会提 示用户正确的单词。比如:用户输入“SEO技数”,搜索引擎将提示用户:您要找的是不是“SEO 技术”。 整合搜索触发有些关键词会触发整合搜索,比如明星姓名就经常触发图片和视频内 容,当前的热门话题又容易触发资讯内容。什么词能够触发整合搜索,都是在关键词处理阶 段进行处理。 二、 文件匹配 关键词经过处理后,搜索引擎得到的是以词为基础的关键词集合。文件匹配阶段就是找 出含有所有关键词的文件。在索引部分提到的倒排索引使得文件匹配能够快速完成,假设 用户搜索“关键词A关键词B”,排名程序只要在倒排索引中找到“关键词A”和“关键词B” 这两个词,就能找到分别含有这两个词的所有页面。经过简单计算就能找出既包含“关键词 A”,又包含“关键词B”的所有页面。比如:“关键词A”中有文件1、文件3、文件6, “关键 词B”中有文件2、文件4、文件6,那么既包含“关键词A”又包含“关键词B”的页面就是文 件6。 三、 初始子集的选择 找到关键词匹配文件之后,还不能进行相关性计算,因为找到的文件会有几十万几百 万,甚至上千万个。那么就需要对这些文件作相关性计算,这个时间还是比较长的。 实际上用户根本不需要知道所有的匹配页面,绝大部分用户只会查看前两页,也就是 前20个结果。因此,搜索引擎也没必要计算那么多页面的相关性,只要计算最重要的一部 分页面就可以了。经常使用搜索引擎的人都会注意到,搜索结果页面通常最多只显示100 个。也就是1000个搜索结果。 所以,搜索引擎只需要计算前1000个结果的相关性,就能满足用户要求。 问题来了,那这么多相关性的文件,怎么才能知道哪1000个文件的相关性最高呢?所 以用于最后相关性计算的初始页面子集起着相当重要的作用,现在就必须依靠其他特征而 不仅仅是相关性,其中最主要的就是页面的权重。由于所有匹配文件都已经具备基本的相关 性(都包含所查询的关键词),搜索引擎通常会用非相关性的页面特征挑选出一个初始子集。 初始子集的数目是多少?几万个?或者更多,其实我们都不知道。不过可以肯定的是,当匹 配页面数目巨大时,搜索引擎不会对这么多页面进行计算,而必须选出页面权重较高的一 个子集,再对子集中的页面进行相关性计算。 四、 相关性计算 选出初始子集后,对子集的页面计算关键词相关性。前一步关键词相关性是最基础的, 这里的相关性计算在排名过程中起着最重要的一步。相关性计算是搜索引擎算法中最领SEO 感兴趣的部分。影响相关性的主要因素包括这么几个方面: 关键词常用程度。 经常分词后的多个关键词,对整个搜索字符串的意义贡献并不相同。越常用的词对搜索 词的意义贡献越小,越不常用的词对搜索词的意义贡献越大。举个例子,假设用户输入的 搜索词是“我的SEO博客”,“我的”这个词常用程度非常高,在很多页面上会出现,它对我 的SEO博客”这个搜索词的辨识程度和意义相关度贡献就很小。找出那些包含“我们”这个 词的页面,对搜索排名相关性几乎没什么影响,有太多页面包含我的”这个词。 “SEO博客”这个词相对于“我的”这个词来说常用程度还是比较低的,对于“我的SEO博 客”这个搜索词的意义贡献要大的多。那些包含“SEO博客”这个 词的页面,对“我的SEO博 客”这个搜索词会更为相关。常用词的极致就是停止词,对页面完全没有任何意义。 所以搜索引擎对搜索词串中的关键词并不是一视同仁的处理,而是根据常用程度进行加 权。不常用的词加权系数高,常用词加权系数低,排名算法对不常用的词给予更多关注,所 以比较冷的词你稍微优化一下就上去了。 另外,我们假设A、B两个页面同时出现“我的”及“SEO博客”这两个词。但是“我的”这 个词在A页面内容中,“SEO博客”在A页面标题标签中。

文档评论(0)

dajiefude2 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档