搜索引擎相关度算法分析.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎相关度算法分析 相关性,是搜索引擎优化中的重点。但是对于相关性的搜索引擎工作原理,相信大 部分的 SEOER 对于都缺乏了解。 作为职业 SEO 对于搜索引擎算法的研究是必须的, 虽 然说,我们不可能知道搜索引擎算法的全部。 但是只需要我们主流搜索引擎技术的方向, 你就可以知道搜索引擎时代的脉搏。 相关度排序技术的产生主要是由搜索引擎的特点决定的。 首先,现代搜索引擎能够访问的 Web 网页数量已经达到上十亿的规模,哪怕用 Hu 只是搜索其中很少的一部分内容, 基于全文搜索技术的搜索引擎也能返回成千上万的页 面。即便这些结果网页都是用 Hu 所需要的,用 Hu 也没有可能对所有的网页浏览一遍, 所以能够将用 Hu 最感兴趣的结果网页放于前面,势必可以增强搜索引擎用 Hu 的满意 度。 其次,搜索引擎用 Hu 自身的检索专业能力通常很有限,在最为普遍的关键词检索 行为中, 用 Hu 一般只是键人几个词语。例如, Spink 等曾对 Excite 等搜索引擎的近 300 位用 Hu 做过实验调查, 发现人均输入的检索词为 3.34 个。国内部分学者也有相似的结 论,发现 90%左右的用 Hu 输入的中文检索单字为 2 ~6 个,而且 2 字词居多,约占 58% , 其次为 4 字词 (约占 18%)和 3 字词 (约占 14%)。过少的检索词事实上无法真正表达用 Hu 的检索需求,而且用 Hu 通常也不去进行复杂的逻辑构造,只有相当少的用 Hu 进行布 尔逻辑检索、限制性检索和高级检索等方法,仅有 5.24%的检索式中包含有布尔逻辑算 符。国内的部分学者的研究结果也表明,约 40% 的用 Hu 不能正确运用字段检索或二次 检索, 80%左右的用 Hu 不能正确运用高级检索功能,甚至还发现用 Hu 缺乏动力去学 习复杂的检索技能,多数用 Hu 都寄希望于搜索引擎能够自动地为他们构造有效的检索 式。由于缺乏过去联机检索中常常具备的检索人员,因此,用 Hu 实际的检索行为与用 Hu 理想的检索行为存在事实上的差距,检索结果的不满意也是不奇怪的。正是由于这 个特点,搜索引擎就必须设法将用 Hu 最想要的网页结果尽可能地放到网页结果的前面, 这就是网页相关度排序算法在搜索引擎中为什么非常重要的原因。 现阶段的相关度排序技术主要有以下几种:一是基于传统信息检索技术的方式,它 主要利用关键词本身在文档中的重要程度来对文档与用 Hu 查询要求的相关度做出测 量,如利用网页中关键词出现的频率和位置。一般而言,检索出的网页文档中含有的查 询关键词个数越多,相关性越大,并且此关键词的区分度越高;同时,查询关键词如果 出现在诸如标题字段等重要位置上, 则比出现在正文的相关度要大。 二是超连分析技术, 使用此技术的代表性搜索引擎有 Google 和 Bai 。和前者相比, 它以网页被认可的重要程 度作为检索结果的相关度排序依据。 从设计思想上看, 它更注重第三方对该网页的认可, 如具有较大连入网页数的网页才是得到广泛认可的重要网页, 而根据关键词位置和频率 的传统方法只是一种网页自我认可的形式,缺乏客观性。最后还有一些其他方式,如由 用 Hu 自由定义排序规则的自定义方式。 北京大学的天网 FTP 搜索引擎就采用这种排序 方式,它可以让用

文档评论(0)

wei173 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档