(搜索引擎相关度算法分析.docVIP

下载本文档

11
0
约6.43千字
约 6页
2017-01-29 发布于北京
举报
版权申诉

(搜索引擎相关度算法分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

(搜索引擎相关度算法分析

搜索引擎相关度算法分析相关性，是搜索引擎优化中的重点。但是对于相关性的搜索引擎工作原理，相信大部分的SEOER对于都缺乏了解。作为职业SEO对于搜索引擎算法的研究是必须的，虽然说，我们不可能知道搜索引擎算法的全部。但是只需要我们主流搜索引擎技术的方向，你就可以知道搜索引擎时代的脉搏。相关度排序技术的产生主要是由搜索引擎的特点决定的。首先，现代搜索引擎能够访问的Web网页数量已经达到上十亿的规模，哪怕用Hu只是搜索其中很少的一部分内容，基于全文搜索技术的搜索引擎也能返回成千上万的页面。即便这些结果网页都是用Hu所需要的，用Hu也没有可能对所有的网页浏览一遍，所以能够将用Hu最感兴趣的结果网页放于前面，势必可以增强搜索引擎用Hu的满意度。其次，搜索引擎用Hu自身的检索专业能力通常很有限，在最为普遍的关键词检索行为中，用Hu一般只是键人几个词语。例如，Spink等曾对Excite等搜索引擎的近300位用Hu做过实验调查，发现人均输入的检索词为3.34个。国内部分学者也有相似的结论，发现90%左右的用Hu输入的中文检索单字为2～6个，而且2字词居多，约占58%，其次为4字词(约占18%)和3字词(约占14%)。过少的检索词事实上无法真正表达用Hu的检索需求，而且用Hu通常也不去进行复杂的逻辑构造，只有相当少的用Hu进行布尔逻辑检索、限制性检索和高级检索等方法，仅有5.24%的检索式中包含有布尔逻辑算符。国内的部分学者的研究结果也表明，约40%的用Hu不能正确运用字段检索或二次检索，80%左右的用Hu不能正确运用高级检索功能，甚至还发现用Hu缺乏动力去学习复杂的检索技能，多数用Hu都寄希望于搜索引擎能够自动地为他们构造有效的检索式。由于缺乏过去联机检索中常常具备的检索人员，因此，用Hu实际的检索行为与用Hu理想的检索行为存在事实上的差距，检索结果的不满意也是不奇怪的。正是由于这个特点，搜索引擎就必须设法将用Hu最想要的网页结果尽可能地放到网页结果的前面，这就是网页相关度排序算法在搜索引擎中为什么非常重要的原因。现阶段的相关度排序技术主要有以下几种：一是基于传统信息检索技术的方式，它主要利用关键词本身在文档中的重要程度来对文档与用Hu查询要求的相关度做出测量，如利用网页中关键词出现的频率和位置。一般而言，检索出的网页文档中含有的查询关键词个数越多，相关性越大，并且此关键词的区分度越高；同时，查询关键词如果出现在诸如标题字段等重要位置上，则比出现在正文的相关度要大。二是超连分析技术，使用此技术的代表性搜索引擎有Google和Bai。和前者相比，它以网页被认可的重要程度作为检索结果的相关度排序依据。从设计思想上看，它更注重第三方对该网页的认可，如具有较大连入网页数的网页才是得到广泛认可的重要网页，而根据关键词位置和频率的传统方法只是一种网页自我认可的形式，缺乏客观性。最后还有一些其他方式，如由用Hu自由定义排序规则的自定义方式。北京大学的天网FTP搜索引擎就采用这种排序方式，它可以让用Hu选择诸如时间、大小、稳定性和距离等具体排序指标来对结果网页进行相关度排序。再如收费排名模式，它作为搜索引擎的一种主要赢利手段，在具有网络门Hu特点的大型搜索引擎中广为使用，但于担心影响搜索结果的客观性，这种方式不是它们的主流排序方式，而仅仅作为一个补充显示在付费搜索栏目中。相关度排序技术主要依赖于超连分析技术实现。超连分析技术可以提供多种功能，其中的主要功能就是解决结果网页的相关度排序问题。它主要是利用网页间存在的各种超连指向，对网页之间的引用关系进行分析，依据网页连人数的多少计算该网页的重要度权值。一般认为，如果A网页有超连指向B网页，相当于A网页投了B网页一票，即A认可了B网页的重要性。深入理解超连分析算法，可以根据连接结构把整个Web网页文档集看成一个有向的拓扑图，其中每个网页都构成图中的一个结点，网页之间的连接就构成了结点间的有向边，按照这个思想，可以根据每个结点的出度和入度来评价网页的重要性。对于超连分析技术，有代表性的算法主要是Page等设计的PageRank算法和Kleinberg创造的HITS算法。其中，PageRank算法在实际使用中的效果要好于HITS算法，这主要是由于以下原因：首先，PageRank算法可以一次性、脱机且独立于查询的对网页进行预计算以得到网页重要度的估计值，然后在具体的用Hu查询中，结合其他查询指标值，一起对查询结果进行相关性排序，从而节省了系统查询时的运算开销；其次，PageRank算法是利用整个网页集合进行计算的，不像HITS算法易受到局部连接陷阱的影响而产生“主题漂移”现象，所以现在这种技术广泛地应用在许多搜索引擎系统中，Google搜索引擎的广获成功也表明了以超连分析为特征的网页相关度排序算法日