- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
唯博网络营销解决方案-网络推广介绍 经典
搜索引擎每天处理着数以亿计的查询请求,每个查询请求都代表了一个用户对于某种资源的特定需求。多数时候,通过查询返回的网页结果,这些需求被满足了,我们可以认为结果中的某些页面对特定用户的特定需求产生了价值。那么对于搜索引擎而言,页面的价值是指什么,我们为什么要研究页面价值,技术上怎样判断页面的价值呢?本文将逐一回答这些问题。一、 什么是页面价值前面我们说了,某个页面满足了某一用户的特定需求,就体现了这个页面对用户的价值。那么对搜索引擎而言,价值体现在哪些方面呢?一个简单的推论,所有可能会对用户产生价值的页面都是对搜索引擎有价值的,将这些页面建入搜索引擎的索引中能够满足最终检索到它们用户的需求,我们称这种价值为检索价值。只要是能解决某个用户信息需求的,并且是可以通过某些正常检索需求到达的,那么就是有检索价值的。小学生张三喜欢在qzone上写日记,写他前天吃了什么,今天玩了什么。这些内容,是有价值的。它们对张三的家长、同学、老师,以及其他小学生,和对小学生日记感兴趣的人来说,都是有价值的。对于这个信息体来说,“张三”这个名字是检索的“key”。有一些信息单元,只有“浏览”价值,而没有到达该信息的检索途径,那么该资源可能是有价值的,但检索价值就很低。比如一张百度大厦附近的地图,从浏览角度,是有价值的;但是如果没有任何周边文字说明(或者link的anchor text),只有一张光秃秃的地图,就没有检索价值。当然,如果图片的内容识别技术,有朝一日能自动识别出这个是“百度大厦附近地图”,或者能够自动分析出地图内的各种大厦、街道、餐馆等的名称,那么这张图一样变得有检索价值了。所以一个页面是否有检索价值,应该取决于两点:是否能解决某个特定的需求(价值)?是否可以通过某个常规的搜索方式获得该信息(检索)?那么,没有检索价值的页面,是否对搜索引擎就没有价值了呢?仔细想想,答案是否定的。索引只是搜索引擎的一个环节,对于其他环节而言,没有检索价值的页面有可能对我们更好的收录那些检索价值高的页面有帮助。比如对负责抓取互联网资源的spider而言,有一些页面,本身没有检索价值,但通过这些页面的抓取和分析,能够更快的帮助我们掌握这一类页面没有检索价值这一重要信息,从而节省更多的流量进行更加有效的抓取。考虑到这种价值可以算作一种“间接的”检索价值,最终还是立足于索引价值的,在本文中就不再展开论述,我们只关注“检索价值”这一根本问题。下文中提到的“页面价值”特指页面的“检索价值”。二、 为什么要研究页面价值首先,互联网上的页面是无穷尽的,而搜索引擎的硬件资源是有限的,想用有限的资源去覆盖无穷尽的互联网,我们就需要对页面价值做出判断,不收录那些无检索价值的页面,少收录那些检索价值低的页面。这是页面价值在收录控制方面的应用。第二,搜索引擎spider的抓取能力是有限的,出于访问友好性的考虑,对于一个网站或一个IP抓取速率需要有一个抓取速率的上限。在这一限制下,抓取或页面更新就需要有一个先后顺序,而这一排序的主要参考依据就是页面价值,或者说对页面价值的预测(未抓取时)。这是页面价值在spider调度方面的应用。第三,对于某些页面,页面内容发生变化,导致它的检索价值从有到无,典型的就是变为“死链”,或者“被黑”。对于这些页面,好的搜索引擎会在第一时间将其排除出索引,或在检索时对其进行屏蔽,以保证返回给用户的结果是更多检索价值高的“好页面”。对于另一些页面,它不仅具有很高的检索价值,而且有很强的“时效性”,能够第一时间让用户检索到这些页面对搜索体验有很大的提升。对搜索引擎而言,越快的收录和索引页面意味着越多的额外资源开销,以多快的速度收录和以多短的周期更新索引,需要通过页面价值的分析来指导。这两方面是页面价值在死链率和时效性两大搜索引擎指标提升上的应用。最后,普遍意义上的页面价值高低对搜索引擎返回给用户的结果排序上也存在着指导意义。理想情况下搜索引擎的结果是按照与查询请求的相关性进行排序的,在相关性大体相当的情况下,用户更倾向与浏览普遍意义上页面价值高的网页。这是页面价值在ranking方面的应用。可以说,页面检索价值的研究是搜索引擎中的一项较为基础的工作,对页面价值的认识和判断的准确程度直接影响着搜索引擎的覆盖率、死链率、时效性等几大主要指标。三、 如何判断页面价值前文中提到过一个小学生张三qzone日记的例子。我们认为这个页面是有价值的,对张三的同学,朋友,家人都有价值。与此类似的,百度CEO李彦宏在i贴吧上发表一条十几个字的i贴,也是有价值的,对李彦宏的上千万粉丝都有价值。虽然李彦宏的i贴长度可能远小于张三的日记,但就这两个页面的价值来说,我们都会有一个共同的认识,即从普遍意义上讲,李彦宏的i贴价值远大于张三的日记。(当然,对于张三的妈妈来说很可能这个价值
文档评论(0)