- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
web搜索引擎优化技术
TrustRank算法
改进排名的主流技术之一是借助于人工,专家能准确描述对网站的信任程度、轻易识别出垃圾。虽然人工可以很容易识别这些垃圾,但评估所有页面但代价很昂贵、是不可行的,所以就提出了一种半自动化技术方案。
TrustRank便应势而生,TrustRank是一种由斯坦福大学和雅虎研究人员提出的链接分析技术。Trustrank的基本思想是网页,要考虑到该页面所在站点的信任指数和权威性。Trustrank旨在应对轻易操纵google排名提升搜索结果质量。这一方法地增加了短时间操作排名的难度,迅速改善了搜索结果的质量。TrustRank的工作原理:先用人工去识别高质量的页面(即“种子”页面),那么由“种子”页面指向的页面也可能是高质量页面,即其TrustRank也高,与“种子”页面的链接越远,页面的TrustRank越低。
TrustRank采用半自动的方法区分垃圾文件和高质量较文件。依靠专家去评估一系列“种子”页面的TrustRank值。一旦确定了“种子”页面,就容易区分好页面和垃圾页面,通过机器分析链接结构来确定其它页面的TrustRank值。
TrustRank的主要概念是:
高质量页面一般不连接垃圾页面,而垃圾页面总试图连接到好页面以提高其声望;
种子页面的候选者是专业网站,它们只基于优点而链接其它页面,如政府网站、非谋利性网站和严格管理的网站(DMOZ、Yahoo目录、Search Engine Watch等),它们不会链接垃圾页面的。
最权威和可信的网页就是”种子”页面本身。
在处理上TrustRank分两个步骤,源目标的选定和评分的传递。
让专家手工识别出少量高质量网站,并赋予其信任值(trust value);
TrustRank值会随着页面的传递而降低,随着页面与“种子”页面的跨度增加,其TrustRank值就会越低;
与PR值原理类似,若网页获得了来自高TrustRank值网页的连接,则也就获得了高TrustRank值。通过分析这种链接结构,并以此比较其它页面,进而发现那些没有作弊可能性的页面。TrustRank传递方式与PageRank相似,但web页面没有内在的TrustRank值,因此使得通过链接模式去获取TrustRank值变得更加困难。
PageRank不是Google用于决定页面相关性的唯一算法,TrustRank已经被融入PageRank中以改善搜索相关性,其重要性不言而喻,甚至已经超过PR值的作用。
而随着时间的推移Trustrank引起的新问题开始渐渐凸显,成为google新麻烦Trustrank在给oogle带来众多积极意义的同时,负面影响。oogle如何改进算法和弥补不足拭目以待。web搜索引擎机制,理解web设计方法,以改进页面在搜索结果中的排名
1.1 搜索引擎随着网络的迅速发展,万维网成为信息的载体,如何有效地利用这些信息成为巨大挑战用户要在信息海洋里查找信息大海捞针搜索引擎(Search Engine)技术解决了这一难题搜索引擎为用户提供信息检索服务作为辅助人们检索信息的工具Web上发现信息的关键技术,是用户访问万维网的入口权威调查显示,导航服务已成为非常重要的互联网服务全球8%的网站,访问量70%-90%都来自搜索引擎,因此,让搜索引擎收录更多的网页,就是提高网站访问量的最有效办法。搜索引擎软件在网络上通过各种链接获得大页面的信息,并按照一定规则进行归类整理,形成数据库,以备查询。搜索引擎搜索引擎收集因特网上十亿Web文档,并对每即关键词进行索引,建立索引数据库当用户查找某个关键词的时候,所有在包含该关键词的都将作为搜索结果出来。这些结果将按照与搜索关键词的相关度高低,依次排列。搜索集的Web类型HTML、FTP文件、字处理文档、多媒体。Google、Yahoo、MSN, Ask Jeeves和百度等。
1.1.1 搜索引擎的工作原理
搜索引擎有两个重要组成部分,即离线部分和在线部分。离线部分由搜索引擎定期执行,包括下载网站的页面集合,并经处理把这些页面转换成可搜索的索引。在线部分在用户查询时被执行,根据与用户需求的相关性,利用索引去选择候选文档并排序显示。
搜索引擎的原理以一定的策略在互联网中发现搜集信息,对信息进行组织,为用户提供检索服务,从而起到信息导航的目的。搜索引擎的工作原理包括搜索引擎收录页面、索引向用户提供查询服务等使用软件某种策略自动获取Spider、crawlerWanderer等Wanderer直译为漫游器,它们是搜索引擎用来抓取网页的工具或自动程序。
著名搜索引擎的探测器(Robot):谷歌的为googlebot,百度的为baiduspider,MSN的为MSNbot,Yahoo的为Slurp。
搜索引擎将检索首页,并根据其中的
文档评论(0)