刑天2011—1:简单介绍一下搜索引擎的原理.docxVIP

刑天2011—1:简单介绍一下搜索引擎的原理.docx

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
刑天2011-1:简单介绍一下搜索引擎的原理 可口可乐的饮料配方价值连城,这是众所皆知的事情了,但是只有少部分人知道另一个配方其实也是价值连城,那就是Google的PageRank排名算法,这是一套程序,也可以说是一种配方。Google正是有了这套算法程序,成功地将互联网上的网页分出了三六九等,从浩如烟海的互联网中帮助用户找到了他(她)想要的网页。   刑天的SEO系列博客要从这个PageRank源头说起,先让用户了解搜索引擎的一些缘由,然后我们再开始说SEO这种貌似神秘的技术。   总的来说,搜索引擎还是在努力地向用户提供用户真正需要的内容,而不是强行推荐一些用户不想要的内容,那么这里面引伸出一些有趣的小话题:   搜索引擎如何来知道想要什么?   搜索引擎如何找到海量的网页?   搜索引擎如何从海量的网页中找到好的网页给用户?   有哪些人工干预?   这个对于做SEO有什么价值?   首先是搜索引擎如何知道用户想要的内容,用户在搜索框里输入了搜索结果条件,比如说“漂亮的花儿”,搜索引擎会去识别这句话,在识别的过程中,会有一些分词技术,也就是把一个长的词组分成几个有单独意思的小词甚至单个字,分词时像“花儿”、“花”、“儿”等都会被分出来,词与词之间可能有包含的关系,另外搜索引擎会特别注重那些出现频率比较低的词,那些在互联网被使用地比较泛滥的词(这类词叫stop word,比如:的、得、着、了、啊)可能会被忽视。   现在的搜索引擎甚至会结合你在搜索前的一些其它表现来综合理解你的搜索意图,比如说,你以前经常搜索汽车方面的词,那么你再去搜索“宝马”,可能就会给你一些汽车的搜索结果,如果你以前经常搜索一些马匹的词,当你在搜索“宝马”时,看到的也许真的是马而不是车。另外,搜索引擎也会根据你的IP所在地,来判断给你什么语言的搜索结果等等。   第二,搜索引擎如何找到海量的网页,如果互联网真的是网的话,那么网上的每一个结点就是一个个的网页,而结点与结点之间的绳子就是网页之的路径,这个路径其实就是网页与网页之的间链接了,比如说,我们知道hao123这个网址导航站,在这个网站上有新浪的链接,当我们点击这个链接,我们就能够到达新浪网了。搜索引擎有一个找网页的程序,一般叫它“蜘蛛”或“爬虫”,搜索引擎首先会保存一些网站到自己的数据库里(也就是收录了这些网页),假设它收录了hao123,然后它放出蜘蛛程序,蜘蛛去看hao123上有哪些链接,它找到了新浪的网址,于是它就去访问新浪网的首页,在新浪网的首页它又发现了新浪更多的网页,另外它还发现了工信部的备案网站的链接,于是它又接着去找那些新浪的子页面和工信部的网站,就这样,一层一层,蜘蛛将越来越多的网页收录到自己的数据库里。在这个收录过程中,又有一些新名词,什么“广度优先算法”、“深度优先算法”之类的,另外搜索引擎所能识别的链接可能与用户能看到的链接不完全一致。用户能看到的搜索引擎不一定看到,用户看不到的搜索引擎有可能看到了,基本上可以说,凡是用户与搜索引擎的蜘蛛看到的不一样的链接,都可以说有向搜索引擎作弊的嫌疑。   第三,搜索引擎如何从海量的网页找到好的网页给用户。搜索引擎找到网页了,然后会去理解网页,某个网页如果被分词技术分出1000个关键词,那么搜索引擎会给这个网页在每个词上面打个分数,总共差不多就有1000个分数了,那么对于用户搜索的每个词来说,都会有一个网页列表,每个网页在这个词上还有一个分数,按照从高到低的顺序排列着,搜索引擎再按照每个词的权重高低,来计划所有网页对于用户搜索的条件的得分高低,综合来按照得分高低来显示在搜索结果页。   第四,有哪些人工干预,前面提到的现象只是一种理想状态,其实每个搜索引擎都会有人工干预的成份在里面,首先是插入广告,Google Adwords就是这么产生的,然后会去除一些法律不允许显示的网页,另外,在打分排名的时候也存在一些人工干预,比如说是否会优先显示一些网页?像百度就会优先显示百度百科、百度问答等等,有的时候,当网站上仿冒网站比较多的时候,搜索引擎就有意得去提高知名网站的权重,让知名网站更容易排名靠前,让那些名不见金卷的网站排名靠后。   最后,我走马观花地谈这些,意义何在?搜索引擎的算法还是比较复杂的,搜索引擎的从业人员应该找一些搜索引擎原理的书先看一下,了解一下基本的原则,然后再去通过SEO实验来验证,或者摸索一些更细的规律,这个不能够本末倒置;另外如果你不想研究那么深,那么你可以本着自然的法则去从事SEO,也就是说如果你对网站做的事情,有助于浏览者,那么这个事情基本上都是有助于SEO的。不要把搜索引擎理解成为一个性格怪僻的科学怪人,应该把它理解成为自然法则。   

您可能关注的文档

文档评论(0)

wuyoujun92 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档