给不懂搜索引擎人讲搜索引擎原理方法.doc

  1. 1、本文档共48页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
给不懂搜索引擎人讲搜索引擎原理方法.doc

给不懂搜索引擎的人讲搜索引擎原理的方法 与关键词有联系的几个原理,像HITS,齐普夫定律,向量空间模型,TF/IDF等。 每个关键词的权重是通过数学公式与语义库、网页库等结合算出来的。 堆砌关键词的权重不是1+1=2,而是2权重1的一个动态数值,采取向量的夹角余弦公式cosθ=(a·b)/(|a|×|b|),再加上搜索引擎对堆砌关键词的anti-spam算法,和现在主流的seo观点相悖。 2.搜索引擎爬虫 搜索引擎蜘蛛的爬行方式与中国古代商朝的王位继承制度相似,下面是维基百科的介绍。 商代政权由子姓王族所掌握,王族分为两组,一组谥称以甲乙为主,一组谥称以丁为主,两组互相通婚,轮流继位执政。王位多传于另一组的下辈,有时也传于同组内的同辈。王位以此互传的方式,从而在两组之间祖孙隔代继承。 3.更新网站 斯坦福大学的2名研究者在2000年得出结论是网页存在半衰期,接近泊松分布,所以1个网站长期不更新,搜索引擎爬虫也会依据泊松分布,逐渐减少抓取次数。 4.关键词密度 分词实现源自20世纪的詹姆斯·乔伊斯一本天书《尤利西斯》,在这本书的最后1章,没有1个标点符号,于是有位哈佛大学语言学家齐普夫专攻此书,把书里所有单词全部统计出来,计算词频,发现了《尤利西斯》包含n个词,将这些词按其出现的频次递减地排序,那么序号r和其出现频次f之积fr,将近似地为一个常数,即fr=b,(式中r=1,2,3.…),又以其他名著验证,结论非常近似。后来搜索引擎引进了这一定律,给每个词库中的每个关键词按照总词频给以一定权重,低频词的权重较高,高频词的权重较低,所谓的关键词密度亦是据此,长尾词在文章中往往有较高的权重,重复出现关键词,可以提高关键词在页面中的权重。 5.图片 网页中的图片抓取不是一般抓取网页的蜘蛛来抓的,而是由专门的抓取图片的爬虫负责。靠其他网页上的超链接,alt属性,网页标题,以及图片说明来确定这张图片是什么画面。 6.外链广泛度 互联网模型是链接拓扑结构,即缎带形状。不论传统的互联网亦或社交网络,都是如此。搜索引擎通常从拓扑结构的左侧开始向右单向爬行抓取。与关键词有联系的几个原理,像HITS,齐普夫定律,向量空间模型,TF/IDF等。 每个关键词的权重是通过数学公式与语义库、网页库等结合算出来的。 堆砌关键词的权重不是1+1=2,而是2权重1的一个动态数值,采取向量的夹角余弦公式cosθ=(a·b)/(|a|×|b|),再加上搜索引擎对堆砌关键词的anti-spam算法,和现在主流的seo观点相悖。 2.搜索引擎爬虫 搜索引擎蜘蛛的爬行方式与中国古代商朝的王位继承制度相似,下面是维基百科的介绍。 商代政权由子姓王族所掌握,王族分为两组,一组谥称以甲乙为主,一组谥称以丁为主,两组互相通婚,轮流继位执政。王位多传于另一组的下辈,有时也传于同组内的同辈。王位以此互传的方式,从而在两组之间祖孙隔代继承。 3.更新网站 斯坦福大学的2名研究者在2000年得出结论是网页存在半衰期,接近泊松分布,所以1个网站长期不更新,搜索引擎爬虫也会依据泊松分布,逐渐减少抓取次数。 4.关键词密度 分词实现源自20世纪的詹姆斯·乔伊斯一本天书《尤利西斯》,在这本书的最后1章,没有1个标点符号,于是有位哈佛大学语言学家齐普夫专攻此书,把书里所有单词全部统计出来,计算词频,发现了《尤利西斯》包含n个词,将这些词按其出现的频次递减地排序,那么序号r和其出现频次f之积fr,将近似地为一个常数,即fr=b,(式中r=1,2,3.…),又以其他名著验证,结论非常近似。后来搜索引擎引进了这一定律,给每个词库中的每个关键词按照总词频给以一定权重,低频词的权重较高,高频词的权重较低,所谓的关键词密度亦是据此,长尾词在文章中往往有较高的权重,重复出现关键词,可以提高关键词在页面中的权重。 5.图片 网页中的图片抓取不是一般抓取网页的蜘蛛来抓的,而是由专门的抓取图片的爬虫负责。靠其他网页上的超链接,alt属性,网页标题,以及图片说明来确定这张图片是什么画面。 6.外链广泛度 互联网模型是链接拓扑结构,即缎带形状。不论传统的互联网亦或社交网络,都是如此。搜索引擎通常从拓扑结构的左侧开始向右单向爬行抓取。 与关键词有联系的几个原理,像HITS,齐普夫定律,向量空间模型,TF/IDF等。 每个关键词的权重是通过数学公式与语义库、网页库等结合算出来的。 堆砌关键词的权重不是1+1=2,而是2权重1的一个动态数值,采取向量的夹角余弦公式cosθ=(a·b)/(|a|×|b|),再加上搜索引擎对堆砌关键词的anti-spam算法,和现在主流的seo观点相悖。 2.搜索引擎爬虫 搜索引擎蜘蛛的爬行方式与中国古代商朝的王位继承制度相似,下面是维基百科的介绍。 商代政权由子姓王族所掌握,王族分为两组,一组谥

文档评论(0)

5566www + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6122115144000002

1亿VIP精品文档

相关文档