搜索引擎工作原理课件.pptxVIP

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

搜索引擎工作原理

搜索引擎发展简史第一用发展的眼光看待技术的发展第节二节第三节第四节

1搜索引擎发展简史1994.6,Lycos:最受欢迎的全文搜索引擎2004.2,Yahoo!收购几大搜索公司后,不再使用Google数据和技术1994.1,Infoseek:允许站长提交网址2001.10,百度搜索引擎上线,2009.6,MSNSearch改名为Bing中文搜索进入百度时代2010.8,Yahoo!开始采用Bing搜索数据1994.4,Yahoo!:DavidFilo和杨致远创立,人工编辑网站目录2002.3,GoogleAdwords推出PPC点击付费2004.11,微软推出MSNSearch,三足鼎立时代1996.3,创立Google

1搜索引擎发展简史国内搜索引擎发展简史(参考)

1搜索引擎发展简史2013-2014全球搜索引擎市场份额走势市场研究公司NetApplications最新数据

1搜索引擎发展简史市场研究公司NetApplications最新数据数据来源:CNZZ

搜索引擎分类第一节第二节第三节分类目录第四节全文搜索引擎元搜索引擎

2搜索引擎分类搜索引擎:由蜘蛛程序沿着链接爬行和抓取网上的大量页面,存进数据库,进行预处理。用户在搜索框输入关键字后,搜索引擎排序程序从数据库中挑选出符合搜索关键字要求的页面。其爬行、页面的收录和排序都是自动处理。

2搜索引擎分类全文搜索引擎:对网站页面文件的全部内容进行索引。

2搜索引擎分类网站目录:一套人工编辑的分类目录,由编辑人工创建多个层次的目录,站长可以在不同目录中提交网站,目录编辑在后台审核所提交的网站,再放进相应目录中,如:l雅虎目录l开放目录lhao123

2搜索引擎分类元搜索引擎:元搜索引擎在接受用户查询请求的时候,会同时在多个其他搜索引擎上进行搜索,并将结果进行统筹返回给用户。lDogpilelVivisimo

2搜索引擎分类全文搜索引擎和分类目录在使用上各有长短?

搜索引擎第一工作原理简介第节二节第三节第四节

3搜索引擎工作原理简介搜索引擎工作过程非常复杂,大体可以分为3个阶段:1爬行和抓取2预处理3排名

之爬行与抓取3.1搜索引擎工作过程爬行与抓取:搜索引擎蜘蛛通过跟踪链接访问网页,获得网页的HTML代码存入数据库。?搜索引擎用来爬行和访问页面的程序称为蜘蛛(Spider),也称为机器人(Bot),它访问网页时类似于普通用户使用的浏览器。robots.txtHTML代码原始页面数据库

之爬行与抓取3.1搜索引擎工作过程爬行策略:深度优先vs广度优先AA1B1C1D1A2A3B2D2D3?由于蜘蛛的带宽资源和时间限制,就算最大的搜索引擎也只是爬行和收录了互联网的一小部分

之爬行与抓取3.1搜索引擎工作过程蜘蛛会尽量抓取重要页面,哪些页面比较重要呢?网站和页面权重:质量高、资格老页面更新度导入链接:与首页的点击距离只要有链接进入页面就能被蜘蛛发现

之爬行与抓取3.1搜索引擎工作过程搜索引擎会建立一个地址库,记录以及被发现还没有抓取的,以及已经被抓取的页面。地址库中的URL来源于:1、人工录入的种子网站2、爬行后从HTML中解析出新的URL,与地址库进行比对3、站长提交的网址(基本无用)

之预处理3.2搜索引擎工作过程后台完成预处理也也叫做索引成为最终用户查询排名做好准备提取文字中文分词去停止词消除噪声去重正向索引倒排索引链接关系计算特殊文件处理

之预处理3.2搜索引擎工作过程预处理之提取文字还包括:pMeta标签中的文字p图片替代文字pFlash的替代文字p链接锚文字

之预处理3.2搜索引擎工作过程预处理之中文分词,这一步是中文搜索引擎特有步骤,英文有空格分隔,而中文没有,搜索引擎必须首先分辨哪些字组词一个词,比如“减肥方法”。中文分词方法基于词典匹配:将关键字与一个事先造好的词典中的词条进行匹配,匹配成功,即切分出一个单词基于统计的分词方法:分析大量文本,计算出字与字相邻出现的统计概率,相邻出现越多,则越可能构成一个单词。演示:在百度快照中查看分析的结果

之预处理3.2搜索引擎工作过程我们能做什么?搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏,而不是页面本身,所以SEO人员能做的很少。唯一能做的就是在页面上以某种方式提示搜索引擎,某几个字应该被当做一个词处理,尤其是容易产生歧义的时候,比如:“和服”容易和“化妆和服装”相混淆,那么可以特意把“和服”两字标为黑体。

之预处理3.2搜索引擎工作过程预处理之去停止词,页面中出现频率高,却对内容没什么影响的词:p的、地、得p啊、哈、呀p从而、以、却

之预处理3.2

文档评论(0)

173****5287 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体成都贵晓云科技文化有限公司
IP属地四川
统一社会信用代码/组织机构代码
91510106MAD5FC6E27

1亿VIP精品文档

相关文档