搜索引擎的原理和使用.pptVIP

下载本文档

6
0
约 19页
2017-08-12 发布于河南
举报
版权申诉

搜索引擎的原理和使用.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

悠悠美体商城有你更精彩搜索引擎的原理和使用 kyle@ 2011-9-18 搜索引擎的工作过程大体上可以分成三个阶段爬行和抓取是搜索引擎工作的第一步，完成数据收集的任务。什么是蜘蛛？如何跟踪链接？什么样的页面才能吸引蛛蛛？爬行时的复制内容检测什么是文件存储？什么是蜘蛛蜘蛛 1、是一组运行在计算机的程序，在搜索引擎中负责抓取时新的且公共可访问的WEB网页，图片和文档等资源，这种抓取的过程为通过下载一个网页，分析其中的链接，继而漫游到其他链接指向的网页，循环往复。 2、蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取速度，都使用多个蜘蛛并发分布爬行。? 3、蜘蛛访问任何一个网站时，都会先访问网站根目录下的 robots.txt 文件。如果 robots.txt 文件禁止搜索引擎抓取某些文件或目录，蜘蛛将遵守协议，不抓取被禁止的网址。主流蜘蛛列举 Baiduspider+(+/search/spider.htm) 百度蜘蛛 Mozilla/5.0 (compatible; Yahoo! Slurp China; /help.html) 雅虎中国蜘蛛 Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; /help/us/ysearch/slurp)英文雅虎蜘蛛 Mozilla/5.0 (compatible; Googlebot/2.1; +/bot.html) Google 蜘蛛 msnbot/1.1 (+/msnbot.htm)微软蜘蛛 ·Sogou+web+robot+(+/docs/help/webmasters.htm#07) 搜狗蜘蛛 Sosospider+/webspider.htm搜搜蜘蛛蜘蛛抓取-谷歌管理员工具跟踪链接为了抓取网上尽量多的页面，搜索引擎蜘蛛会跟踪页面上的链接，从一个页面爬到下一个页面，就好像蜘蛛在蜘蛛网上爬行那样，这也就是搜索引擎蜘蛛这个名称的由来。整个互联网是由相互链接的网站及页面组成的。从理论上说，蜘蛛从任何一个页面出发，顺着链接都可以爬行到网上的所有页面。当然，由于网站及页面链接结构异常复杂，蜘蛛需要采取一定的爬行策略才能遍历网上所有页面。爬行策略最简单的爬行遍历策略分为两种：一是深度优先二是广度优先深度优先策略广度优先策略爬行策略在实际工作中，蜘蛛的带宽资源、时间都不是无限的，也不可能爬完所有页面。实际上最大的搜索引擎也只是爬行和收录了互联网的一小部分。深度优先和广度优先通常是混合使用的，这样既可以照顾到尽量多的网站（广度优先），也能照顾到一部分网站的内页（深度优先）。吸引蜘蛛爬行时的复制内容检测蜘蛛在爬行和抓取文件时会进行一定程度的复制内容检测。遇到权重很低的网站上大量转载或抄袭内容时，很可能不再继续爬行。这也就是为什么有的站长在日志文件中发现了蜘蛛，但页面从来没有被真正收录过。文件储存搜索引擎蜘蛛抓取的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。每个URL都有一个独特的文件编号分词技术中文分词方法基本上有两种，一种是基于词典匹配，另一种是基于统计。基于词典匹配的方法是指，将待分析的一段汉字与一个事先造好的词典中的词条进行匹配，在待分析汉字串中扫描到词典中已有的词条则匹配成功，或者说切分出一个单词。基于统计的分词方法指的是分析大量文字样本，计算出字与字相邻出现的统计概率，几个字相邻出现越多，就越可能形成一个单词。基于统计的方法的优势是对新出现的词反应更快速，也有利于消除歧义。基于词典匹配和基于统计的分词方法各有优劣，实际使用中的分词系统都是混合使用两种方法的，快速高效，又能识别生词、新词，消除歧义。去停止词无论英文中文，页面内容中都会有一些出现频率很高，却对内容没有任何影响的词，如“的”，“地”，“得”之类的助词，“啊”，“哈”，“呀”之类的感叹词，“从而”，“以”，“却”之类的介词。英文常见的停止词，如”the”、”of”。这些词被称为停止词，因为它们对页面主要意思没什么影响。消除噪声搜索引擎需要识别并消除这些噪声，排名时不使用噪声内容。消噪的基本方法是根据HTML标签对页面分块，区分出页头、导航、正文、页脚、广告等区域，在网站上大量重复出现的区块往往属于噪声,对页面主题只能起到分散作用。对页面进行消噪后，剩下的才是页面主体内容。网页去重同一篇文章经常