搜索引擎的原理讲解.pptxVIP

下载本文档

1
0
约1.93千字
约 41页
2017-04-20 发布于湖北
举报
版权申诉

搜索引擎的原理讲解.pptx

1、本文档共41页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

搜索引擎的原理讲解

搜索引擎的原理简述;搜索引擎的服务步骤;搜索引擎，通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词（即关键词）进行索引，建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候，所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后，这些结果将按照与搜索关键词的相关度高低，依次排列;1、派出Spider，按照相关的策略把网页抓回搜索引擎服务器。 2、对抓回来的网页进行连接抽离、内容处理、消除噪音、提取该网页的主题文本内容。 3、对网页的内容进行中文分词，去除停止词。 4、分词后判断网页内容是否有，删除重复也，对剩余页面进行倒排索引，等待检索。;5、对用户查询的关键词进行分词处理，并且根据用户的地理位置和历史搜索特征结合判断用户需求。这样方便地域性搜索结果和个性化搜索结果能展示用户最需要的内容。 6、查找缓存中是否有该关键词的查询结果，如果有，确定用户真实需求，微调之后展示给用户。 7、如果缓存没有信息，那么在索引库中进行调取，并且将关键词和对应的搜索结果加入到缓存中去。 8、网页排名是根据用户的搜索词和搜索需求，对索引库中的网页进行相关性、重要性（链接权重分析）和用户体验的高低进行分析得到的。 ;爬行和抓取搜索引擎派出一个能够在网上发现新网页并抓文件的程序，这个程序通常称之为蜘蛛（Spider）。搜索引擎从已知的数据库出发，就像正常用户的浏览器一样访问这些网页并抓取文件。搜索引擎通过这些爬虫去爬互联网上的外链，从这个网站爬到另一个网站，去跟踪网页中的链接，访问更多的网页，这个过程就叫爬行。这些新的网址会被存入数据库等待搜索。所以跟踪网页链接是搜索引擎蜘蛛（Spider）发现新网址的最基本的方法，所以反向链接成为搜索引擎优化的最基本因素之一。搜索引擎抓取的页面文件与用户浏览器得到的完全一样，抓取的文件存入数据库。;建立索引蜘蛛抓取的页面文件分解、分析，并以巨大表格的形式存入数据库，这个过程即是索引（index).在索引数据库中，网页文字内容，关键???出现的位置、字体、颜色、加粗、斜体等相关信息都有相应记录。;搜索词处理用户在搜索引擎界面输入关键词，单击“搜索”按钮后，搜索引擎程序即对搜索词进行处理，如中文特有的分词处理，去除停止词，判断是否需要启动整合搜索，判断是否有拼写错误或错别字等情况。搜索词的处理必须十分快速。 ;排序对搜索词处理后，搜索引擎程序便开始工作，从索引数据库中找出所有包含搜索词的网页，并且根据排名算法计算出哪些网页应该排在前面，然后按照一定格式返回到“搜索”页面。再好的搜索引擎也无法与人相比，这就是为什么网站要进行搜索引擎优化。没有SEO的帮助，搜索引擎常常并不能正确的返回最相关、最权威、最有用的信息。 ;搜索引擎抓取详解;Spider;Spider的抓取及分类;Spider的分类;Spider抓取;Spider眼中的网页分类;Spider的抓取特点;深度抓取和广度抓取;理论上，Spider不管采用深度还是广度优先策略，只要时间足够，都可以把互联网上的内容统统抓取一遍，但是很不幸，搜索引擎的Spider时间也非常宝贵，单一方法的抓取时很奢侈的，所以一般搜索引擎都是采用两种方式相结合的方式进行的。这就涉及到一个有限选择的问题。一般情况下， Spider可以在域名级别的网页使用广度的优先抓取策略，这样可以尽可能抓取更多的网站。在网站内部页面级别一般会根据网站权重综合使用广度和深度优先抓取，也就是说网站权重，直接影响到抓取量的大小。刚上线的网站一般被抓去只有一个首页。从抓取的特点上可以看出，对于重要网站优先抓取，重要的网站和网站内的重要页面是优先抓取的。大站链接也是优先抓取的。;重要页面和大站的优先抓取详解;Spider的抓取认识;Spider的再次抓取更新策略;1、何为用户体验;历史更新频率;网页类型;网页权重值;Spider的优缺点;搜索引擎的内容处理、中文分词和索引;内容处理;中文分词;索引;网页去重原理;用户搜索需求分析;搜索词分析;搜索意图分析;搜索引擎对搜索词，用户属性，历史记录分析确定用户需求，从索引库中检索与搜索词最相关最重要的页面，进行排序后，再引入用户搜索意图对排序结果进行调整。;相关性计算;关键词匹配;次数指的是：频率，密度，关键词占据全部内容的比例。最终分词后关键词之间的距离，是否完全匹配。位置和形态，是否在标题，内容比较靠前的位置以及是否出现黑体、变色、H标签等突出显示。文件的外链和锚文本是否有相关性，具有统一内容描述。外链的质量和数量不能判断相关性，只能判断重要性和可信度。;语义分析;链接分析