02-搜索引擎基础原理教程讲解.ppt

下载文档 降价啦

5
0
约5.23千字
约 21页
2016-04-26 发布于湖北
举报
版权申诉
保障服务

02-搜索引擎基础原理教程讲解.ppt

1、本文档共21页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* h1h2加粗，加强，斜体等等权重标签 * * 比如写了一篇关于培训的文章，在上面添加了相关的一些链接，比如说东方标准，那你就有可能点进东方标准的网站。 * (1)先对用户提供的查询条件进行切词，并删除查询条件中没有意义的字或词，例如的，的地得（in/on/for/by）等停用词;(2)再以切词结果作为条件在关键字反向索引列表中进行匹配；(3)如果存在匹配结果，则把所有与关键字相匹配的页面组成一个列表；(4)最后，把匹配的页面按照权重值从高到低进行排序，并返回给用户。用户的搜索及点击行为中蕴含着非常丰富和重要的信息。例如，在用户搜索行为中包含了“提交的关键字”,“提交时间”，“用户IP地址”等信息，而在点击行为中则包含了“每个结果的点击次数”等信息.搜索引擎通过对用户行为的分析可以进一步发掘用户的需求，提高搜索结果的精准度。众所周知，搜索结果中越靠前的链接得到点击几率就会越高。按照这样的逻辑，那么第二，第三甚至第四的页面被点击的要会就变得的越来越小，但这并不代表这些页面就不比排在前面的页面重要，只是在目前的排序中，用户还没机会发现它们而已。所以，对于不同位置上链接的点击，搜索引擎会对其权重进行相应的补偿。假设排在第一位的结果每被点击一次，会产生1分的补偿，而排在100名的结果被点击一次，则产生10分甚至更多的补偿。 * (1)先对用户提供的查询条件进行切词，并删除查询条件中没有意义的字或词，例如的，的地得（in/on/for/by）等停用词;(2)再以切词结果作为条件在关键字反向索引列表中进行匹配；(3)如果存在匹配结果，则把所有与关键字相匹配的页面组成一个列表；(4)最后，把匹配的页面按照权重值从高到低进行排序，并返回给用户。用户的搜索及点击行为中蕴含着非常丰富和重要的信息。例如，在用户搜索行为中包含了“提交的关键字”,“提交时间”，“用户IP地址”等信息，而在点击行为中则包含了“每个结果的点击次数”等信息.搜索引擎通过对用户行为的分析可以进一步发掘用户的需求，提高搜索结果的精准度。众所周知，搜索结果中越靠前的链接得到点击几率就会越高。按照这样的逻辑，那么第二，第三甚至第四的页面被点击的要会就变得的越来越小，但这并不代表这些页面就不比排在前面的页面重要，只是在目前的排序中，用户还没机会发现它们而已。所以，对于不同位置上链接的点击，搜索引擎会对其权重进行相应的补偿。假设排在第一位的结果每被点击一次，会产生1分的补偿，而排在100名的结果被点击一次，则产生10分甚至更多的补偿。搜索引擎基础搜索引擎工作原理搜索引擎工作主要分为：页面抓取（信息收集）页面分析（预处理）建立索引（预处理）页面排序（排名） 1 抓取页面（信息收集）这个工作主要由叫做“机器人（robot）”、“爬虫（crawler）”或者“蜘蛛（spider）”的程序，根据一定规则扫描存在于互联网上的网站，并沿着网页上的链接从一个网页到另一个网页，从一个网站到另一个网站。为保证采集的资料最新，它还会回访已抓取过的网页。这个工作是搜索引擎所有工作的基础页面抓取的两种方式吸引蜘蛛网站的权重和PR值网站的更新频率页面的质量度页面的连接数页面存储搜索引擎在存储原始页面时，不单只存储原始页面，还会存储其他的附加信息，例如：文件类型、文件大小、最后修改时间、URL、IP地址、抓取时间等页面收录原理 URL列表抓取页面提取URL 存储原始页面用户提交搜索引擎还允许用户自己提交网站（一般只需要提交首页或者网站域名即可）百度：/search/url_submit.html 搜狗：/feedback/urlfeedback.php 360：/site_submit.html SOSO：/help/usb/urlsubmit.shtml Google：/intl/zh-CN/add_url.html Google英文：.hk/addurl/?continue=/addurl 2.1 页面分析（预处理）对页面内容进行分析，提取相关网页信息（包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等）。主要就是提取用于排名处理的网页文字。对页面正文内容进行“切词”，为这些词建立索引，得到页面和关键字之间的对应关系页面分析（预处理）页面分析主要包括：正文信息提取：主要是对标签和注释等信息的过滤切词/分词：对页面内容进行切分，形成与用户查询条件相匹配的关键字为单位的信息列表匹配分词：和预设的海量词汇的“辞典”中的词比较，如果有匹配的词，则为命中。统计分词：根据相邻的2个或者多个字（词）出现的概率判断这2个字（词）是否会形成一个词。 2.2 建立索引（预处