02-搜索引擎基础原理教程讲解.ppt

  1. 1、本文档共21页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* h1h2加粗,加强,斜体等等权重标签 * * 比如写了一篇关于培训的文章,在上面添加了相关的一些链接,比如说东方标准,那你就有可能点进东方标准的网站。 * (1)先对用户提供的查询条件进行切词,并删除查询条件中没有意义的字或词,例如的,的地得(in/on/for/by)等停用词; (2)再以切词结果作为条件在关键字反向索引列表中进行匹配; (3)如果存在匹配结果,则把所有与关键字相匹配的页面组成一个列表; (4)最后,把匹配的页面按照权重值从高到低进行排序,并返回给用户。 用户的搜索及点击行为中蕴含着非常丰富和重要的信息。例如,在用户搜索行为中包含了“提交的关键字”,“提交时间”,“用户IP地址”等信息,而在点击行为中则包含了“每个结果的点击次数”等信息.搜索引擎通过对用户行为的分析可以进一步发掘用户的需求,提高搜索结果的精准度。 众所周知,搜索结果中越靠前的链接得到点击几率就会越高。按照这样的逻辑,那么第二,第三甚至第四的页面被点击的要会就变得的越来越小,但这并不代表这些页面就不比排在前面的页面重要,只是在目前的排序中,用户还没机会发现它们而已。所以,对于不同位置上链接的点击,搜索引擎会对其权重进行相应的补偿。假设排在第一位的结果每被点击一次,会产生1分的补偿,而排在100名的结果被点击一次,则产生10分甚至更多的补偿。 * (1)先对用户提供的查询条件进行切词,并删除查询条件中没有意义的字或词,例如的,的地得(in/on/for/by)等停用词; (2)再以切词结果作为条件在关键字反向索引列表中进行匹配; (3)如果存在匹配结果,则把所有与关键字相匹配的页面组成一个列表; (4)最后,把匹配的页面按照权重值从高到低进行排序,并返回给用户。 用户的搜索及点击行为中蕴含着非常丰富和重要的信息。例如,在用户搜索行为中包含了“提交的关键字”,“提交时间”,“用户IP地址”等信息,而在点击行为中则包含了“每个结果的点击次数”等信息.搜索引擎通过对用户行为的分析可以进一步发掘用户的需求,提高搜索结果的精准度。 众所周知,搜索结果中越靠前的链接得到点击几率就会越高。按照这样的逻辑,那么第二,第三甚至第四的页面被点击的要会就变得的越来越小,但这并不代表这些页面就不比排在前面的页面重要,只是在目前的排序中,用户还没机会发现它们而已。所以,对于不同位置上链接的点击,搜索引擎会对其权重进行相应的补偿。假设排在第一位的结果每被点击一次,会产生1分的补偿,而排在100名的结果被点击一次,则产生10分甚至更多的补偿。 搜索引擎基础 搜索引擎工作原理 搜索引擎工作主要分为: 页面抓取(信息收集) 页面分析(预处理) 建立索引(预处理) 页面排序(排名) 1 抓取页面(信息收集) 这个工作主要由叫做“机器人(robot)”、“爬虫(crawler)”或者“蜘蛛(spider)”的程序,根据一定规则扫描存在于互联网上的网站,并沿着网页上的链接从一个网页到另一个网页,从一个网站到另一个网站。 为保证采集的资料最新,它还会回访已抓取过的网页。 这个工作是搜索引擎所有工作的基础 页面抓取的两种方式 吸引蜘蛛 网站的权重和PR值 网站的更新频率 页面的质量度 页面的连接数 页面存储 搜索引擎在存储原始页面时,不单只存储原始页面,还会存储其他的附加信息,例如:文件类型、文件大小、最后修改时间、URL、IP地址、抓取时间等 页面收录原理 URL列表 抓取页面 提取URL 存储原始页面 用户提交 搜索引擎还允许用户自己提交网站(一般只需要提交首页或者网站域名即可) 百度:/search/url_submit.html 搜狗:/feedback/urlfeedback.php 360:/site_submit.html SOSO:/help/usb/urlsubmit.shtml Google:/intl/zh-CN/add_url.html Google英文:.hk/addurl/?continue=/addurl 2.1 页面分析(预处理) 对页面内容进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等)。主要就是提取用于排名处理的网页文字。 对页面正文内容进行“切词”,为这些词建立索引,得到页面和关键字之间的对应关系 页面分析(预处理) 页面分析主要包括: 正文信息提取:主要是对标签和注释等信息的过滤 切词/分词:对页面内容进行切分,形成与用户查询条件相匹配的关键字为单位的信息列表 匹配分词:和预设的海量词汇的“辞典”中的词比较,如果有匹配的词,则为命中。 统计分词:根据相邻的2个或者多个字(词)出现的概率判断这2个字(词)是否会形成一个词。 2.2 建立索引(预处

文档评论(0)

三沙市的姑娘 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档