logo

您所在位置网站首页 > 海量文档  > 教学课件 > 大学课件

搜索引擎工作原理要点解析.ppt 30页

本文档一共被下载: ,您可全文免费在线阅读后下载本文档。

  • 支付并下载
  • 收藏该文档
  • 百度一下本文档
  • 修改文档简介
全屏预览

下载提示

1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
用户行为 用户行为主要包括: 搜索:用户获得信息的过程,通过这个用户行为,学习新词汇,丰富辞典 点击:用户对搜索结果的反应,被点击的次数越多,说明越重要,权重越高 为避免马太效应,对排在后面的链接的点击的权重补偿 了解搜索引擎的工作原理,主要是为了做自己的seo,根据搜索引擎的需求让自己的网页被更好的收录。 根据链接不断地进行收录,理论上是可以收录所有的网页,但实际上收录的网页比率是越来越小,因为现在的网站资源是越来越多,互联网上每天都会产生很多的信息,像各类交友网站、各个论坛、微博等等,这里产生的数据每天都是海量的! 最开始你新建的网站可以让别人或者你的朋友已经建立的网站链接你的网站,那就有可能当爬虫找到你朋友的网站时就可以通过链接找到你的网站,也可以主动出击提交网站。 这里给学生实际动手的时间,让学生操作两个提交页面。 文件类型,因为爬虫可以pdf、doc、ppt等文件,不只是html文件。 一个段落切分成句子比较简单,因为有标点符号,然后将句子切分成单词;例子(果然造句):小明先吃了一个苹果,然后吃了一根香蕉;(的地得造句):我家的地得打扫了; 例如(统计分词):亚克蜥(百度十大神兽) 凤姐 犀利哥 酱紫 草泥马 关于早期图书馆借书的例子,也是建立一个索引;李彦宏的例子,北大专业是图书馆检索,与搜索引擎有很大的关系的。 学生信息一览表 <h1><h2>加粗,加强,斜体等等权重标签 比如写了一篇关于培训的文章,在上面添加了相关的一些链接,比如说东方标准,那你就有可能点进东方标准的网站。 (1)先对用户提供的查询条件进行切词,并删除查询条件中没有意义的字或词,例如的,的地得(in/on/for/by)等停用词; (2)再以切词结果作为条件在关键字反向索引列表中进行匹配; (3)如果存在匹配结果,则把所有与关键字相匹配的页面组成一个列表; (4)最后,把匹配的页面按照权重值从高到低进行排序,并返回给用户。 用户的搜索及点击行为中蕴含着非常丰富和重要的信息。例如,在用户搜索行为中包含了“提交的关键字”,“提交时间”,“用户IP地址”等信息,而在点击行为中则包含了“每个结果的点击次数”等信息.搜索引擎通过对用户行为的分析可以进一步发掘用户的需求,提高搜索结果的精准度。 众所周知,搜索结果中越靠前的链接得到点击几率就会越高。按照这样的逻辑,那么第二,第三甚至第四的页面被点击的要会就变得的越来越小,但这并不代表这些页面就不比排在前面的页面重要,只是在目前的排序中,用户还没机会发现它们而已。所以,对于不同位置上链接的点击,搜索引擎会对其权重进行相应的补偿。假设排在第一位的结果每被点击一次,会产生1分的补偿,而排在100名的结果被点击一次,则产生10分甚至更多的补偿。 * 第3讲 搜索引擎工作原理 * 3.1 搜索引擎的发展 Archie WWW Wanderer Lycos Yahoo Google Baidu * 搜索引擎发展历史 元搜索 引擎 1995 Yahoo! 1994 Gopher 1993 Archie 1990 第二代搜索 目录搜索 Google 1996 Baidu 1999 …… 第三代搜索 网页搜索 Archie(1990) 1990年,加拿大蒙特利尔的麦吉尔大学(McGill University)的三位学生Alan Emtage、Peter Deutsch、Bill Wheelan发明了Archie。 自动索引Internet上匿名的免费FTP文件信息,并提供一种根据文件名称查询文件所在FTP地址的方法 第一个FTP搜索引擎 没有机器人(Robot)程序 WWW Wanderer(1993) 世界上第一个用于监测互联网发展规模的“机器人”程序是Matthew Gray开发的World wide Web Wanderer。开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。 在其基础上,一些编程者将传统的“蜘蛛”程序工作原理作了些改进。设想:既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。 Lycos(1994) Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序而形成 Lycos是下一代搜索的主要发展,它是1994年7月在卡内基梅隆大学设计的。到1994年8月,Lycos识别了394000个文件,比其他搜索引擎都多。在1994年10月,在Netscape列出的搜索引擎里,Lycos排名第一。 第二代:Yahoo Yet Another Hierarchical Officious Oracle 斯坦福(Stanford)大学的两名博士生,David Filo和美籍华人杨致远(Gerry Yang)共同创

发表评论

请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
用户名: 验证码: 点击我更换图片

“原创力文档”前称为“文档投稿赚钱网”,本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有【成交的100%(原创)】。原创力文档是网络服务平台方,若您的权利被侵害,侵权客服QQ:3005833200 电话:19940600175 欢迎举报,上传者QQ群:784321556