信息检索与利用---互联网搜索引擎.ppt

  1. 1、本文档共175页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
各种格式的全文 其他搜索引擎:Yahoo!(1994.4创办,1999.9开通中国雅虎) 其他搜索引擎:必应(微软公司2009.6推出) 其他搜索引擎:搜狗(搜狐公司2004.8推出) 其他搜索引擎:搜搜(腾讯2006.3运营) 其他搜索引擎:有道(网易200612推出) 其他搜索引擎:ASK.com(Askjeeves公司) 本讲小结 搜索引擎概述:概念、原理等 搜索引擎的类型 搜索引擎的检索方法与策略 典型搜索引擎实例:Google、百度、 Scirus 面对Internet,各搜索引擎的能力和偏好不同,所以抓取的网页各不相同,排序算法也各不相同。 大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,但也只能占到互联网上普通网页的不到30%,不同搜索引擎之间的网页数据重叠率一般在70%以下。 我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容,是搜索引擎无法抓取索引的,也是我们无法用搜索引擎搜索到的。 你心里应该有这个概念:搜索引擎只能搜到它网页索引数据库里储存的内容。 搜索引擎返回无用的信息多 隐形资源,深层资源(invisible web, deep web)综合利用,不要忽略其他资源 网络资源不能代替图书馆的订购资源 电子资源不能代替图书馆印刷资源 作业 1、查询:湖南卫视的节目预告 2、查询:在天空网下载网际快车 网际快车 site: 3、查询:下载卡通小猪的图片 Pig filetype:gif * * 显示结果的分组筛选功能。 * * * * * * * * * 搜索范围限定“intitle:” 网页标题通常是对网页内容提纲挈领式的归纳。把查询内容范围限定在网页标题中,有时能获得良好的效果。使用的方式,是把查询内容中,特别关键的部分,用“intitle:”领起来。 例如,找林青霞的写真,就可以这样查询:写真 intitle:林青霞 注意,intitle:和后面的关键词之间,不要有空格。 高级检索语法 限定在特定站点“site:站点域名” 有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。使用的方式,是在查询内容的后面,加上“site:站点域名”。 例如,在新浪里找中国好声音 ,就可以这样查询:中国好声音 site: 注意,“site:”后面跟的站点域名,不要带“http://”;另外,site:和站点名之间,不要带空格。 高级检索语法 限定在url链接中 网页url中的某些信息,常常有某种有价值的含义。于是,您如果对搜索结果的url做某种限定,就可以获得良好的效果。实现的方式,是用“inurl:”,后跟需要在url中出现的关键词。 例如,找关于photoshop的使用技巧,可以这样查询:photoshop inurl:jiqiao 上面这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页url中。 注意,inurl:语法和后面所跟的关键词,不要有空格。 高级检索语法 精确匹配 如果输入的查询词很长,百度在经过分析后,给出的搜索结果中的查询词,可能是拆分的。如果您对这种情况不满意,可以尝试让百度不拆分查询词。给查询词加上双引号,就可以达到这种效果。 例如,搜索 上海科技大学 ,如果不加双引号,搜索结果被拆分,效果不是很好,但加上双引号后,“上海科技大学”,获得的结果就全是符合要求的了。 高级检索语法 书名号是百度独有的一个特殊查询语法。在其他搜索引擎中,书名号会被忽略,而在百度,中文书名号是可被查询的。加上书名号的查询词,有两层特殊功能,一是书名号会出现在搜索结果中;二是被书名号扩起来的内容,不会被拆分。 书名号在某些情况下特别有效果,例如,查名字很通俗和常用的那些电影或者小说。比如,查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具——手机,而加上书名号后,《手机》结果就都是关于电影方面的了。 语法字符 含 义 及 用 法 intitle: 限定在网页标题中搜索 site: 限定在特定站点搜索 inurl: 限定在URL链接中搜索 filetype: 文档类型(如:doc、jpg、mpeg、…)限定 例:“信息检索 filetype:all”表示结果中含有“信息检索”的所有文档类型的文件 双引号(“”)或书名号(《》) 检索结果的精确匹配 总结 高级检索语法 相关搜索 在搜索结果页面下方提示若干与输入的关键词很相似的查询词,供用户从中选择 结果中找 相当于“二次检索”,

文档评论(0)

188****7181 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档