搜索引擎Google检索语法的研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎Google检索语法的研究

搜索引擎Google检索语法的研究   Google是斯坦福大学博士生Larry Page和Sergey Brin共同创立的。它支持132种语言,资料库内包含24亿个网页、7亿个新闻档案和3.3亿个图形文件,如果用人工检索,每分钟1页,24小时不间断工作,需要5707年才能完成一遍搜索,而用Google检索不超过1秒种。Google现有15000多台服务器,200多条T3级宽带同时服务,这使得它在搜索网站界的地位进一步得以巩固。      Google的基本搜索语法      Boolean逻辑检索语法   Boolean是指乔治?布尔提出的代数运算法则,常见的三种运算符是“与”、“或”和“非”,即AND、OR和NOT。在Google分别用“ ”(空格)、“-”和“|”表示,其中AND运算符表示对所有的关键字同时进行搜索,OR运算符表示从几个关键字中指定任意一个,NOT运算符表示在搜索结果中不包括某个关键字。如果有两个或多个关键字,可以用括号连接,用运算符检索时,至少要求包含两个以上的关键字,最好用括号构成逻辑运算式进行检索。      强制搜索检索语法   在网页中经常包含有许多出现频率极高,但无实际意义的高频词,例如英文单词“a”、“the”和“i”等,中文的“的”和“啊”等,这些词汇被Google保存在一个无用词汇表中,但在检索中它们是不可缺少的。例如,要搜索一些关于www起源的历史资料,Google会把“www”和“的”都省略了,只搜索出关于“历史”方面的资料,显然不符合要求。因为Google把这个短语分成了“www”、“的”和“历史”3个词汇,而“www”和“的”被认为是无实际意义的词而忽略。如果要对忽略的关键字进行强制搜索,需要在该关键字前加上“+”号,或者将上述的短语用英文双引号括起来,Google就会进行强制搜索。特别注意用“短语”和“句子”检索是一种提高检准率非常有效的方法,但必须用英文引号将其括起来,最好配合“+”号同时使用。      通配符和外文字符大小写检索问题   Google支持通配符号,例如用“*”代表一连串字符,用“?”代表单个字符等,但对通配符支持有限,而且包含“*”必须用英文引号括起来。例如检索“以*治国”,搜索结果可以是“以法治国”、“以德治国”等。   Google对外文字符大小写不敏感,搜索Three、three和THREE会得到相同的检索结果。      Google的特殊检索语法      通常用基本搜索语法可以解决绝大部分检索问题,但要更准确的检索就需要了解特殊搜索语法,主要有限定标题的intitle、allintitle,限定查找网址链接的inurl、allinurl和link,限定查找特定网站的site等语法,这些语法可以直接在Google的查找框内输入,相当于命令行语法。      搜索的关键字包含在URL链接中   inurl语法返回的网页链接中包含检索的第一个关键字,后面的关键字则出现在链接中或者网页文档中,因为很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,例如“MP3”、“GALLARY”和“Help”之类的目录中,可以用inurl语法找到这些相关资源的链接,用第二个关键词确定是否有某项具体资料。例如,查找MIDI曲《二泉映月》,检索语法是inurl:midi 二泉映月。注意在“inurl:”后面不能有空格,也不允许URL中含有“/”等符号。   allinurl语法返回的网页链接中包含所有作用关键字,这个查询的关键字只集中于网页的链接字符串。例如查找可能具有PHF安全漏洞的公司网站,通常这些网站的CGI-BIN目录中含有PHF脚本程序,表现在链接中就是“域名/cgi-bin/phf”,搜索语法为:allinurl:cgi-bin phf +com。      搜索的关键字包含在网页标题和网页中   intitle和allintitle的用法类似于inurl和allinurl,其中intitle限制搜索的网页标题,allintitle搜索所有关键字构成标题的网页。例如查找著名作家巴金的照片集,检索语法为:intitle: 巴金 照片集。   intext只搜索网页和/之间包含的关键词的部分,它忽略了标题、URL中含有的关键词,例如intext:;allintext检索包含在中的所有关键词。      对搜索网站进行限制   site语法可以限制搜索范围的域名,将搜索结果局限于某个具体网站或者网站频道内,例如限定在新浪网站的教育频道“”,或者是某个域名内,例如“”、“org”等,如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名”。例如,搜索中文教育科研网站()上关于中学数学课件

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档