搜索引擎的使用与翻译(含硬盘搜索).ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
搜索引擎的使用与翻译 1、什么是搜索引擎? 2、搜索引擎的工作机制 3、基本检索技术 4、Google搜索 5、Google在翻译中的应用示例 6、以图搜图 7、桌面搜索 8、作业 1、什么是搜索引擎? 搜索引擎(search engine)指根据一定策略,运用特定的计算机程序从互联网搜集信息,完成信息组织、处理后为用户提供检索服务,并将检索信息展示给用户的系统。 搜索引擎包括全文索引、目录索引、元搜索引擎、垂直索引引擎、集合式搜索引擎、门户搜索引擎、免费链接列表,等。 谷歌(Google)与百度(Baidu)是代表性搜索引擎。 2、搜索引擎的工作机制 现代大规模、高质量搜索引擎一般有爬行、抓取存储、预处理、排名四个步骤。 (1)爬行 搜索引擎通过一种特定规律的软件跟踪网页链接,从一个链接爬到另一个链接,像蜘蛛在蜘蛛网上爬行一样,所以也称为“蜘蛛”或“机器人”。 搜索引擎蜘蛛按照一定规则爬行,并非胡乱爬行。 (2)抓取存储 搜索引擎蜘蛛跟踪链接,爬行到网页后,将爬行数据存入原始页面数据库。其中页面数据与用户浏览器得到的HTML完全一样。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或复制内容,很可能不再爬行。 (3)预处理 搜索引擎蜘蛛将抓取的页面按照如下步骤进行预处理: 抓取文字→中文分词→去停止词→消除噪声→正向索引→倒排索引→链接关系计算→特殊文件处理 除了HTML文件外,搜索引擎还能抓取和索引以文字为基础的多种类型文件,如.pdf、.doc、.wps、.xls、.ppt、.txt等。 目前搜索引擎还不能处理图片、视频、flash等非文字内容,也不能执行脚本和程序。 (4)排名 用户在搜索引擎框输入搜索关键词后,排名程序调用索引库数据,计算排名,然后显示给用户。 由于搜索引擎数据量庞大,虽然能每日小幅更新,但一般情况下,搜索引擎排名规则都是根据日、周、月阶段性的不同幅度更新。 3、基本检索技术 (1)布尔逻辑检索 布尔逻辑检索指利用布尔逻辑运算符连接各检索词,然后由计算机进行相应逻辑运算,以找出所需信息的方法。 逻辑运算符的作用是把检索词连接起来,构成一个逻辑检索式。 利用布尔逻辑运算符进行检索词或代码的逻辑组配是现代信息检索系统的常用技术。 常用布尔逻辑运算符有三种:逻辑“与”、逻辑“或”、逻辑“非”。 ①逻辑“与” 含义:表示检出同时含有A、B两个检索词的记录。 用法:常用于连接不同概念的检索词,以表达复杂主题。 运算符:AND 或者 * 检索式:A AND B 或者 A*B 例如:检索与台州学院和翻译相关的网页 操作:在搜索引擎框输入 台州学院*翻译 例如:检索与China和housing相关的网页 操作:在搜索引擎框输入 China AND housing ②逻辑“或” 含义:表示检出含有A词或者B词的记录。 用法:常用于连接同一概念的不同表达式或相关词,以防漏检。 运算符:OR 或者 + 检索式:A OR B 或者 A+B 例如:检索与台州学院或者翻译相关的网页 操作:在检索引擎框输入 台州学院+翻译 例如:检索和China或housing相关的网页 操作:在检索引擎框输入 China OR housing ③逻辑“非” 含义:检出含有A词,但同时不含有B词的记录。 用法:常用于排除某些概念,以达到精确检索的目的。 运算符:NOT 或者 - 检索式:A NOT B 或者 A-B 例如:检索天龙八部是哪八部 操作:在搜索引擎框中输入 天龙八部–武侠 例如:检索非酒精饮料 操作:在搜索引擎框中输入 drink NOT alcohol ④注意 逻辑运算符在中文数据库中多用符号 *、+、-,在英文数据库中使用单词 AND、OR、NOT,且这些单词为大写。 (2)位置算符检索 位置算符也叫全文查找逻辑算符或相邻度算符,用来规定符号两边的词在文献中所出现的位置。可以表示词与词之间的相互关系和前后次序。 文献记录中词语的相对次序或位置不同,表义可能不同,而同一个检索表达式中词语相对次序不同,其检索意图也不一样。 布尔逻辑检索有时难以表达某些检索确切的提问要求,而字段限制检索虽能使检索结果在一定程度上进一步满足提问要求,但无法限制检索词间的相对位置,此时可以使用位置算符进行检索。 常用位置算符有四种:W算符(with)、N算符(near)、Same、S算符(subfield) ①W算符(with) 常写作 A(nW)B,表示A词与B词之间最多可以插入n个其他的词,同时,A、B保持前后顺序不变。还可以写作A()B,表示两词之间不得有其他词,但有些系统允许有空格或标点符号。

文档评论(0)

zxiangd + 关注
实名认证
内容提供者

本人从事教育还有多年,在这和大家互相交流学习

1亿VIP精品文档

相关文档