网站大量收购独家精品文档,联系QQ:2885784924

[工学]第五章 数字图书馆信息检索.ppt

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[工学]第五章 数字图书馆信息检索

5.3跨语言信息检索 5.3.2跨语言信息检索的模式 查询翻译 查询翻译指将提问用语种转换成文献用语种(如将中文提问转换成英文提问),然后再进行单语言检索 文献翻译 文献翻译指将源文献语种转换成提问用的语种(如将英文源文献转换成中文文献),即不对提问式进行翻译,而是对集合中的文献翻译成与提问用的语种一致的语言 中间语种转换 中间语种转换指将提问和文献转换成一种逻辑形式,或者第三方语言 5.3跨语言信息检索 5.3.3翻译技术 机器翻译技术 一种方法是将用户的查询翻译为与文档相同的语种;另一种方法是将文档翻译为与查询相同的语种,然后再用单语种的信息检索系统进行检索 基于词典的方法 基于词典的方法主要是利用双语词典,将用户提交的提问式翻译成目标语种,然后进行检索 基于语料库的方法 基于语料库的方法从大规模的语料入手,从中抽取所需的信息,自动构建与应用有关的翻译技术 5.3跨语言信息检索 5.3.4跨语言信息检索解决问题 查询词与检索到的文献分属不同语言 词的歧义和多义性 查询词的切分 文献的多语言性 输出结果的排序方式 对多语言资源的依赖 5.3跨语言信息检索 5.3.4跨语言信息检索解决问题 由于汉语的特殊性,汉英跨语言文献检索还面临如下问题: (1) 中文文本之间没有分隔符。 (2) 没有较好的方法识别汉语中的新词、外来词、专有名词、人名、地名和缩略语等语词。 (3) 汉语没有词缀变化。 (4) 汉语句法、语义分析复杂。 5.3跨语言信息检索 5.3.5跨语言信息检索优化技术 查询扩展 查询扩展指的是利用计算机语言学、信息学等多种技术,把与原查询相关的词语或者与原查询语义相关联的概念添加到原查询,得到比原查询更长的新查询,然后检索文档,以改善信息检索的性能 检索反馈技术 在跨语言信息检索中,通过一次检索往往得不到想要的结果目的文献,这时就需要通过检索结果中反馈的信息对提问式检索方法或翻译方法进行改进 消除检索词多义性 对查询来说,确定查询中检索词的确切含义是查询扩展的基础对于被检索信息来说,明确信息中出现的检索词的含义是提高检索准确率、确定信息相关性的关键。可以利用一种词的共现技术来消除词的多义性,以明确其含义 5.3跨语言信息检索 5.3.6跨语言信息检索系统 Cindor系统 特点:统一的字符编码标准、自然语言检索、查询自动扩展、申请专利的跨语言检索技术。 核心技术:概念中间语言、语言分析、搜索管理。 Keizai系统 A、使用统一字符编码检索体系(USRA)和交互文档摘要方法(MINDS)。 B、提供自动和用户帮助两种方法,以构建和提高跨语言查询的效率。 C、有英文查询输入框、新闻源选择框、翻译查询按钮、提交查询按钮、存储查询按钮等。它目前所提供的新闻源有英文、法文、德文、西班牙文、意大利文、中文、日文、韩文的新闻,支持以上几种语言的跨语言翻译和检索,不过查询只能是英文的。 5.3跨语言信息检索 5.3.6跨语言信息检索系统 Keizai系统 查询举例:输入英文单词“rose”,选择“Xin Hua News 94-95(Chinese)”作为新闻源,点击查询翻译按钮,则一个翻译清单显示在屏幕上,排在最前有“花圣、紫月季、胜春、月季花”等。每种翻译形式前有复选框,用户可以选择最适合自己需要的查询。选择了“花圣、紫月季、红蔷、月季花、芙蓉”作为所需要的查询翻译形式,提交查询后,检索到12份文档。 5.4知识检索 5.4.1 知识检索概念 5.4.2 知识检索技术 5.4.3 知识检索案例 5.4知识检索 5.4.1 知识检索概念 特征: ①基于某种具有语义模型的知识组织体系。 ②对资源对象进行基于元数据的语义标注。。 优势: (1) 实现信息服务向知识服务的转化。 (2) 提供主动服务方式。 (3) 面向用户。 (4) 集成和综合应用各类知识和各种高效的智能与非智能技术,全面提高检索效率。 5.4知识检索 5.4.2知识检索技术 本体技术 CBR 知识库 过程感知知识检索 5.4知识检索 5.4.2知识检索技术 本体技术 五个模块: 用户界面模块 、查询式语义标注模块、领域本体构建模块、检索资源的语义标引模块、检索处理模块。 5.4知识检索 5.4.2知识检索技术 CBR 工作步骤: ①检索与待解决问题类似的案例; ②重用类似案例推荐的解决方案; ③修改或调整解决方案以更好地适应新问题; ④考查新的问题、解决方案案例是否有价值作为一个新的案例保留; ⑤保留步骤④中有价值的解决方案; ⑥完善案例库索引和特征权重。 5.4知识检索 5.4.2知识检索技术 知识库 知识库(Knowledge Base)是一种在线的、基于计算机的,有关某一专门领域的专家意见、知识、经验等的文件仓库,是对各种

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档