- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * 二、CLIR相关技术 1、计算机信息检索技术 标引技术、匹配技术 2、机器翻译技术 核心:保持两文本的语义对等 * * 三、检索过程 ①多语种(multilingual) 信息的搜集以及多语种信息数据库的建立; ②应用语言自动处理技术实现提问式的语种类型(简称为提问语种) 和信息资料的语种类型(简称为信息语种) 的统一; ③应用传统信息检索技术实现提问式与数据库信息的匹配. * * 四、实现方法 提问语种和信息语种的统一主要有三种模式(转化方向) : 1)提问语种转化(翻译) 成信息语种; 2)信息语种转化成提问语种; 3)将信息语种和提问语种均转化成另一中间语种。 * * 提问式翻译方法( query translation approach) 提问式翻译方法是在信息检索之前, 将提问式的语种转化翻译成所要检索信息的信息语种。这种转化方式是目前实现CLIR 的主流思想, 可以很容易和传统单语种信息检索技术结合。 * * 几种典型的提问式翻译方法: 1)基于词典的方法 2)基于语料库的方法 3)混合方法 * * (2) 文献翻译方法( document translation approach) 文献翻译方法是在信息检索之前, 将文献信息资源的信息语种转化为提问语种,再通过提问式与信息库的匹配完成检索。 缺点:工作量大。 适用范围:翻译内容有限情况下使用。 * * (3) 提问式- 文献翻译方法(query – document translation approach) 提问式翻译方法仅对检索式进行语种转化, 工作量小, 但检索结果是由用户不熟悉的信息语种所描述的, 用户使用不方便; 文献翻译方法返回由用户熟悉的提问语种描述的信息资料, 但是文献全文翻译工作量大而且正确率无法达到实用要求。 * * 综合提问式翻译方法和文献翻译方法的优点, 提出提问式- 文献翻译方法来实现CLIR。这一方法既减少用户的翻译成本, 又提高检索服务的质量, 应该说是目前实现CLIR 比较理想的选择。 将源语言翻译成目标语言,与目标语言描述信息库匹配,检索出相关信息,再将结果翻译成源语言描述的信息。 * * (4) 中间语种翻译方法(interlingual representation approach) 将提问式和文献信息均翻译转化成由中间语种表示的CLIR 实现方法称为中间语种翻译方法。 一般认为, 选择的中间语种是计算机容易自动处理的语种, 如英语等。特别是在跨语言信息检索中遇到这样问题时: 源语种和目标语种之间无法进行直接翻译, 即两者进行直接翻译的语言资源(如双语词典等) 不存在。此时只能借助于中间语种将源语种翻译成目标语种(源→中间→目标) 或将源语种和目标语种均翻译成中间语种(源→中间←目标) 。 * * (5) 非翻译方法(no translation approach) 非翻译方法是不对提问语种或信息语种进行翻译即可实现跨语言信息检索。这种方法目前主要是通过Deerwester 等人1990 年在单语言信息检索研究中提出了潜在语义标引法(Latent Semantic Indexing ———LSI) 来实现。 * * 基本思想: 首先通过将有代表性的文档与其对应的翻译文档联系起来形成训练文档集,然后利用奇异值分解技术(SVD : Singular Value Decomposition) 对双语检索词- 文档关联矩阵进行奇异值分解,获得双语文档集的特征信息以及检索词用法上的映射关系,即构造出不同语种的潜在语义空间,最后根据平行文档中语词的用法特征可检索出另一种语种的相关信息。 * * 五 跨语言信息检索系统 1)Gindor 系统 Gindor 系统是MNIS 公司的一个产品,它目前所支持的语言有英、法、德、意、日和西班牙语,而对于中文的支持正处于研究之中。该系统的特点是统一的字符编码标准、自然语言检索、查询自动扩展、申请专利的跨语言检索技术等。Gindor 目前有3 项核心技术,即概念中间语言、语言分析、搜索管理。 * * 2)Keizai 系统 Keizai 是美国新墨西哥州立大学计算研究实验室开发的一个系统,它是一个跨语言的交互检索和摘要系统。它使用了统一字符编码检索体系(USRA) 和交互文档摘要方法(MINDS) 。目前所提供的新闻源有英文、法文、德文、西班牙文、意大利文、中文、日文、韩文的新闻,支持以上几种语言的跨语言翻译和检索,不过提问式只能是英文的。 * * Keizai提供的交互手段主要是: 在用户输入检索词之后, 系统会显示一个翻译
文档评论(0)