第7章跨语言信息检索技术分析.pptVIP

下载本文档

54
0
约8.04千字
约 59页
2020-08-25 发布于天津
举报

第7章跨语言信息检索技术分析.ppt

在自然语言中很多短语、习惯用语等通常有固定的语义，其意义很多都不等于其中词的语义的简单组合。因此当把其按照单个词进行翻译时失掉其本来的语义信息。 JIanfeng Gao 等设计了三个统计模型：如有图模型一共现模型（ Co-occurence Model ）模型二名词短语翻译模型（ Noun Phrase Translation Model ）模型三依存翻译模型（ Dependency Translation Model ）其中后两种模型分别可以识别名词短语和依存三元组（ Dependency Triples ），例如动宾短语（ Verb-Object ），所有的三种方法都能起到很好的翻译消歧效果。模型一共现模型（ Co-occurence Model ）模型二名词短语翻译模型（ Noun Phrase Translation Model ）模型三依存翻译模型（ Dependency Translation Model ） 3 ）翻译工具存在的问题对查询翻译的影响翻译资源的获取问题覆盖度问题准确度问题在查询翻译过程中经常使用的翻译资源包括机读字典、主题词表、本体、语料库等。这些翻译资源对于查询翻译的影响包括翻译资源的获取问题、覆盖度问题、准确度问题等方面。 4. 查询翻译的未来发展方向查询翻译的未来发展方向可以概括为以下三点：（ 1 ）多种查询翻译方法的结合词典提供较广且较浅的覆盖度，而语料库提供较窄且较深的覆盖度，本体、主题词表则丰富的概念层次和语义关系，如能将多种查询翻译策略相结合，充分利用各层次知识，可以提高查询翻译的效果。（ 2 ）语义层次进行查询式翻译现在比较流行的、相对成熟的查询翻译方法总体来说还是字符级的匹配，只有从语义层次上理解查询式，才能获得更优的查询翻译结果，因此越来越多得学者开始使用本体这样包含语义信息的资源进行查询翻译。（ 3 ）语种的多样性现在跨语言信息检索主要集中于双语言信息检索，尤其是英语和另外一种语言的检索。尽管互联网上英语仍然是最大的语种，但是汉语、拉丁语等比例也很大，实现这些语种之间的跨语言检索的意义也是非常大的。 7.4.3 中间语言翻译方法在跨语言信息检索中，解决语言障碍的基本方法是两种语言之间的翻译，然而所有的翻译方法都离不开机器翻译、双语翻译、语料库等作为翻译的语言基础。但是，在跨语言信息检索中可能会碰到这样的情形：两种语言直接翻译的资源不存在。为此研究人员提出了一种利用中间语言或中枢语言进行翻译的方法：将源语言翻译成中间语言，然后再将中间语言翻译成目标语言。 7.4.4 文献翻译文献翻译与查询翻译正好相反，是指先将多语言的原始信息集合转换成与查询相同的语言，再进行单语言信息检索。（ 2 ）可以离线执行文献翻译的优点（ 1 ）提高翻译质量优点速度太慢，且可能会使原始信息库的规模很大缺点 7.4.5 不翻译技术目前不通过翻译进行跨语言信息检索的技术有潜在语义索引（ Latent Semantic Indexing,LSI ）和广义向量空间模型等方法。 LSI 是由 Deerwester 等人于 1990 年在单语言信息检索中提出的。同年， Landauer 和 Litman 提出了跨语言潜在语义索引（ Cross-Language Latent Semantic Indexing ， CLSI ）的信息检索技术。潜在语义索引与广义向量空间模型的对比潜在语义索引它的基本思想是首先通过将有代表性的文档与其对应的翻译文档联系起来形成训练文档集，然后利用奇异值分解技术（ Singular Value Decomposition ， SVD ）对双语检索词 — — 文档关联矩阵进行奇异值分解，获得双语文档集的特征信息以及检索词用法上的映射关系，即构造出不同语种的潜在语义空间，最后根据平行文档中语词的用法特征检索出另一种语种的相关信息。广义向量空间模型基本思想是根据双语训练文档集分别建立源语与目标语的 “检索词 — 文档关联”矩阵，在计算查询条件和文档的相似度时，考虑将经典的向量空间模型与两个关联矩阵相结合，

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

第7章跨语言信息检索技术分析.pptVIP