第7章 跨语言信息检索技术分析.pptVIP

  • 54
  • 0
  • 约8.04千字
  • 约 59页
  • 2020-08-25 发布于天津
  • 举报
在自然语言中很多短语、 习惯用语等通常有固定的语义, 其意义很多都不等于其中词的 语义的简单组合。因此当把其 按照单个词进行翻译时失掉其 本来的语义信息。 JIanfeng Gao 等设计了三 个统计模型:如有图 模型一 共现模型( Co-occurence Model ) 模型二 名词短语翻译模型( Noun Phrase Translation Model ) 模型三 依存翻译模型( Dependency Translation Model ) 其中后两种模型分别可以识别名词短语 和依存三元组( Dependency Triples ),例 如动宾短语( Verb-Object ),所有的三种 方法都能起到很好的翻译消歧效果。 模型一 共现模型( Co-occurence Model ) 模型二 名词短语翻译模型( Noun Phrase Translation Model ) 模型三 依存翻译模型( Dependency Translation Model ) 3 )翻译工具存在的问题 对查询翻 译的影响 翻译资源 的获取问 题 覆盖度问 题 准确度问 题 在查询翻译过程中 经常使用的翻译资源 包括机读字典、主题 词表、本体、语料库 等。这些翻译资源对 于查询翻译的影响包 括翻译资源的获取问 题、覆盖度问题、准 确度问题等方面。 4. 查询翻译的未来发展方向 查询翻译的未来发展方向可以概括为以下三点: ( 1 )多种查询翻译方 法的结合 词典提供较广且较浅的覆盖度,而语料库提供较窄且较 深的覆盖度,本体、主题词表则丰富的概念层次和语义 关系,如能将多种查询翻译策略相结合,充分利用各层 次知识,可以提高查询翻译的效果。 ( 2 )语义层次进行查 询式翻译 现在比较流行的、相对成熟的查询翻译方法总体来说还 是字符级的匹配,只有从语义层次上理解查询式,才能 获得更优的查询翻译结果,因此越来越多得学者开始使 用本体这样包含语义信息的资源进行查询翻译。 ( 3 )语种的多样性 现在跨语言信息检索主要集中于双语言信息检索,尤其 是英语和另外一种语言的检索。尽管互联网上英语仍然 是最大的语种,但是汉语、拉丁语等比例也很大,实现 这些语种之间的跨语言检索的意义也是非常大的。 7.4.3 中间语言翻译方法 在跨语言信息检索中,解决语言障碍的基本 方法是两种语言之间的翻译,然而所有的翻译方 法都离不开机器翻译、双语翻译、语料库等作为 翻译的语言基础。但是,在跨语言信息检索中可 能会碰到这样的情形:两种语言直接翻译的资源 不存在。为此研究人员提出了一种利用中间语言 或中枢语言进行翻译的方法:将源语言翻译成中 间语言,然后再将中间语言翻译成目标语言。 7.4.4 文献翻译 文献翻译与查询翻译正好相反,是指先将多 语言的原始信息集合转换成与查询相同的语言, 再进行单语言信息检索。 ( 2 )可以离线 执行 文献翻译的 优点 ( 1 )提高翻译 质量 优点 速度太慢,且可能 会使原始信息库的 规模很大 缺点 7.4.5 不翻译技术 目前不通过翻译进行跨语言信息检索的技术 有潜在语义索引( Latent Semantic Indexing,LSI ) 和广义向量空间模型等方法。 LSI 是由 Deerwester 等人于 1990 年在单语言 信息检索中提出的。同年, Landauer 和 Litman 提 出了跨语言潜在语义索引( Cross-Language Latent Semantic Indexing , CLSI )的信息检索技 术。 潜在语义索引与广义向量空间模型的对比 潜在语义索引 它的基本思想是首先通过将有代表性的文档与其对应的翻 译文档联系起来形成训练文档集,然后利用奇异值分解技 术( Singular Value Decomposition , SVD )对双语检索词 — — 文档关联矩阵进行奇异值分解,获得双语文档集的特征 信息以及检索词用法上的映射关系,即构造出不同语种的 潜在语义空间,最后根据平行文档中语词的用法特征检索 出另一种语种的相关信息。 广义向量空间模型 基本思想是根据双语训练文档集分别建立源语与目标语的 “检索词 — 文档关联”矩阵,在计算查询条件和文档的相 似度时,考虑将经典的向量空间模型与两个关联矩阵相结 合,

文档评论(0)

1亿VIP精品文档

相关文档