口语解析与翻译方法-nlpr.docVIP

下载本文档

3
0
约1.88万字
约 11页
2016-11-05 发布于天津
举报
版权申诉

口语解析与翻译方法-nlpr.doc

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

口语解析与翻译方法-nlpr

口语翻译中的问题、方法与应用可能性宗成庆中科院自动化所模式识别国家重点实验室北京100080 E-mail: cqzong@ 摘要本文简要介绍了语音翻译技术的研究现状，分析了该项技术在10多年的发展过程中所取得的进展和存在的问题；然后侧重介绍和分析了目前语音翻译技术的基本方法，并对两种主要的实现技术－基于规则的分析翻译方法和基于统计模型的翻译方法的比较与结合问题进行了简要的讨论；最后本文介绍了在973项目“图象、语音、自然语言理解与知识挖掘”的支持下口语翻译关键技术研究的最新进展情况和取得的初步成果。 1 引言语音翻译（Speech-to-speech Translation）就是让计算机实现从一种语言的语音到另一种语言的语音翻译的过程。其基本思想是，让计算机像人一样充当持不同语言的说话人之间翻译的角色。由于说话人使用的语言一般都是日常生活中的口语，而人们也正希望计算机翻译系统能够接受并实现任意口语语句的翻译，并且，这种希望随着语音识别技术和口语解析技术的快速发展和提高，已经不再是渺茫的设想。因此，现在的语音翻译又常被称作口语翻译（Spoken Language Translation, SLT）[Kitano, 1994；宗，1999]。集多项技术于一体的语音翻译系统一般由语音识别（SR）、机器翻译（MT）和语音合成（TTS）等三个主要技术模块组成。从目前情况来看，尽管语音合成技术已在很多应用系统中得到实际应用，但语音识别技术和机器翻译技术则更多地停留在实验室研究阶段。因此，作为多技术集成的口语翻译系统仍然处于“艺术级的”（state-of-the-art）研究现状也就不足为怪了。我们不回避在口语翻译研究中的实际困难，无论是语音识别，还是口语解析和机器翻译，都存在许多有待于深入研究的关键问题，但我们认为，一项新的技术和发明从实验室走向实用化是逐步完成的，是需要一个过程的，而不是等到这项新技术在理论上完全成熟后才寻找其实现可能和应用目标的。因此，我们认为目前的语音翻译技术之所以仍处于纯理论研究阶段可以归结为两个主要因素：一方面，相关技术本身确实不够成熟，许多理论问题和技术实现问题都有待于进一步探索；另一方面是人的配合问题。无可厚非，作为用户，人们总是期盼理想化的、高性能的、可以广泛应用和操作方便的口语翻译系统，而且希望系统能够像人一样实现高正确率的自动翻译。而实际上这是不现实的，因为人在做翻译时要做到完全100％的翻译正确也并不是轻而易举的事情。那么，目前语音翻译的思想方法究竟存在什么样的问题？如何建立语音翻译的新方法？如何在目前这样一种状态下，尽早实现口语翻译的实用化？这就是我们本文想讨论的问题。本文第二部分将简要介绍几个代表性的语音翻译实验系统，并分析该项技术在近10多年的发展中取得的进展和存在的问题；第三部分侧重分析目前语音翻译技术的基本方法，并对分析方法和统计方法的比较与结合问题进行简要的讨论；第四部分介绍本973项目“图象、语音、自然语言理解与知识挖掘”中口语翻译研究的进展情况；第五部分是本文的结束语。 2 语音翻译研究现状世界上第一个语音翻译实验系统SpeechTrans于1989年由美国卡内基－梅隆大学（Carnegie Mellon University, CMU）开发成功[Kitano, 1994]。在过去的十多年里，尤其是近几年，随着相关技术和学科的迅猛发展，一批针对不同应用领域的语音翻译实验系统相继问世。表1列出了十几年来一些有代表性的语音（口语）翻译系统。实际上，除了表1中列出的代表系统以外，还有ATT Bell实验室开发的VEST (Voice English / Spanish Translator)系统[Roe et al., 1992]，SRI International 开发的SLT口语翻译系统[Rayner et al., 1995; Agnas, 1995]，以及其它一些小型的语音翻译实验系统，这里不再一一赘述。另外，表1中的JANUS-III是指JANUS系统的第三个版本，实际上，JANUS系统分为三个不同的版本，分别称叫作JANUS-I [Waibel et al., 1991]、JANUS-II [Waibel, 1996] 和JANUS-III。系统名称代表机构研制时间应用领域翻译语种翻译方法识别词汇 SpeechTrans CMU 1989 医生与病人对话日-英基于规则 - SL-TRANS ATR-ITL 1989 ATR会议注册日-英基于规则 1035 JANUS-III CMU 1997- 旅馆预订，航空/火车订票，旅游信息查询等德, 英, 日, 西班牙, 韩, 俄等中间语言开放 A