- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于中间转换格式多语口语翻译系统中的目标语言生成
基于中间转换格式的中英文语言生成方法研究
曹文洁 宗成庆 徐波中国科学院自动化所模式识别国家重点实验室,北京 100080,中国{caowj, cqzong, xubo}@
2003年12月5日收稿
2004年5月10日修改并录用
_____________________________________________________________
摘要
基于中间语言的翻译方法是实现多语言口语翻译的重要途径,而自然语言生成技术则是基于中间语言的机器翻译系统中的重要组成部分。本文介绍我们基于中间语言的中英文语言生成方面的研究工作。我们采用的是基于特征的深层生成技术与模板生成技术相结合的生成方法。其中,深层生成技术主要是为了保证口语翻译系统具有更好的灵活性与领域可移植性,而模板生成技术则是为了使口语翻译系统具有更高的效率。在深层生成中,我们采用微观规划和表层生成相结合的结构,使用系统功能语法为生成语法。实验表明该混合生成策略可以较好地满足基于中间转换格式的口语翻译系统的基本要求。
关键词
自然语言生成,微观规划,词汇化,表层生成_____________________________________________________________
1.引言
自然语言生成技术研究的是如何利用计算机把非自然语言表示的语义形式转换成某种自然语言的表示形式,从而产生人们可理解的,表达确切、自然流畅的自然语言语句。自然语言生成技术的目的实际上就是让人们能够用自己感到最为舒适方便的自然语言方式去表达各种语义信息。随着自然语言处理相关技术的快速发展,自然语言生成技术被广泛地应用于许多方面,机器翻译中的目标语言生成是其中最典型的应用之一。
本文介绍的工作是基于国际语音翻译先进研究联盟(C-STAR: Consortium for Speech Translation Advanced Research) 框架下多语言口语翻译系统中的中英文生成问题,所采用的中间语言称为中间转换格式(IF: Interchange Format)。关于背景的详细介绍,请参见/),本文不再赘述。
基于中间转换格式的C-STAR口语翻译系统框图如下所示:
图1. 基于中间转换格式的语音翻译系统
与其它基于中间语言的机器翻译系统相同,基于IF的口语翻译系统对目标语言生成器有着同样的要求:即要求具有灵活、高效、便于领域移植、以及较好的容错性等特点。除此之外,IF也给我们的目标语言生成研究带来新的问题(详见第二小节)。
自然语言生成从上个世纪六十年代开始发展至今,经历了从简单到复杂的过程。句法实现系统主要有四种类型John A. Bateman 1996)。首先是固定文本生成系统(canned-text system),这种方法主要应用于大多数的软件的提示信息生成系统。然后是模板生成系统(template system),如Kukich在1983年提出的ANA系统,这种方法效率高,而且在特定领域的应用效果比较好,但是领域可移植性差。再之后是基于短语的生成系统(phrase-based system),如McDonald等1980年建立的MUMBLE系统,Moore于1989年建立的EES文本规划器等。此方法主要用于单句生成,其优点是鲁棒性强,但是容易造成不恰当的短语扩展。后来又出现了基于特征的生成系统(feature-based system),如Matthiessen于1983年建立的PENMAN系统,及其衍生出的KPML系统(Bateman,Maier et. al. 1991)等等。这种方法的优点在于简化了概念任何语言上的差异作为特征加入到系统中。
本文中我们采用的是基于模板和基于特征的深层生成相结合的混合生成方法。之所以采用这样的混合方法,主要基于以下几点考虑:首先,特定领域的口语对话常常有一些固定的表达模式。根据我们初步统计,发现口语中含有“请”字的祈使句约占17%左右;用“有…吗”、“有没有”、“能不能/可以不可以”等表示的疑问句约占44%左右;含有时间或数字的语句约占22%左右。 其中,很多固定简短的表达非常适合使用模板的方法进行翻译(对两种语言直接互译的翻译系统而言)或目标语言的生成(对基于中间语言的翻译系统而言)以简化翻译模块。此外,模板的引入有助于提高系统的运行效率。其次,由于口语的表达形式灵活多样,对于非固定的表达方式,采用基于特征的深层生成方法无疑更能满足系统对灵活性的要求(Ehud Reiter 1995)。再次,我们的生成器是中英文的双语生成,较其它方法而言,基于特征的方法可以把不同语言的差异作为特征加入系统中,使其更易于用统一的程序框架对不同语言进行处理。
本文第二部分介绍中间转换格式IF的定义及其特点,第三部分具体
您可能关注的文档
- 国立台南护理专科学校约用人员管理要点修正条文对照表.doc
- 国立空中大学课程教材及面授相关费用支给基准表.doc
- 国立台南大学非主管研习-人事室.ppt
- 国立交通大学理学院在职专班应用科技组硕士论文题目雷射切断调整.doc
- 国网湖北省电力公司第一批超市化采购-国家电网公司电子商务平台.doc
- 国立桃园农工9494-2.doc
- 国立云林科技大学会计室简报-国立云林科技大学主计室.ppt
- 国际建筑和土木工程技术标准指南.doc
- 国教署103学年度国中九年级学生志愿选填试探後辅导作为常见问答集.doc
- 国际标准化组织国际标准-石家庄新标认证咨.doc
- 基于互联网使用本软件的解决方案-仓库管理软件.doc
- 基于ZigBee传输的粮库监测系统-德州仪器在线技术支持社区.doc
- 基于区间的不确定性优化理论与算法.doc
- 基于云技术的洋葱路由.ppt.ppt
- 基于两个单片机串行通信的电子密码锁.doc.doc
- 基于传感器网络的人体血氧饱和度远程监护系统研究与实现.doc.doc
- 基于可靠性的广域保护信息传输路径重构熊小伏,吴玲燕(重庆大学输配.doc
- 基于相机镜头模型的散景效果模拟-中国图象图形学报.doc
- 基于大学科技创新资源的企业孵化器网络系统结构-中国教育科学研究院.doc
- 基础汉语第一、二册课程辅导杨寄洲编着辅导木尼热第一课---第三课.doc
原创力文档


文档评论(0)