- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于中间转换格式的中英文语言生成方法研究-模式识别国家重点试验室
Journal of Chinese Language and Computing, 14 (1) 21-34 21
基于中间转换格式的中英文语言生成方法研究
曹文洁 宗成庆 徐波
中国科学院自动化所模式识别国家重点实验室,
北京 100080 ,中国
{caowj, cqzong, xubo}@
_____________________________________________________________
摘要
基于中间语言的翻译方法是实现多语言口语翻译的重要途径,而自然语言生成技术则
是基于中间语言的机器翻译系统中的重要组成部分。本文介绍我们基于中间语言的中
英文语言生成方面的研究工作。我们采用的是基于特征的深层生成技术与模板生成技
术相结合的生成方法。其中,深层生成技术主要是为了保证口语翻译系统具有更好的
灵活性与领域可移植性,而模板生成技术则是为了使口语翻译系统具有更高的效率。
实验表明该混合方法可以较好地满足基于中间转换格式的口语翻译系统的基本要求。
关键词
自然语言生成,微观规划,词汇化,表层生成
_____________________________________________________________
1.引言
自然语言生成技术研究的是如何利用计算机把非自然语言表示的语义形式转换成某
种自然语言的表示形式,从而产生人们可理解的,表达确切、自然流畅的自然语言语
句。自然语言生成技术的目的实际上就是让人们能够用自己感到最为舒适方便的自然
语言方式去表达各种语义信息。随着自然语言处理相关技术的快速发展,自然语言生
成技术被广泛地应用于许多方面,机器翻译中的目标语言生成是其中最典型的应用之
一。
22 Wenjie Cao, Chengqing Zong and Bo Xu
本文介绍的工作是基于国际语音翻译先进研究联盟(C-STAR: Consortium for
Speech Translation Advanced Research)框架下多语言口语翻译系统中的中英文生成问
题,所采用的中间语言称为中间转换格式(IF: Interchange Format )。关于背景的详细
介绍,请参见[12],本文不再赘述。
基于中间转换格式的C-STAR 口语翻译系统框图如下所示:
源语文本 目标语文本
源语语音 语音识别 源语解析 IF 目标语生成 语音合成 目标语音
知识库
图1. 基于中间转换格式的语音翻译系统
与其它基于中间语言的机器翻译系统相同,基于 IF 的口语翻译系统对目标语言
生成器有着同样的要求:即要求具有灵活、高效、便于领域移植、以及较好的容错性
等特点。除此之外,IF 也给我们的目标语言生成研究带来新的问题(详见第二小节)。
自然语言生成从上个世纪六十年代开始发展至今,经历了从简单到复杂的过程。
句法实现系统主要有四种类型[14]。首先是固定文本生成系统(canned-text system) ,这
种方法主要应用于大多数的软件的提示信息生成系统。然后是模板生成系统(template
system),如Kukich 在 1983 年提出的ANA 系统,这种方法效率高,而且在特定领域
的应用效果比较好,但是领域可移植性差。再之后是基于短语的生成系统(phrase-based
system),如McDonald 等于 1980 年建立的MUMBLE 系统,Moore 于1989 年建立的
EES 文本规划器等。此方法主要用于单句生成,其优点是鲁棒性强,但是容易造成不
恰当的短语扩展。后来又出现了基于特征的生成系统(feature-based system) ,如
Matthiessen 于1983 年建立的PENMAN 系统,及其衍生出的KPML
您可能关注的文档
- 基于超越阈值概率的行人风环境数值评价.pdf
- 基于大数据分析的健康城老年人生活空间规划设计探究studyonthe.pdf
- 基于大尺度重组竹试件各向轴压я学性能研究-郑州大学学报工学版.pdf
- 基于对象模式关系图的测试顺序生成方法-上海师范大学学报.pdf
- 基于多层次复杂概念网络生成方法的sunshine图发现伤寒论小便.pdf
- 基于多场景的状态图自动生成方法①-计算机系统应用.pdf
- 基于多频段传感器辅助认知无线电网络的高能效-计算机工程与科学.pdf
- 基于多元回归的栅格水系阈值计算模型-农业机械学报.pdf
- 基于多种群协同进化微粒群算法的径向基神经网络设计-控制理论与应用.pdf
- 基于多源遥感数据的大豆叶面积指数估测精度对比.pdf
最近下载
- Unit 5 We’re family 第1课时(Get ready)(课件)外研版(三起)(2024)英语三年级上册.pptx
- 中国民间传说:田螺姑娘.ppt
- 医院岗位风险分级监管制度.docx VIP
- 八年级班级工作计划第一学期.pdf VIP
- 甘肃省平凉崆峒区2024年中考联考数学试卷含解析.doc
- 硅片加工表面抛光.ppt
- 正大猪三宝饲料推广会流程和操作实务.ppt
- 安徽省腰椎间盘突出症分级诊疗指南(2015年版)安徽省医学会(发布时间:2016-01).pdf VIP
- 国家食品安全抽样检验抽样单&填表说明.doc
- TASCAM达斯冠专业音响CD-RW901MKII说明书用户手册(1).pdf
文档评论(0)