- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉日机器翻译中的日语生成规则系统
1
新宇等:日语生成规则系统的设计和实现
汉日机器翻译中的日语生成规则系统
戴新宇,陈家骏,王启祥
南京大学计算机软件新技术国家重点实验室,南京 210093
南京大学计算机科学与技术系,南京 210093
摘要:
本文主要论述汉日机器翻译中日语生成的基本策略以及生成规则系统的设计与实现。
针对一棵汉语分析树,生成算法以确定性的自底向上过程遍历分析树,依据树结点上的特定信息,执
行一定的动作,边转换、边生成,直至根结点生成最终的日语句子。
在算法实现上,采用了算法流程与数据结构一体化的设计策略,结合面向对象的思想将汉语分析树
示成一棵由动态自主的结点对象相互连接而成的扩充的二叉树存储结构。生成算法的驱动函数以后根序列
遍历汉语分析树,顺序调用结点对象的对外接口,完成日语句子的生成。
针对汉语分析的中间结果,设计了一套日语生成器的规则系统。为了能够对规则进行描述,首先定义
了一套规则描述语言,为了对从语料库中抽取的规则存放,设计了规则系统的组织结构。共性规则库按照
层次结构组织规则,个性规则库以生成字典的形式给出。本文还讨论了规则系统的实现问题,主要是规则
的解释、执行,并且给出了规则系统与生成算法的接口。
运用上述的生成算法与规则系统,对一些语料进行调试,抽取共性规则和个性规则,解决了一些汉日
翻译中日语生成中的主要问题。
关键词:
机器翻译,日语生成,规则系统,规则描述语言
1. 前言
随着国际间交流的增加,特别是Internet 的广泛使用,语言障碍问题变得越来越严重,
这样,语言翻译显得更加重要,其中,机器翻译是一个重要手段。
机器翻译一般包括源语言分析和目标语言生成两大部分,源语言分析固然是很关键的,
但目标语言生成也占有非常重要的地位。在机器翻译中,目标语言生成的一 法则是:译文
的生成依赖于源语言的分析结果,这个分析结果包含了源语言句子所要传达的大部分信息,
而信息的选用则靠规则,规则是系统内基本的知识 达手段。在机器翻译的历史中存在有很
多的目标语言生成方法,这许多方法虽然各不相同,但本质上都是基于规则的,只是在规则
所 达的内容、规则的 达形式和对规则的使用方面有所不同而已。
本文主要介绍一个汉日机器翻译系统中日语生成的基本实现方法,重点考虑生成规则系
统的设计与实现。本文首先简述日语生成算法,然后介绍生成规则,其中包括规则描述语言
的设计,规则系统的组织等等,最后就日语生成过程中所遇到的一些问题进行讨论。
2. 日语生成算法
2.1 日语生成方法
在机器翻译的历史中有如下的译文生成方法:树构造转换生成、基于中间语言的生成、
基于词专家的生成、基于统计的生成、基于实例的生成以及基于模式的生成。本系统采用的
生成方法基本归结于树构造转换生成。
1
2
新宇等:日语生成规则系统的设计和实现
在机器翻译中,遵循自然语言生成的一 法则,译文的生成依赖于源语言的分析结果,
这个分析结果包含了源语言句子所要传达的大部分信息。而信息的选用则靠规则,规则是系
统内基本的知识 达手段。
汉语分析器产生的是一棵以句法语义的复杂特征集为结点标记的依存结构的多叉树,生
成算法以后根顺序遍历分析树,自底向上逐级生成,最后生成相应的汉语译文。
2.2 日语生成系统的总体结构
日语生成系统的系统结构框图如图1 所示,其中各模块作用如下:
l 共性规则库存放共性的语言学知识,
l 生成字典存放词的参数化信息以及词的一些特殊用法,
l 规则库维护工具主要负责共性规则的管理,
l 词典维护工具负责词典的管理,
l 规则解释器对共性规则和生成字典的个性规则进行解释,
l 生成算法则完成转换和生成工作。
汉语分析中间结果 生成算法 生成结果
规则解释器
您可能关注的文档
- 气候变化框架公约 - 20090324022620.pdf
- 气候变化框架公约 - 20090324032130.pdf
- 气动控制装置(control device) :控制气体.ppt
- 气升式光生物反应器培养裙带菜配子体的初步研究.pdf
- 气规范4..pdf
- 气象灾害的经济评估的几个方法学问题.pdf
- 气氛营造与快乐行销.ppt
- 气雾剂产品的开发及其生产制备方法专利集.pdf
- 氟化氢市场调研报告目录.doc
- 氟硼酸钾化学分析方法.doc
- 实施指南《GB_T41906 - 2022 超氧化物歧化酶活性检测方法实施指南解读》.docx
- 实施指南《GB_T41976 - 2022 停车设备智能控制与管理系统》实施指南.docx
- 实施指南《GB_T41979.5-2022 搅拌摩擦点焊》实施指南.docx
- 实施指南《GB_T42013-2022信息安全技术快递物流服务数据安全要求》实施指南.docx
- 实施指南《GB_T42101-2022 游乐园安全》实施指南.docx
- 新解读《GB_T 27920.1-2011数字航空摄影规范 第1部分:框幅式数字航空摄影》.docx
- 实施指南《GB_T41892-2022 智能船舶机械设备信息编码指南》实施指南.docx
- 实施指南《GB_T41908-2022 人类粪便样本采集与处理》实施指南.docx
- 实施指南《GB_T41977-2022 包装条码标准》实施指南.docx
- 实施指南《GB_T41979.2-2022 搅拌摩擦点焊铝及铝合金焊接接头设计》实施指南.docx
文档评论(0)