- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
介绍生成规则体系的设计和在日语中的实践
摘要:本文介绍了一个基于转换翻译的汉日机器 中日语生成子系统的设计和实现。首先描述了一种基于格关系的汉语依存分析树,分析树结点记录语法语义以及格关系信息;然后,针对日语的特征,分析了日语生成中的主要问题,包括译词选择、用言活用形确定、助词添加等;给出基于规则的日语生成系统的组织结构,重点介绍生成规则系统的设计和实现。最后,给出规则描述的实例以及翻译实例,提出进一步改进本系统的初步想法。
?
关键词:人工智能 机器翻译 格语法 汉语分析 日语生成
?
Abstract:This paper presents a Japanese generation sub-system, which is used in a transfer-based Chinese-Japanesemachine translation system. The Chinese parsing tree is introduced first. It is a dependency tree based on the casegrammar. Syntactic, semantic and case information are combined into the nodes on the tree. Then, according to thecharacters of Japanese, we discuss some difficult issues in the process of Japanese generation, such as Japanese wordselection, word inflection and accompany particles generation. The architecture of the rule-based Japanese generationsystem is presented and the rule system for generation is described in detail. At last, some rule examples and transla-tion examples are given. And we discuss the future work for this translation system.
Key words:artificial intelligence; machine translation;case grammar;Chinese parsing;Japanese generation
?
一、前言
汉—外机器翻译技术的研究正成为国内外研究的热点。我们在多年的日—汉机器翻译系统研究与开发的基础上,本文试探性地对汉日机器翻译技术进行一些探讨,介绍在汉日机器翻译系统中对日语生成技术的研究与开发。目前的机器翻译方法通常有基于规则的树构造转换法和基于语料库的统计方法等[1,2,7]。本文采用的是传统的基于树构造转换的方法。它主要有两个步骤:对源语言进行分析,得到基于格关系的含有语法语义信息的树形中间结果,生成过程将它转换成一个等价的面向目标语的深层结构表示,再把它转换成目标语的表层结构,从而得到目标语。日语生成在日本已有一些研究,IBM日本研究院Taijiro等[10]曾经对一些技术手册进行英语到日语的翻译,日语生成采用的是基于转换方法。Sumumu等[11]则提出了实例转换和规则相结合的日语生成方法。日本大学的Hajime等[12]提出基于IPAL的日语生成技术。而Taro等[13]则利用基于纯统计的机器翻译方法,根据给定的源语言,计算出最大可能的日语输出。本文介绍一种基于汉语依存关系树的日语生成系统。文章首先介绍所基于的汉语分析算法和分析结果树;然后简单介绍日语语法,总结日语生成过程中的一些主要问题,最后,介绍日语生成系统的设计和实现。
二、基于格语法的汉语分析树在基于转换的机器翻译中,译文的生成依赖于源语言分析器所产生的分析结果。本文所描述的日语生成过程基于汉语分析所产生的分析结果,我们首先介绍所基于的汉语分析。我们在处理汉语过程中,针对汉语表达具有的层次性[8],从词汇—语义驱动出发,建立一个语言层次模型,对句子提供完整的描述。句法分析以动词为中心,采用动词的格框架以及其它一些语法语义信息(如时间、地点等),给出句子其它成分与动词之间的格关系[3],最终生成以主动词为根、基于格关系表示的依存关系树。图1给出了汉语句子“我给他打过电话”经过汉语分析后产生的分析结果。在如图1的汉语分析树中,树结点采用了多值标记函数[4],树上的一个结点对应若干个标记,这使得树形图上的每个结点都能记录足够多的语法语义信息和格关系信息,而树的根结点,还包含
文档评论(0)