基于深度可分离卷积的汉越神经机器翻译方法.docxVIP

基于深度可分离卷积的汉越神经机器翻译方法.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于深度可分离卷积的汉越神经机器翻译方法 近年来,神经装置的翻译。 在汉越神经机器翻译模型中,可以对越南语这种拼音文字进行切分,使用切分后的语料进行模型训练,以降低翻译中的数据稀疏问题,这种方法已在英、法等西方拼音文字的翻译问题中被证明是十分有效的.越南语可以切分为多种不同粒度,除了词、字符等常见粒度切分外,越南语还存在音节粒度,每一个音节常常是一个有意义的单位,可以独立使用,这些单位又可作为构成多音节词的基础,如同汉语拼音一样,每一个音节可视为一个独立的“字”.根据不同粒度切分后的序列中包含了许多局部特征信息,这些信息对于NMT而言是十分有用的,而卷积神经网络的特点就是能够提取局部特征向量,同时还能保留特征之间的相对位置.相比传统卷积,深度可分离卷积是一种执行卷积运算更高效的方法,需要的参数更少,计算量也更小,往往可以使用更少的数据学到更好的表示,从而得到性能更好的模型. 本文提出一种基于深度可分离卷积的汉越NMT方法.该方法首先根据越南语的语言特点,将越南语切分为词、音节、字符、子词4种不同粒度,通过切分降低低频词的数量.其次利用深度可分离卷积改进Vaswani等 1 局部特征,数据稀疏 在NMT任务中,对语料进行切分是预处理过程中非常重要的一个步骤.语料中一个句子所包含的特征是由多个局部特征共同组成.在语料预处理阶段,句子切分的粒度越大,切分结果越能够保存更加完整的局部特征,但同时会加重数据稀疏的问题;句子切分的粒度越小,所包含局部特征越少,数据稀疏的问题却会得到一定程度的缓解.尤其在双语资源相对匮乏的汉越机器翻译任务中,切分粒度的把控就显得十分重要. 越南语和汉语属于同一种孤立语言.在汉语中,单词不用空格区分,句子包括一系列连续的字符(包括标点符号).在越南语中,相邻拼写的单词(音节)用空格隔开,标点符号位于拼写单词之后.同时越南语还是一种拼音文字,一些适用于西方文字的粒度切分同样适用于越南语.结合以上语言特点,本研究对越南语选取了词、音节、字符、子词4种不同的粒度切分来进行实验,各粒度切分示例如表1所示. 1.1 越南语分词处理 现有的大多数NMT都以词为基本翻译单元,基于词的研究取得了全方位的发展,分词模型也变得更加简单有效,准确性很高.本研究采用已有的越南语分词工具包对越南语进行分词处理. 1.2 gang、区域音的对应关系 越南语音节包括声母、韵母和声调3个部分.声母由23个辅音承担,韵母由介音(元音u)、主音(元音)和尾音(辅音韵尾)组成.声调包括平声(Thanh ngang)、锐声(Thanh s 越南语一共有11个单元音、23个双元音、12个三元音、25个辅音.如表2所示,根据韵母部分中元音的数量来称呼韵母类型为:单元音、二合元音、三合元音、单元音后附辅音、二合元音后附辅音、三合元音后附辅音,再由这些元音、辅音、声调组成音节,进而构成词. 越南语中音节组合数量众多,大约有2 500个音节,但书写时使用空格隔开每一个音节,因此本研究利用空格对越南语音节进行切分处理,处理好的越南语音节就类似于汉语中的一个“字”. 1.3 两个独立词典 BPE BPE算法有两种应用方法:一是独立BPE,即构建源语言词典和目标语言词典这两个独立词典;二是两种语言共同生成一个词典的联合BPE.理论上后者效果好一点,可以保证源语言和目标语言分割的一致性.但是考虑到汉语和越南语并不属于拥有共享字母表的两种语言,所以本文采用独立BPE的方法,分别生成汉语词典和越南语词典. 1.4 改进的三级层次结构,和uk符号等5级层次结构,学生uk、或重音 通常语言学上把词作为基本意义单位,因此在自然语言处理中常使用词作为基本的翻译单元,但使用字符作为翻译的基本单元有其独特的优势.字符可以加深语言间的层次结构,将词和句子的两级层次结构加深到字符、词和句子的3级层次结构.另外,使用字符切分粒度可以解决翻译中存在UNK符号的问题.越南语构词复杂,包括单音节词、复合词、重音叠韵词、偶合词、派生词等.NMT模型无法覆盖训练所有的词,所以UNK符号的问题一直存在于词级翻译模型中,但基本的越南语字符数量有限,而且任意越南语的词都是由字符序列组合而成.将字符粒度用于汉越NMT中,字符间的组合规则都由NMT模型自动学习,为翻译模型学习这种语言间的组合关系提供了经验数据. 2 nmt可根据深度分离 2.1 基于征抽样和特征融合的方法 深度可分离卷积 传统卷积的计算量为D 常规的卷积层中,需要同时进行特征抽取和特征融合的工作,参数的使用效率低且效果不理想.相反,深度可分离卷积把两步分离开来,先进行特征抽取,再进行特征融合,这样做可以充分利用模型参数进行表示学习,使用更少的参数,取得更好的效果. 2.2 nmt模型是用深度分离积累的 本研究以Vaswani等 模型所有的

文档评论(0)

186****7870 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档