基于深度可分离卷积的汉越神经机器翻译方法.docxVIP

下载本文档

5
0
约3.37千字
约 4页
2023-07-29 发布于广东
举报
版权申诉

基于深度可分离卷积的汉越神经机器翻译方法.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于深度可分离卷积的汉越神经机器翻译方法近年来，神经装置的翻译。在汉越神经机器翻译模型中，可以对越南语这种拼音文字进行切分，使用切分后的语料进行模型训练，以降低翻译中的数据稀疏问题，这种方法已在英、法等西方拼音文字的翻译问题中被证明是十分有效的．越南语可以切分为多种不同粒度，除了词、字符等常见粒度切分外，越南语还存在音节粒度，每一个音节常常是一个有意义的单位，可以独立使用，这些单位又可作为构成多音节词的基础，如同汉语拼音一样，每一个音节可视为一个独立的“字”．根据不同粒度切分后的序列中包含了许多局部特征信息，这些信息对于NMT而言是十分有用的，而卷积神经网络的特点就是能够提取局部特征向量，同时还能保留特征之间的相对位置．相比传统卷积，深度可分离卷积是一种执行卷积运算更高效的方法，需要的参数更少，计算量也更小，往往可以使用更少的数据学到更好的表示，从而得到性能更好的模型．本文提出一种基于深度可分离卷积的汉越NMT方法．该方法首先根据越南语的语言特点，将越南语切分为词、音节、字符、子词4种不同粒度，通过切分降低低频词的数量．其次利用深度可分离卷积改进Vaswani等 1 局部特征，数据稀疏在NMT任务中，对语料进行切分是预处理过程中非常重要的一个步骤．语料中一个句子所包含的特征是由多个局部特征共同组成．在语料预处理阶段，句子切分的粒度越大，切分结果越能够保存更加完整的局部特征，但同时会加重数据稀疏的问题；句子切分的粒度越小，所包含局部特征越少，数据稀疏的问题却会得到一定程度的缓解．尤其在双语资源相对匮乏的汉越机器翻译任务中，切分粒度的把控就显得十分重要．越南语和汉语属于同一种孤立语言．在汉语中，单词不用空格区分，句子包括一系列连续的字符（包括标点符号）．在越南语中，相邻拼写的单词（音节）用空格隔开，标点符号位于拼写单词之后．同时越南语还是一种拼音文字，一些适用于西方文字的粒度切分同样适用于越南语．结合以上语言特点，本研究对越南语选取了词、音节、字符、子词4种不同的粒度切分来进行实验，各粒度切分示例如表1所示． 1.1 越南语分词处理现有的大多数NMT都以词为基本翻译单元，基于词的研究取得了全方位的发展，分词模型也变得更加简单有效，准确性很高．本研究采用已有的越南语分词工具包对越南语进行分词处理． 1.2 gang、区域音的对应关系越南语音节包括声母、韵母和声调3个部分．声母由23个辅音承担，韵母由介音（元音u）、主音（元音）和尾音（辅音韵尾）组成．声调包括平声（Thanh ngang）、锐声（Thanh s 越南语一共有11个单元音、23个双元音、12个三元音、25个辅音．如表2所示，根据韵母部分中元音的数量来称呼韵母类型为：单元音、二合元音、三合元音、单元音后附辅音、二合元音后附辅音、三合元音后附辅音，再由这些元音、辅音、声调组成音节，进而构成词．越南语中音节组合数量众多，大约有2 500个音节，但书写时使用空格隔开每一个音节，因此本研究利用空格对越南语音节进行切分处理，处理好的越南语音节就类似于汉语中的一个“字”． 1.3 两个独立词典 BPE BPE算法有两种应用方法：一是独立BPE，即构建源语言词典和目标语言词典这两个独立词典；二是两种语言共同生成一个词典的联合BPE．理论上后者效果好一点，可以保证源语言和目标语言分割的一致性．但是考虑到汉语和越南语并不属于拥有共享字母表的两种语言，所以本文采用独立BPE的方法，分别生成汉语词典和越南语词典． 1.4 改进的三级层次结构，和uk符号等5级层次结构，学生uk、或重音通常语言学上把词作为基本意义单位，因此在自然语言处理中常使用词作为基本的翻译单元，但使用字符作为翻译的基本单元有其独特的优势．字符可以加深语言间的层次结构，将词和句子的两级层次结构加深到字符、词和句子的3级层次结构．另外，使用字符切分粒度可以解决翻译中存在UNK符号的问题．越南语构词复杂，包括单音节词、复合词、重音叠韵词、偶合词、派生词等．NMT模型无法覆盖训练所有的词，所以UNK符号的问题一直存在于词级翻译模型中，但基本的越南语字符数量有限，而且任意越南语的词都是由字符序列组合而成．将字符粒度用于汉越NMT中，字符间的组合规则都由NMT模型自动学习，为翻译模型学习这种语言间的组合关系提供了经验数据． 2 nmt可根据深度分离 2.1 基于征抽样和特征融合的方法深度可分离卷积传统卷积的计算量为D 常规的卷积层中，需要同时进行特征抽取和特征融合的工作，参数的使用效率低且效果不理想．相反，深度可分离卷积把两步分离开来，先进行特征抽取，再进行特征融合，这样做可以充分利用模型参数进行表示学习，使用更少的参数，取得更好的效果． 2.2 nmt模型是用深度分离积累的本研究以Vaswani等模型所有的