网站大量收购独家精品文档,联系QQ:2885784924

基于Guwen-UniLM的相邻子句篇章级文言文机器翻译.pdf

基于Guwen-UniLM的相邻子句篇章级文言文机器翻译.pdf

  1. 1、本文档共60页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

摘要

随着时代变迁和近年来规范现代汉语的普及,文献古籍已经不再易于阅读。

这些古籍承载了中华民族数千年来凝聚的民族智慧和民族精神。为了重新让这些

以文言文写就的历史文献“活跃”起来,高质量的、大规模的古文翻译十分关键。

虽然人工翻译是整理文献古籍的一种方法,但成本极高。且随着近年来深度学习

的高速发展为机器翻译提供了技术和理论支持,使得大规模文言文翻译和数字化

成为了可能。尽管如此,目前的机器翻译模型仍然存在一些问题。例如,由于缺

乏高质量的平行语料,机器翻译的效果并不理想。此外,现有的机器翻译模型往

往只考虑句子级别的翻译,而忽视篇章信息。这导致针对文言文机器翻译任务的

研究发展缓慢。

为了促进文言文古籍数字化工作的发展,本文构建了一批高质量的句子级和

篇章级平行语料。同时,本文提出了一种新的简洁的篇章级处理方法,并在多个

经典神经网络模型和预训练模型中对该处理方法进行验证。通过这些工作,本文

取得了一定的研究成果,其中主要贡献可总结为以下三点:

1)构建含上下文的资治通鉴平行语料并提出相邻子句篇章级处理方法。在

这项工作中,本文成功构建了句子级、多分解度篇章级和相邻子句篇章级平行语

料。为了更好地利用篇章的上下文信息,本文提出了一种简洁的相邻子句篇章级

处理方法。实验结果表明,这种处理方法可以更好地帮助模型理解上下文文本。

2)探究Seq2Seq(BiLSTM)、Transformer文言文-现代文翻译。本文基于

常见端到端机器翻译模型Seq2Seq(BiLSTM)和Transformer,探究了不同语料

规模、是否分词、古文历时变迁、文本风格等方面对机器翻译性能的影响。实验

结果表明目前训练语料的规模还不足以支持训练性能稳定的翻译模型,所以本文

后续考虑使用预训练模型以解决上述问题。鉴于以往实验语料大多采用上下文无

联系的句子级平行语料作为训练语料,而上下文信息对于翻译而言固然会产生一

定影响,受其启发,本文后续将使用篇章级处理的语料进行相关实验。

3)实现Guwen-UniLM与篇章级的结合。本文首次提出将Guwen-UniLM预

训练模型与篇章级语料结合起来,与传统Seq2Seq(BiLSTM)、Transformer及

非针对文言文预训练模型(BERT,RoBERTa)相比,在资治通鉴语料上实现了

最好翻译效果。

总结来说,本文首先使用传统端到端机器翻译模型进行文言文-现代文翻译

探究,探究结果指明模型存在语料规模不足及语料未考虑上下文信息的问题。针

I

对上述两个问题,本文使用预训练模型进行相关实验并提出了结合篇章级语料与

Guwen-UniLM预训练模型的方法,实验结果表明该方法对翻译质量有提升作用。

关键词:文言文-现代文机器翻译;篇章级机器翻译;上下文句子表示;Guwen-

UniLM

II

Abstract

Withthechangesofthetimesandthepopularizationofstandardizedmodern

Chineseinrecentyears,ancientliteratureisnolongereasytoread.Theseancient

bookscarrythenationalwisdomandnationalspiritcondensedbytheChinesenation

forthousandsofyears.Inordertorevitalizethesehistoricaldocumentswrittenin

classicalChinese,high-quality,large-scaletranslationofancientChineseiscrucial.

Althoughhumantranslationisamethodofsortingoutancient

文档评论(0)

136****6583 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:7043055023000005

1亿VIP精品文档

相关文档