融入词性信息的机器翻译研究.docVIP

下载本文档

15
0
约8.42千字
约 15页
2021-01-12 发布于北京
举报
版权申诉

融入词性信息的机器翻译研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

融入词性信息的机器翻译研究摘要：20世纪30年代左右，是机器翻译的思想问世的时代。在20世纪30年代，法国科学家G.B.Archuny提出了用机器翻译来代替人工翻译的思想。目前为止，机器翻译有越来越多显著的成果被各个科学家实现，同时各种新方法在各位科学家的努力之下层出不穷，由此也呈现出百花齐放的局面。目前机器翻译方面提出的最新方法是基于神经网络的机器翻译系统，也就是神经机器翻译。神经机器翻译模型通常属于编码器-解码器族，其具体原理是将源语句编码成固定长度向量，并从该向量解码从而生成翻译。神经机器翻译模型是以建立一个单一的神经网络为目的。建立完毕后，可以通过联合调整，来极大限度提高翻译的性能。本次研究采用的就是以编码器-解码器模型的神经网络机器翻译系统为基准系统，并在该基准系统中引入词性信息，搭建以某种词性出现的概率作为特征，在目标端添加词性，将词和词性进行联合比对。并最终将改进系统的翻译结果与基准系统的翻译结果进行比较，从而验证该方案的可行性。关键词：词性;神经机器翻译;RNN模型;融合第1章前言机器翻译(又称自动翻译)，是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程，主要研究方向有人工智能、自然语言处理等领域。使用计算机来实现自动转换不同的自然语言既作为机器翻译的主要目标之一，同时也作为信息传递所面临的在不同国家和民族之间的语言障碍问题的突破口的关键技术。机器翻译在促进民族团结、加强文化交流和推动对外贸易等方面有着举足轻重的意义。 20世纪40年代末，机器翻译的发展大约可以总结成两个大的阶段理性主义方法主导时期(1949-1992)和经验主义方法主导时期(1993-2016)。早期的机器翻译基本都采用的是理性主义方法，这种方法的原理是通过观察不同自然语言之间的转换规律，再以规则的形式来表示所翻译的知识(其中这部分是由人类专家所完成的)。理性主义方法在句法和语义等诸多深层次方面的实现较为精准，使得在自然语言的分析、转换和生成等方面具有较高质量的翻译结果。这种方法的弊端也很明显，即 1. 翻译知识获取难; 2. 开发周期长; 3. 人工成本高。这类困难已经成为了现在无法避免的主要问题，科学家们依然在探索合理的解决方案。近几年，随着互联网的兴起，尤其是大数据和云计算在近几年来发展迅速，机器翻译的主流在20世纪90年代以后渐渐地转变为经验主义方法。与理性主义方法不同，理性主义方法是以人为中心，而经验主义方法则是主张以数据为中心。目前，自然语言的转换过程都是依靠数学模型，来进行转换的。由于数学模型是在大规模多语言文本数据上进行自动训练，其训练集的覆盖面较为广泛，翻译结果质量可以有所保障。经验主义方法的代表则是统计机器翻译。统计机器翻译是通过隐结构(如词语对齐、短语切分、短语调序、同步文法等主要方法)来实现的。而对于翻译过程的描述，主要是利用语句的特征来刻画翻译规律。在翻译的最后部分，则是采用动态规划算法在指数级的搜索空间中通过特征的局部，从而可以实现多项式时间复杂度的高效翻译。但是，统计机器翻译也有着种种弊端 1. 翻译性能严重依赖于隐结构与特征设计; 2. 局部特征很难捕获到全局的依赖关系; 3. 对于数线性模型中难以处理的翻译过程中的线性不可分现象。以上种种现象现在依旧是统计机器翻译所面临的难题。科学家们依旧也在探索合理的解决方案。语言模型(Language Model)是一种用于描述语句结构的模型，其在自然语言处理领域有着重要的地位的。在2003年，Bengio尝试提出了一个新的概念神经网络概率模型(NPLM)。神经网络概率模型结合了神经网络(Neural Network)和语言模型，在不少翻译中取得了不错的应用效果，其翻译结果的质量都很高。而如此光景也不是很长，几年后，大家便不再满足研究简单的神经网络。这种情况则是由又一出色表现由Mikolov提出的循环神经网络语言模型(RNNLM)和word2vec所影响的，自此开始，基于深度学习的神经网络开始兴起。基于深度学习的神经网络在许多领域得到了广泛的应用(例如图像识别领域、语音识别等等)。除此之外，在其它领域内依旧有着出色的建树。例如在自然语言处理任务(NLP)上如语言模型、推荐系统等领域，深度学习依旧有着出色的表现。至于基于深度学习的神经网络具有如此强大能力的原因，则是因为通过训练数据得到数据的抽象表示是神经网络本身的优点。综上所述，归根到底总结起来，就是具有很强的泛化能力。从这以后，深度学习的研究热潮便保持不下。在这种热潮的影响下，很快便渗透到了各个自然语言处理的