多语种网站平行语料采集与对齐研究.docx

下载文档

0
0
约4.78千字
约 7页
2024-09-12 发布于湖北
举报
版权申诉
保障服务

多语种网站平行语料采集与对齐研究.docx

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

多语种网站平行语料采集与对齐研究

刘佳雨程南昌

摘要：丰富的平行语料库对提升机器翻译准确度意义重大，然而目前研究中缺乏有效的平行语料获取方法，本文提出一种从多语种网站中自动获取平行语料的方法，并且通过6个多语种网站的平行语料采集和对齐研究，验证通过多语种网站获取大规模平行语料具有较高的可行性，这说明通过多语种网站获取大规模平行语料具有较高的可行性。

关键词：多语种;新闻网站;平行语料;篇章对齐;机器翻译

：TP391.2：A：1007-9416（2020）09-0214-04

0引言

统计机器翻译通常需要大规模的平行语料来不断提高翻译的准确度，因此语料库的规模与持续扩充是提高机器翻译质量的重要因素。平行语料的人工标注难度很大，特别是小语种语料，而互联网上存在着大量多语平行语料资源，并且这些语料是持续增长的。如何通过网络爬虫技术和双语自动对齐技术从多语种网站采集并对齐语料，在机器翻译领域是一件值得研究的事。

1相关研究

1.1机器翻译的发展

Koehn[1]将机器翻译的过程定义为计算机自动将一种语言转化成具有相同意义的其他语言，机器翻译已经逐渐成为了互联网信息服务中不可或缺的一环。朱杰[2]指出人们普遍认为基于规则的方法和基于语料库的方法是机器翻译最常用的两大类方法。随着研究的深入，基于规则的方法逐渐暴露出质量低，成本高等缺点，基于语料库的方法开始流行。基于语料库的方法又可分为基于统计和基于实例两种，冯志伟[3]提到这两种方法都需要将语料库作为翻译训练的来源，通过大量的语料统计来进行翻译学习的数据获取。但在统计翻译模型面世很长一段时间内，语料的匮乏和缺失使得这种机器翻译的人工成本增高。之后通过基于序列的递归神经网络自动获取并记录词汇特征的方法出现，机器翻译在深度学习的发展中取得了突破性进展。

1.2平行语料库

机器翻译相关的语料库有平行语料、多语语料、可比语料这三种。平行语料指使用不同语言撰写且存在对应翻译关系的文本数据集。肖维青[4]研究发现双语平行语料库在机器翻译应用中的作用越来越重要。目前用于机器翻译的平行语料主要为多语或双语平行句对。语料的规模影响着机器翻译的质量，另一个影响机器翻译质量的语料因素是语料的纯净度。邵健[5]将建立平行语料库的方法总结为两种：一是从数据库或权威文档中挖掘语料，二是从双语网站获取并整理生成平行语料。平行语料库的建立主要是通过对已有数据库的改造与处理，在权威的多语种文献中提取可作为平行语料的语句。此外，随着双语网站的不断增多，从互联网获取平行语料成为了语料扩充的重要渠道。

1.3语料对齐

王斌[6]将语料对齐定义为确定源文本和目标文本是否互为翻译关系的过程。对于获取的原始语料存在噪音的问题，因为不能直接使用在机器翻译的模型训练中，所以需要通过篇章对齐等技术的处理，目前对齐主要思路是根据多语种语料间句子的特征寻找匹配度最高的句子，通过句子长度，词汇信息等因素来匹配最合适的句子。

2实验过程

2.1主要思路

选择主流官方媒体人民网，中国青年网，外交部官方网站等拥有多语种的网站作为采集目标，官方新闻网站在不同语种频道发布的新闻主要分为独立编辑新闻和翻译汉语新闻，根据需求进行篇章对齐的是后者。通过网页代码制定抓取规则，使用数据采集系统分别对上述网站的新闻进行抓取，分别选取其汉语、英语、日语、韩语、法语、俄语等多个不同语种频道的新闻。抓取内容包括标题布时间、内容等容易进行匹配的特征。

2.2互联网平行语料调研

目前互联网上的多语种平行语料主要有精准翻译语料、双语词条语料、多语种新闻网站平行语料。

精准翻译语料以双语词条语料多存在于网络词典中。词典语料的优点对齐精度最高，主要是对齐到词汇一级，但针对网络词典句子级采集有难度，而且例句之间有重复性，通过双语词典获取的通常是一对多关系，其语料来源为已有实体词典，更新频率慢。

双语词条语料主要是发布的双语对照新闻，以外交部发言人办公室官方微信公众号为例，在发布的例行记者发布会内容中为一对一翻译的双语新闻，这种平行语料质量高，可以直接作为机器翻译的语料，但是这种平行语料较少且大部分只有中英对照，数据缺乏规模和普遍性。

多语种新闻网站平行语料是本次实验所探究采集的语料，在国家级政府机构的新闻网站会分为不同的语种频道，一些新闻报道会在间隔较短的时间内以不同语言发布在对应网站。这些语料虽然不是精确到一对一翻译，但能够从相同事件的文本中获取机器翻译语料，同时数据每天更新，可以不断丰富平行语料库。

2.3平行采集

使用爬虫技术对选择的多语种网站进行抓取，数据从互联网采集到本地之后，将按照统一的标准进行数据分类，以.txt的格式存储在对应的文件夹中，通过设置对应的路径方便篇章对齐中文本数据的选取。

2.4篇章对齐

对采集的语料进

您可能关注的文档

文档评论（0）

183****9213 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

多语种网站平行语料采集与对齐研究.docx