- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Moses使用记录.doc
Moses 使用记录
特点
-基于短语的统计机器翻译方法 (Phrase-based Approach)
-基于混合网络的解码 (Confusion Network Decoding)
-基于要素的翻译模型 (Factored Translation Model)
考虑各种可能要素,并通过一系列的mapping来产生翻译结果。
链接
官方链接:/moses
关于Moses的summer workshop:/jhuws/?n=Projects.Tuning
邮件列表查询:/search?l=moses-support@q=
总体来讲,使用moses主要包括三个部分。(1)环境的安装;(2)语料的准备与处理,(3)系统的运行。这边只记录(2)(3)部分。
语料的准备与处理
3.1 语料的种类及格式
训练一个机器翻译系统需要三部分的语料。(1)测试集合(2)开发集合(3)测试集合。moses对语料的要求都是,要求源语言(f)和目标语言(e)分开放在两个文件,e与f文件中每一行的句子对应的,并且每一个句子都不是带任何标记的,这里将这种格式称为plain。
(1) 训练集
训练集通常只有一个参考答案,将训练集分为两个文件test.e test.f。文件的命名最好是前缀一样的。在使用测试命令时比较方便。
(2) 开发集
开发集可能会有多个参考答案,最好将不同参考答案的文件命名为ref0 ref1 ref2……因为在使用moses的mert命令时,是根据参考答案文件的前缀定位的,比如命令中的前缀是refprefix,则将自动查找参考译文refprefix0、refprefix1、refprefix2……
(3) 测试集
测试集的源语言要交由moses翻译,格式需要是plain,而翻译结果也是相对应的plain格式。而计算bleu可以采用对应的结果。通常采用的工具是mt-eval,他要求格式是sgm的。因此需要转换。
3.2 语料处理工具及命令
机器翻译系统对语料的格式都有一定的要求,而这个要求通常是不统一的,因此经常需要一些工具对语料进行处理。
(1) 格式转换
采用linux的命令iconv 如:
-c 表示去掉无效字符 –f 表原来的编码 –t 表示要转换的目标编码 –o 表示生成的目标文件
(2) 切分参考译文
通常我们拿到的译文是多个译文放在一个文件的。这个时候就需要对译文进行切分。如果原始译文文件的顺序是,先列出每个句子的第一种译文,然后第二种。。。就可以使用linux的命令split
-d 表示采用数字后缀,默认是字符后缀;-c 表示后缀长度;-l 表示切分长度,在这里可以是需要翻译的句子个数,srcfile 是原始文件,outpfix生成文件的前缀。
如果srcfile的长度是3000,则这条命令将生成 outprefix0、outprefix1、outprefix2
(3) 转换plain格式为sgm格式
采用实验室提供的文件ChangFormat:
Samplefile 通常采用源语言的src.sgm。srcsgm的格式通常是:
此命令将生成与sample格式类似的文件。
另外,moses也提供转换功能。
scripts/wrap-xml.perl
(4) 将词切分为字
在计算汉字的Bleu值的时候,是按字计算的,而翻译出来的结果通常是按词。因此需要将词切为字。可以采用实验室提供的splitUTF8Characters.pl
执行该命令就可以完成,切分任务。
(5) 语料处理
为能保证语料能够正确的处理。需要执行clean。使用脚本clean-corpus-n.perl。这个版本仅处理utf-8。只需修改开始的编码方式,改为gbk即可。
三 训练及抽短语
四 Tuning
五 解码器
实际上解码器还有很多参数可以配置。
1. 支持各种输入-inputtype 0
0 表示输入为普通文件
1 表示输入为混淆网络(Cofusion Net)
2 表示输入为lattice
Lattice 格式说明 下面举两例
2 分解了就是
2.支持加入标签-xml-input
echo np english=XiaMen厦门/np 经济 发展 | ./moses -xml-input exclusive -f moses.ini
echo np english=cn prob=0.01中国/np 经济 发展 | ./moses -xml-input inclusive -f moses.ini
五.注意事项
5.1 关于drop-unknown
训练时,
您可能关注的文档
- GRADE11PARENTMEETINGDEFIEUX.ppt-武汉枫叶国际学校.ppt
- GreatEssay-个人陈述-MSPhD.doc
- GRI指标中英文对照.doc
- GS1资料矩阵(DataMatrix).ppt
- GW工程公司薪酬改革方案设计-东北财经大学工商管理学院.doc
- hanggao.ppt.ppt
- HCV感染的流行病学-广州血液中心.ppt
- helphziee-lib-iel.ppt-杭州电子科技大学图书馆-电子邮件.ppt
- HighPerformanceLeadershipProgram高成效领导计划.ppt
- HKExtoProvideMoreDerivativeWarrantInformation.doc
- Ms.GuLihong,Xian-JanssenPharmaceutical,Ltd.西安杨森.ppt
- MS软件介绍.ppt
- n128712307488888.doc-中华民国消防设备师(士)协会.doc
- NationalGovernanceCapacityforGreenTransformation.docx
- new_03.ppt-efinance.org.cn.ppt
- new_09.ppt-E-FINANCE.ppt
- NH19A222-11外商投资企业提前终止办事指南.doc.doc.doc
- NIH下属的临床医学分支机构.ppt
- NONI单系统热泵热水机控制器技术规格书.doc
- NOU艺术监赏重点整理整理苏桓老师第四章音乐艺术监赏(一)音乐.doc
最近下载
- 天津财经大学2024届毕业生就业质量报告.pdf VIP
- 部编人教版五年级数学上册《小数乘法(全章)》PPT教学课件.ppt VIP
- 数字集成电路部分课后习题chapter11ex.pdf VIP
- 安全通信与安全通信标准EN50159.pdf VIP
- 消防安全管理方案.docx VIP
- 锂电池储能系统技术协议.docx VIP
- 四年级数学下册《每日一练》全52套.pdf VIP
- 2025年福建厦门海关口岸门诊部招聘检验检测岗8人笔试附带答案详解.docx VIP
- 部编版语文四年级上册全册教案.pdf VIP
- DB37_T 4614.2-2023 “爱山东”政务服务平台移动端 第2部分:运营管理规范.docx VIP
文档评论(0)