Moses使用记录.docVIP

下载本文档

127
0
约4.51千字
约 6页
2017-02-16 发布于天津
举报
版权申诉

Moses使用记录.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Moses使用记录.doc

Moses 使用记录特点 -基于短语的统计机器翻译方法 (Phrase-based Approach) -基于混合网络的解码 (Confusion Network Decoding) -基于要素的翻译模型 (Factored Translation Model) 考虑各种可能要素，并通过一系列的mapping来产生翻译结果。链接官方链接：/moses 关于Moses的summer workshop：/jhuws/?n=Projects.Tuning 邮件列表查询：/search?l=moses-support@q= 总体来讲，使用moses主要包括三个部分。（1）环境的安装；（2）语料的准备与处理，（3）系统的运行。这边只记录（2）（3）部分。语料的准备与处理 3.1 语料的种类及格式训练一个机器翻译系统需要三部分的语料。（1）测试集合（2）开发集合（3）测试集合。moses对语料的要求都是，要求源语言(f)和目标语言(e)分开放在两个文件，e与f文件中每一行的句子对应的，并且每一个句子都不是带任何标记的，这里将这种格式称为plain。 (1) 训练集训练集通常只有一个参考答案，将训练集分为两个文件test.e test.f。文件的命名最好是前缀一样的。在使用测试命令时比较方便。 (2) 开发集开发集可能会有多个参考答案，最好将不同参考答案的文件命名为ref0 ref1 ref2……因为在使用moses的mert命令时，是根据参考答案文件的前缀定位的，比如命令中的前缀是refprefix，则将自动查找参考译文refprefix0、refprefix1、refprefix2…… (3) 测试集测试集的源语言要交由moses翻译，格式需要是plain，而翻译结果也是相对应的plain格式。而计算bleu可以采用对应的结果。通常采用的工具是mt-eval，他要求格式是sgm的。因此需要转换。 3.2 语料处理工具及命令机器翻译系统对语料的格式都有一定的要求，而这个要求通常是不统一的，因此经常需要一些工具对语料进行处理。 (1) 格式转换采用linux的命令iconv 如： -c 表示去掉无效字符 –f 表原来的编码 –t 表示要转换的目标编码 –o 表示生成的目标文件 (2) 切分参考译文通常我们拿到的译文是多个译文放在一个文件的。这个时候就需要对译文进行切分。如果原始译文文件的顺序是，先列出每个句子的第一种译文，然后第二种。。。就可以使用linux的命令split -d 表示采用数字后缀，默认是字符后缀；-c 表示后缀长度；-l 表示切分长度，在这里可以是需要翻译的句子个数，srcfile 是原始文件，outpfix生成文件的前缀。如果srcfile的长度是3000，则这条命令将生成 outprefix0、outprefix1、outprefix2 (3) 转换plain格式为sgm格式采用实验室提供的文件ChangFormat： Samplefile 通常采用源语言的src.sgm。srcsgm的格式通常是：此命令将生成与sample格式类似的文件。另外，moses也提供转换功能。 scripts/wrap-xml.perl (4) 将词切分为字在计算汉字的Bleu值的时候，是按字计算的，而翻译出来的结果通常是按词。因此需要将词切为字。可以采用实验室提供的splitUTF8Characters.pl 执行该命令就可以完成，切分任务。 (5) 语料处理为能保证语料能够正确的处理。需要执行clean。使用脚本clean-corpus-n.perl。这个版本仅处理utf-8。只需修改开始的编码方式，改为gbk即可。三训练及抽短语四 Tuning 五解码器实际上解码器还有很多参数可以配置。 1. 支持各种输入-inputtype 0 0 表示输入为普通文件 1 表示输入为混淆网络(Cofusion Net) 2 表示输入为lattice Lattice 格式说明下面举两例 2 分解了就是 2．支持加入标签-xml-input echo np english=XiaMen厦门/np 经济发展 | ./moses -xml-input exclusive -f moses.ini echo np english=cn prob=0.01中国/np 经济发展 | ./moses -xml-input inclusive -f moses.ini 五．注意事项 5.1 关于drop-unknown 训练时，