Moses使用记录.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Moses使用记录.doc

Moses 使用记录 特点 -基于短语的统计机器翻译方法 (Phrase-based Approach) -基于混合网络的解码 (Confusion Network Decoding) -基于要素的翻译模型 (Factored Translation Model) 考虑各种可能要素,并通过一系列的mapping来产生翻译结果。 链接 官方链接:/moses 关于Moses的summer workshop:/jhuws/?n=Projects.Tuning 邮件列表查询:/search?l=moses-support@q= 总体来讲,使用moses主要包括三个部分。(1)环境的安装;(2)语料的准备与处理,(3)系统的运行。这边只记录(2)(3)部分。 语料的准备与处理 3.1 语料的种类及格式 训练一个机器翻译系统需要三部分的语料。(1)测试集合(2)开发集合(3)测试集合。moses对语料的要求都是,要求源语言(f)和目标语言(e)分开放在两个文件,e与f文件中每一行的句子对应的,并且每一个句子都不是带任何标记的,这里将这种格式称为plain。 (1) 训练集 训练集通常只有一个参考答案,将训练集分为两个文件test.e test.f。文件的命名最好是前缀一样的。在使用测试命令时比较方便。 (2) 开发集 开发集可能会有多个参考答案,最好将不同参考答案的文件命名为ref0 ref1 ref2……因为在使用moses的mert命令时,是根据参考答案文件的前缀定位的,比如命令中的前缀是refprefix,则将自动查找参考译文refprefix0、refprefix1、refprefix2…… (3) 测试集 测试集的源语言要交由moses翻译,格式需要是plain,而翻译结果也是相对应的plain格式。而计算bleu可以采用对应的结果。通常采用的工具是mt-eval,他要求格式是sgm的。因此需要转换。 3.2 语料处理工具及命令 机器翻译系统对语料的格式都有一定的要求,而这个要求通常是不统一的,因此经常需要一些工具对语料进行处理。 (1) 格式转换 采用linux的命令iconv 如: -c 表示去掉无效字符 –f 表原来的编码 –t 表示要转换的目标编码 –o 表示生成的目标文件 (2) 切分参考译文 通常我们拿到的译文是多个译文放在一个文件的。这个时候就需要对译文进行切分。如果原始译文文件的顺序是,先列出每个句子的第一种译文,然后第二种。。。就可以使用linux的命令split -d 表示采用数字后缀,默认是字符后缀;-c 表示后缀长度;-l 表示切分长度,在这里可以是需要翻译的句子个数,srcfile 是原始文件,outpfix生成文件的前缀。 如果srcfile的长度是3000,则这条命令将生成 outprefix0、outprefix1、outprefix2 (3) 转换plain格式为sgm格式 采用实验室提供的文件ChangFormat: Samplefile 通常采用源语言的src.sgm。srcsgm的格式通常是: 此命令将生成与sample格式类似的文件。 另外,moses也提供转换功能。 scripts/wrap-xml.perl (4) 将词切分为字 在计算汉字的Bleu值的时候,是按字计算的,而翻译出来的结果通常是按词。因此需要将词切为字。可以采用实验室提供的splitUTF8Characters.pl 执行该命令就可以完成,切分任务。 (5) 语料处理 为能保证语料能够正确的处理。需要执行clean。使用脚本clean-corpus-n.perl。这个版本仅处理utf-8。只需修改开始的编码方式,改为gbk即可。 三 训练及抽短语 四 Tuning 五 解码器 实际上解码器还有很多参数可以配置。 1. 支持各种输入-inputtype 0 0 表示输入为普通文件 1 表示输入为混淆网络(Cofusion Net) 2 表示输入为lattice Lattice 格式说明 下面举两例 2 分解了就是 2.支持加入标签-xml-input echo np english=XiaMen厦门/np 经济 发展 | ./moses -xml-input exclusive -f moses.ini echo np english=cn prob=0.01中国/np 经济 发展 | ./moses -xml-input inclusive -f moses.ini 五.注意事项 5.1 关于drop-unknown 训练时,

文档评论(0)

18273502 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档