自然语言实验汇报.docxVIP

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
实验报告实验项目名称:利用Moses搭建中英机器翻译系统实验目的1 熟悉Moses开发环境2 掌握Moses代码编程方法3 了解如何搭建机器翻译系统4大量实践证明机器翻译技术可以成为科技翻译工作者的得力助手可以帮助他们翻译得更好、更快;5.就目前人类的技术和认知水平而言只能是构建一种可称之为“人机智能综合体”的机器翻译系统这也是我们今天可以见到许多系统被冠之以“人助机译”或“机助人译”的原因;6.翻译工作者对计算机分析处理语言过程的了解不但有助于提高自己的工作效率也有助于研究开发更好的机器翻译系统。因此翻译工作者了解一些机器翻译的情况只能是有百利而无一害。二、实验仪器及材料1.Moses测试平台2.来自老师:现代汉语切分、标注、注音语料库-1998年1月份样例与规范(北京大学)1998-01-2003版-带音(已标注语料库)语料库规范三、试验原理主要是通过下面四个方面:[1] 语料准备首先需要编程将汉语句子和英语句子分别从1500 句对中抽取出来存在两个文本文件中,1500 个汉语句子存放在文件chinese 中,1500个英语句子存放在english 中。每个句子一行,并且汉英对应句子的行号一一对应。然后,您需要对chinese 中的汉语句子进行切分,也就是切成一个个的汉语词。对于english 中的英语句子进行tokenize。之后english 用做语言模型的训练语料,chinese 和english 用做翻译模型的训练语料。[2] 构建语言模型1.语料预处理构建语言模型要用到的语料是english,但是需要对它进行一些改动。由于ISI RewriteDecoder 采用XML 文件格式作为输入文件,有一些标记如s和/s会用到。ISI RewriteDecoder 要求语言模型必须能够识别s和/s,把它当作一个句子的开始。为此,在构建语言模型时我们需要做两件事:(1)写一个Context Cue File(.ccs),让语言模型知道s和/s是标记,而不是词汇。(2)在训练语料中包含s和/s,这样在语言模型生成的词典中能包含s和/s这两个条件缺一不可。2.编译源代码按照下列要求: a) 总调用部分(主函数):moses-cmd/src/Main.cpp (The main function) b) 解码器初始入口部分(Initialize the decoder):    i. 参数设置:     moses/src/Parameter.cpp (specifies parameters)   ii. 模型数据加载:     moses/src/StaticData.cpp (contains globals, loads tables) c) 句子翻译处理部分(Process a sentence):   i. 解码器算法实现总调度:     Manager.cpp (implements the decoding algorithm)   ii. 翻译选项处理:     TranslationOptionCollection.cpp (contains translation options)   iii. 部分翻译处理:     Hypothesis.cpp(represents partial translation)?   iv. 包含翻译假设,实现剪枝:     HypothesisStack.cpp (contain viable hypotheses, implements pruning) d) 结果输出:moses-cmd/src/Main.cpp(Output results)   i. 输出最佳翻译结果:     moses-cmd/src/IOStream::OutputBestHypo (print best translation)   ii. n-best生成及输出:    (n-best lists generated in Manager.cpp, output in IOStream.cpp)3.生成语言模型将english 复制到bin 目录中,将其重命名为“a.text”。然后在a.text 中添加“s”和“/s”,最好是分别置于一个句子的首尾。注意和句子中的其他词保持至少一个空格。这样才能保证“s”和“/s”能出现在即将生成的词汇表中。输入命令“./text2wfreq a.text a.wfreq”,这样就会生成a.wfreq 文件。输入命令“./wfreq2vocab a.wfreq a.vocab”,这样就会生成a.vocab 文件。此时查看a.vocab 文件,会发现“s”和“/s”出现在词汇列表里面了。输入命令“./text2idngram -vocab a.vocab

文档评论(0)

jdy261842 + 关注
实名认证
文档贡献者

分享好文档!

1亿VIP精品文档

相关文档