GIZA++实验报告.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
GIZA实验报告

GIZA++ 实验报告 发表于2011-10-06 1.目标   1.2 利用平行双语语料库,通过 mkcls 构建 word classes。   1.3 利用平行双语语料库,通过 GIZA++ 进行 IBM Model 的训练。 2.实验准备    GIZA++ 是由 Franz Och 开发的 GIZA 的一个扩展,并包含了许多其他的特点。   2.2 mkcls    mkcls 是由 Franz Och 开发的一个训练词语聚类的工具。   2.3 平行双语语料库    汉英平行语料库,汉语语料需要切分,英语语料需要 tokenize   2.4 实验环境    Ubuntu 10.10 x86    g) gcc 4.4.5 3.实验步骤    从/p/giza-pp/downloads/list下载 GIZA++,此处使用是giza-pp-v1.0.7.tar.gz?,并解压到本地文件夹(默认为giza-pp)    老版本段 GIZA++ 不能被 gcc 4.3 或更高版本编译,属于一个 bug,而 Ubutu 10.10 默认安装的 gcc 4.4,有两种方法可以成功编译。    新版本的已经没有这个问题来,可以直接编译    (一)安装 g++-4.1: sudo apt-get install g++-4.1,修改 GIZA++-v2 里的 Makefile,将第5行 CXX=g++,替换为 CXX=g++-4.1    (二)修改 GIZA++-v2 中的 file_spec.h 的 37-49 行(仅针对1.0.4版本)     struct tm *local;     time_t t;     char *user;         char time_stmp[19]; //修正     char *file_spec = 0;     t = time(NULL);     local = localtime(t);     sprintf(time_stmp, “%04d-%02d-%02d.%02d%02d%02d.”, 1900 + local-tm_year,? (local-tm_mon + 1), local-tm_mday, local-tm_hour, local-tm_min, local-tm_sec); //修正     user = getenv(“USER”);    进入 giza-pp,运行命令 make,编译成功。    make 正常结束后,在 GIZA++-v2 和 mkcls-v2 目录下各生成了一些可执行文件。   3.2 构建 GIZA++ 所需的文件    a) 运行命令 ./plain2snt.out chinese english,将普通文本转化为 GIZA++ 格式    ? 生成的文件      ?chinese.vcb(english.vcb)       ? 单词编号       ? 汉语句子中的单词       ? 单词的出现次数     ?? chinese_english.snt(english_chinese.snt)       ? 每个句子对出现的次数       ? 汉语句子中的单词编号       ? 英语句子中的token编号       注: 0是保留给特殊的“空”token。    b) 运行命令     ./snt2cooc.out chinese.vcb english.vcb chinese_english.snt chn_eng.cooc     ./snt2cooc.out english.vcb chinese.vcb english_chinese.snt eng_chn.cooc     获得共线文件   3.3 构建GIZA++所需的mkcls文件    a) 运行命令     ./mkcls -pchinese -Vchinese.vcb.classes opt     ./mkcls -penglish -Venglish.vcb.classes opt     ? 参数设置      ? -n:表示训练迭代次数,默认1次      ? -p:需要聚类的已分词文本      ? -V:输出信息      ? opt:优化运行     ? 生成的文件      ? chinese.vcb.classes(english.vcb.classes)       ? 按字母表序的单词       ? 单词词类      ? chinese.vcb.classes.cats(english.vcb.classes.cats, )       ? 单词词类       ? 对应词类的一组单词

文档评论(0)

haihang2017 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档