2008年BJUTMTG漢英机器翻译系统技术报告.pptVIP

2008年BJUTMTG漢英机器翻译系统技术报告.ppt

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2008 年BJUT-MTG 汉英机器翻译系统技术报告 报告人 李雁鹏 yanpenglee@emails.bjut.edu.cn 北京工业大学机器翻译组 2008-11-27 概要 系统简介 预处理、对齐、短语抽取 倒排索引 评测的实验过程 评测结果分析 系统简介-系统结构 预处理(1) 中文预处理 分词:SEGSDK (由Mandel Shi开发) A3全角字符到半角字符: BJUT- BJUT 英文预处理 句首大写字母的大小写统计转换: We are – we are 标点符号和单词间的空格插入: end. – end□. 输入:评测所提供的部分训练语料 输出:可用于词语对齐的语料 预处理(2) 切分标注模块SEGSDK1.20介绍 由Mandel Shi开发 支持Win平台和Linux平台 汉字简繁体输入的切分、标注和命名实体识别 缺点:长句子会出错,因此需要按标点断开长句为短句 例: 词语对齐训练 利用统计机器翻译工具GIZA++ 输入:预处理后的语料 输出:词语对齐关系 例: 短语抽取 用中科院计算所的“丝路”1.0抽取短语 将获取的对齐关系转换成短语抽取要求的格式 调用短语抽取工具进行短语抽取 利用计算短语翻译概率工具去除重复的短语抽取 建立倒排索引-1 抽取出的短语数量很大:百万-千万条 常用的方法:Hashmap,效率高但需要很多内存 倒排索引可以使查找短语更有效率 倒排索引的核心:汉字词语为词条的词典,一般词条只有几万条 建立倒排索引-2 倒排词典的格式 汉语词语 出现词语的短语数量 短语序号桶的桶号数组 词典中不直接存短语序号,而是存由短语序号构成的“序号桶”的桶号 序号桶的格式 桶号 数组:以短语序号,词在短语中的位置为单元 建立倒排索引-3 实现 词典、桶都是文件 桶号是文件偏移量 – 方便快速定位 建立索引例 短语文件中序号为833748的行: 宇宙 卫星 被 用来 快速 传送 长途电话 。 ||| space satellite is used to speed long distance call . ||| 1 0 1 0 建立倒排索引-4 序号为833748的短语在倒排词典中对应如下词条 桶文件中,在对应的桶号数组中必然有833748号短语的记录 如:112570688 833748,0 建立倒排索引-5 在汉英翻译系统中,很小的倒排词典常驻内存,通过文件偏移量访问桶文件 由于记录了词语在短语中的位置,选择短语时不需要再访问抽取的短语文件 其它辅助文件 各个短语有几个词语的短语长度文件 - 常驻内存 短语号对应短语文件偏移量的短语偏移文件 - 常驻内存 抽取的短语文件 - 建索引时读取,翻译做最后替换时读取 建立倒排索引-6 时间性能 建立倒排索引:863的360万条短语,用时5分6秒 CWMT08汉英新闻4014句翻译,用时14分16秒 测试环境:CPU主频1.8GHz, 内存1GB 问题 高频词引起性能下降 倒排索引建在词语上,依赖中文词切分:短语对齐到词语,翻译时必须保证正确切分成同一个词语。 评测的实验过程 从测试数据XML文件中抽取原文句子 利用机器翻译系统逐个句子翻译 人工干预:向系统提供人名、地名和机构名等专名约2000多个,例如 翻译结果转编码,填入测试结果格式的XML中 评测结果分析 评测结果 成绩最差的原因 最重要的原因是解码器的设计和实现还不完善 抽取的单词和短语规模小 没考虑目标语言英语的特性处理:性、数、格、时态、语态、否定等 没有语序调整,翻译结果的后处理不完善 转变为动力,努力学习和改进,向大家学习! 谢谢大家! * * 训练语料库 预处理模块 词语对齐模块 短语抽取模块 建倒排索引 倒排索引 汉语分词模块 评测测试集文件 句子提取 解码器 结果文件生成 评测结果文件 2006年 , 中国 化工 工业 保持 稳定 增长 。 2006年,中国化工工业保持稳定增长。 1:1 2:2 3:2 4:3 5:4 5:6 5:10 5:11 7:5 10:9 11:7 12:12 28 . 委员会 对 许多 事项 表示 的 关切 有 同感 。 28 . The Committee sympathized with many of the concerns expressed . 508 传送1277 快速 111263728 4635 用来 102833520 419 卫星 112570688 188 宇宙29069 被19 长途电话 短语序号桶的桶号数组 出现词语的短语数量 汉语词语 Beiji

文档评论(0)

qianqiana + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5132241303000003

1亿VIP精品文档

相关文档