- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
现语料库预处理及翻译后处理模块的设计与实现
* * 预处理的位置 在训练翻译模型之前,对语料的预处理过程是必须的,比如中文的分词 * 大小写同时存在,导致多种形式的词 a-an * * * 这里所作的预处理工作是基础的预处理 * * * * * * * * * * * . . 语料库预处理及翻译后处理模块的设计与实现 张大鲲 孙乐 中国科学院软件研究所 中文信息处理中心 2006-10-17 * . * 概要 介绍 丝路1.0系统 语料库预处理 功能定义 实现 使用说明 翻译后处理 我们的相关工作 * * 预处理和后处理 语言相关的 分词:中文,日文 词形分析:阿拉伯语,德语 繁琐且重要 数据稀疏问题 “中国 ”→“中国” It is → it is 以规则方法处理为主 a apple → an apple * 预处理和后处理 预处理包括 统一字符编码(Big5, GBK, UTF-8…) 繁简转换(處罰-处罚) 分词 全角空格“ ” 数词,时间词,命名体 …… 后处理包括 句首字母大写 a → an 去掉重复词(… of of …) 动词形式的调整 未登录词处理(查词典,转成拼音) …… * 丝路1.0系统 预处理 中文分词 中文A3区全角字符转换为半角字符 英文切分 英文句首字母大写还原 后处理 句首字母大写 训练语料库 训练语料库预处理 分词的训练语料库 词语对齐 词语对齐的语料库 短语抽取 短语翻译概率表 汉语切分工具 英语切分工具 语料库格式转换 规范的训练语料库 …… * 丝路1.0系统的预处理 功能定义 输入 双语句对齐语料 输出 可用于GIZA++词对齐训练的语料 * 实现 中文分词 调用开源工具ICTCLAS 中文A3区全角字符转换 全角符号A-Z,a-z,0-9 半角符号A-Z, a-z, 0-9 例: 中文分词模块调用开源工具ICTCLAS 处理后:中文 分词 模块 调用 开源 工具 ICTCLAS 例: 年份经常写成2006 处理后:年份经常写成2006 * 实现 英文切分 对英文切分工具tokenizeE.perl.tmpl进行C++代码转写 /ws99/projects/mt/toolkit/ 英文句首字母大写还原 取句首词出现次数多的形式 例:I,China, we, the, it, … 例: Mr. and Mrs. shouldnt be separated. 处理后:Mr. and Mrs. shouldn t be separated . * 使用说明 独立模块,利用批处理文件组合 支持多文档处理 EnglishToken.exe File1 File2 ... 英文句首词转换列表 保留以便查看 * 输出后处理 对解码器“翻译”的英文句子进行处理 包括 首字母大写 不需要考虑句中词的大小写问题 * 概要 介绍 丝路1.0系统 语料库预处理 功能定义 实现 使用说明 翻译后处理 我们的相关工作 * 基于非连续短语的模型 带有间隔的短语 只允许存在一个非终结符 turn … on 在短语的层次上进行处理 和…完全不同 ? it’s completely different from … 与层次型短语方法相似(Chiang 2005) 短语数量少,效率占优 * 实验结果 NIST BLEU GTM mWER mPER 对话 Pharaoh 6.3305 0.2082 0.6607 0.7083 0.5549 层次型 6.6131 0.2153 0.6699 0.6653 0.5321 非连续短语 6.6580 0.2169 0.6721 0.6654 0.5304 篇章 Pharaoh 5.6356 0.1186 0.6656 0.8427 0.5886 层次型 6.0456 0.1371 0.6419 0.7683 0.5748 非连续短语 6.0486 0.1381 0.6401 0.7689 0.5761 * 实验结果 基本短语 扩展短语 层次型 18,461,690 26,566,684 非连续短语 16,306,326 * 基于非连续短语的模型 短语数量少(61%) 短语类型简单 处理效率占优 BLEU提高(对话1个百分点,篇章2个百分点) 仍然不能从根本上解决复杂句子的翻译 参加2006年NIST机器翻译评测 * 结论 语料预处理和翻译后处理是一项繁琐且重要的工作 在丝路1.0系统中实现了预处理和后处理的基础工作 实现了基于非连续短语的解码系统 仙人掌(Cactus) * 谢谢! * . . * * * 预处理的位置 在训练翻译模型之前,对语料的预处理过程是必须的,比如中文的分词 * 大小写同时存在,导致多种形式的词 a-an * * * 这里所作的预处理工作是基础的预处理 * *
您可能关注的文档
最近下载
- 《九年级学生数学典型错题的成因及对策研究》实施方案.docx
- 建设工程施工专业分包合同示范文本GF-2003-0213.pdf VIP
- 变废为宝演绎精彩——初中数学易错题归因之我见 .pdf VIP
- 个人纪律作风自查报告.docx VIP
- 错题归因法解析(中小学生教育).pptx VIP
- 城市地铁车辆车钩缓冲装置行业技术规范 - 中国城市轨道交通协会.pdf VIP
- 537初中数学学生的典型错题成因及防范措施的研究的结题报告.pptx VIP
- CNCA-CURC-07:2019 城市轨道交通装备产品认证实施规则 特定要求—城市轨道交通车辆车钩缓冲装置.pdf VIP
- 校园流感防控技术操作指南(简易版、完整版)说明书.pdf
- LD350变频器说明书V2.0.pdf VIP
原创力文档


文档评论(0)