词语对齐及其短语抽取模块的设计和实现.pptVIP

词语对齐及其短语抽取模块的设计和实现.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
词语对齐及短语抽取模块的设计与实现 词语对齐模块的实现 实现原理 具体实例 使用说明 实验结果 词语对齐模块的实现原理 基本思想 Giza++实现了基本的IBM统计翻译模型,但得到的对齐结果忽略了多对多及一对多的情况。为了解决Giza++词语对齐的问题,通常利用双向对齐的结果进行优化。 优化的方法采用了以两个方向对齐结果的交集为中心点,检查其上下左右(grow)及对角(diag)相邻的8个点,若在并集中,则作为扩展的对齐点加入对齐序列中。 词语对齐模块的实现代码 如何实现Heuristic alignment (Koehn et al.,2003,Pharoah的训练文档 ) Neighboring =((-1,0),(0,-1),(1,0),(0,1),(-1,-1),(-1,1),(1,-1),(1,1)) Align_Intersect=intersect(e2f,f2e); Align_Union=union(e2f,f2e); Heuristic(); Heuristic(): for english word e=0…..en for chinese word f=0…..fn if ( e aligned with f) for each neighboring point ( e-new,f-new): if ( ( e-new not aligned and f-new not aligned ) and (e-new,f- new) in Align_Union ) add alignment point ( e-new,f-new ) 使用方法的说明 输入: 文件:Giza++双向训练的对齐结果文件:从汉语到英语方向,从英语到汉语方向 (默认文件为当前目录下: f2e_giza_alignment.txt, e2f_giza_alignment.txt) 参数选择:在程序运行初始,可以选择输出5种不同的优化结果作为参数: F2E(汉语到英语的对齐结果) E2F (英语到汉语的对齐结果) Union(两个方向取并集) Intersect(两个方向取交集) Heuristic(将交集点向其周围的“邻居”进行扩展) 输出: 按照词语对齐的语料库的格式定义,以xml文件输出。(默认文件为当前目录下:****_Alignment.xml) 使用方法的说明 注意事项: 在进入Giza++训练之前,已将中文或英文大于100个词的句对过滤。所以在该模块默认的最大句长是100(全局变量 MAX). 在进行参数选择时,要按照提示中指定格式进行输入,要包含前面的代码和具体类别。 如: 5)Heuristic。 在产生对齐结果的过程中,每处理1000句,屏幕显示一个‘.’。 具体细节详见代码中注释。 词语对齐实验结果 训练集:IWSLT05_training(2万句对) 测试集:IWSLT05_test(506句) 三种对齐方法结果对比: 短语抽取模块 短语抽取的目的 模块定义 实现原理: 生成最大似然词汇化翻译表 短语抽取 计算概率 一些说明 模块定义 输入文件:词语对齐的语料库 输出文件:短语翻译概率表 功能说明:从词语对齐的语料库中抽取双语短语,并计算翻译概率 实现原理 本模块基本实现了PHARAOH的短语抽取方法。 基本思想: 利用词对齐生成最大似然词汇化词典; 抽取短语; 对每一个短语对计算4个概率。 生成最大似然词汇化翻译表 没有直接使用GIZA++的原因: 有的词条在GIZA++词典中找不到,会导致一些短语对的词汇化概率为0; GIZA++词典中没有w(c|NULL)和w(e|NULL)这两个概率值。 生成最大似然词汇化翻译表 生成思路: 将对齐的词对直接抽取出; 如果某个词没有与之对齐的翻译词,就认为它与NULL对齐; 计算同现次数,按照下面公式分别计算出w(e|f)和w(f|e),从而直接生成词汇化翻译表。 短语抽取 抽取条件:短语必须与词对齐相容 抽取方法: 提取对齐矩阵中的所有以对齐点为顶点的矩形,条件是与矩形所在行范围内的源词对齐的目标词也都在这个矩形的列范围内,反之亦然。 短语抽取 一个实例:         短语抽取 可以抽取出的短语为 中国 ||| China s ||| 0-0 0-1 中国 化工 ||| China s chemical ||| 0-0 0-1 1-2 中国 化工 工业 ||| China s chemical industry ||| 0-0 0-1 1-

文档评论(0)

smdh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档