词语对齐及其短语抽取模块的设计和实现.pptVIP

下载本文档

9
0
约4.2千字
约 24页
2016-02-12 发布于安徽
举报
版权申诉

词语对齐及其短语抽取模块的设计和实现.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

词语对齐及短语抽取模块的设计与实现词语对齐模块的实现实现原理具体实例使用说明实验结果词语对齐模块的实现原理基本思想 Giza++实现了基本的IBM统计翻译模型，但得到的对齐结果忽略了多对多及一对多的情况。为了解决Giza++词语对齐的问题，通常利用双向对齐的结果进行优化。优化的方法采用了以两个方向对齐结果的交集为中心点，检查其上下左右(grow)及对角(diag)相邻的8个点，若在并集中，则作为扩展的对齐点加入对齐序列中。词语对齐模块的实现代码如何实现Heuristic alignment (Koehn et al.,2003，Pharoah的训练文档 ) Neighboring =((-1,0),(0,-1),(1,0),(0,1),(-1,-1),(-1,1),(1,-1),(1,1)) Align_Intersect=intersect(e2f,f2e); Align_Union=union(e2f,f2e); Heuristic(); Heuristic(): for english word e=0…..en for chinese word f=0…..fn if ( e aligned with f) for each neighboring point ( e-new,f-new): if ( ( e-new not aligned and f-new not aligned ) and (e-new,f- new) in Align_Union ) add alignment point ( e-new,f-new ) 使用方法的说明输入：文件：Giza++双向训练的对齐结果文件：从汉语到英语方向，从英语到汉语方向 (默认文件为当前目录下: f2e_giza_alignment.txt, e2f_giza_alignment.txt) 参数选择：在程序运行初始，可以选择输出5种不同的优化结果作为参数： F2E(汉语到英语的对齐结果） E2F (英语到汉语的对齐结果) Union(两个方向取并集) Intersect(两个方向取交集) Heuristic(将交集点向其周围的“邻居”进行扩展) 输出：按照词语对齐的语料库的格式定义，以xml文件输出。(默认文件为当前目录下：****_Alignment.xml) 使用方法的说明注意事项：在进入Giza++训练之前，已将中文或英文大于100个词的句对过滤。所以在该模块默认的最大句长是100(全局变量 MAX). 在进行参数选择时，要按照提示中指定格式进行输入，要包含前面的代码和具体类别。如： 5)Heuristic。在产生对齐结果的过程中，每处理1000句，屏幕显示一个‘．’。具体细节详见代码中注释。词语对齐实验结果训练集：IWSLT05_training(2万句对) 测试集：IWSLT05_test(506句）三种对齐方法结果对比：短语抽取模块短语抽取的目的模块定义实现原理：生成最大似然词汇化翻译表短语抽取计算概率一些说明模块定义输入文件：词语对齐的语料库输出文件：短语翻译概率表功能说明：从词语对齐的语料库中抽取双语短语，并计算翻译概率实现原理本模块基本实现了PHARAOH的短语抽取方法。基本思想：利用词对齐生成最大似然词汇化词典；抽取短语；对每一个短语对计算4个概率。生成最大似然词汇化翻译表没有直接使用GIZA++的原因：有的词条在GIZA++词典中找不到，会导致一些短语对的词汇化概率为0； GIZA++词典中没有w(c|NULL)和w(e|NULL)这两个概率值。生成最大似然词汇化翻译表生成思路：将对齐的词对直接抽取出；如果某个词没有与之对齐的翻译词，就认为它与NULL对齐；计算同现次数，按照下面公式分别计算出w(e|f)和w(f|e)，从而直接生成词汇化翻译表。短语抽取抽取条件：短语必须与词对齐相容抽取方法：提取对齐矩阵中的所有以对齐点为顶点的矩形，条件是与矩形所在行范围内的源词对齐的目标词也都在这个矩形的列范围内，反之亦然。短语抽取一个实例：　　　　　　　短语抽取可以抽取出的短语为中国 ||| China s ||| 0-0 0-1 中国化工 ||| China s chemical ||| 0-0 0-1 1-2 中国化工工业 ||| China s chemical industry ||| 0-0 0-1 1-