五_语料库答案.ppt

3 语料的收集与加工——加工 语料库加工工具——用计算机软件辅助建库 3 语料的收集与加工——加工 双语(平行)语料库的对齐: 段落对齐 句子对齐 词对齐 短语对齐 双语(平行)语料库的句子对齐: 原文句子?译文句子:确定源语言文本中哪个/些句子和目标语言文本中哪个/些句子互为译文 3 语料的收集与加工——加工 3 语料的收集与加工——加工 (1)? (1)+ (2);(2)? (3) ? 两种语言的句子间对齐模式(x句:y句, x=1,2,…;y=1,2,…) 双语句子对齐的方法: 基于长度(length-based)的对齐方法 纯粹基于句子的长度来估计对齐可能性; 资源要求少,算法效率相对较高 基于词(word-based)的对齐方法 一般要依赖词典资源,算法效率相对较低 平均准确率在90%以上 3 语料的收集与加工——加工 Gale Church 基于长度的对齐方法: 定义了六种配对模式,在实际UBS语料库的分布频度为: 3 语料的收集与加工——加工 任一个双语句子对( Si, Tj ),S表示原文,T表示译文 S中任意一个字符在T中所对应的字符数是个随机变量X~N(c,V2) ? 由此定义随机变量δ来度量两个句子之间的长度差距关系: 随机变量δ~N(0,1) 此时句子Si与Tj对齐的可能性就可以表示为

文档评论(0)

1亿VIP精品文档

相关文档