3 语料的收集与加工——加工 语料库加工工具——用计算机软件辅助建库 3 语料的收集与加工——加工 双语(平行)语料库的对齐: 段落对齐 句子对齐 词对齐 短语对齐 双语(平行)语料库的句子对齐: 原文句子?译文句子:确定源语言文本中哪个/些句子和目标语言文本中哪个/些句子互为译文 3 语料的收集与加工——加工 3 语料的收集与加工——加工 (1)? (1)+ (2);(2)? (3) ? 两种语言的句子间对齐模式(x句:y句, x=1,2,…;y=1,2,…) 双语句子对齐的方法: 基于长度(length-based)的对齐方法 纯粹基于句子的长度来估计对齐可能性; 资源要求少,算法效率相对较高 基于词(word-based)的对齐方法 一般要依赖词典资源,算法效率相对较低 平均准确率在90%以上 3 语料的收集与加工——加工 Gale Church 基于长度的对齐方法: 定义了六种配对模式,在实际UBS语料库的分布频度为: 3 语料的收集与加工——加工 任一个双语句子对( Si, Tj ),S表示原文,T表示译文 S中任意一个字符在T中所对应的字符数是个随机变量X~N(c,V2) ? 由此定义随机变量δ来度量两个句子之间的长度差距关系: 随机变量δ~N(0,1) 此时句子Si与Tj对齐的可能性就可以表示为
您可能关注的文档
最近下载
- 江苏中考历史历年真题含答案 (32) .pdf VIP
- 2023-2025历年高考英语必备高频词汇800词精选(真题版).docx
- 18医疗器械售后服务管理制度.docx VIP
- 全国青少年机器人技术等级考试(三级)试题.doc VIP
- 10 荀径-列控中心基本原理和功能.ppt
- 湖南省三湘名校教育联盟2024-2025学年高一下学期期中考试 英语试卷含答案.docx VIP
- 2026年江西省景德镇市地理生物会考真题试卷+答案.docx VIP
- 机器人等级考试(三级)模拟题.pdf
- GB 50058-2014 爆炸危险环境电力装置设计规范.docx VIP
- 2026年江西省景德镇市初二地理生物会考考试题库(附含答案).docx VIP
原创力文档

文档评论(0)