- 1、本文档共46页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
五_语料库资料
3 语料的收集与加工——加工 语料库加工工具——用计算机软件辅助建库 3 语料的收集与加工——加工 双语(平行)语料库的对齐: 段落对齐 句子对齐 词对齐 短语对齐 双语(平行)语料库的句子对齐: 原文句子?译文句子:确定源语言文本中哪个/些句子和目标语言文本中哪个/些句子互为译文 3 语料的收集与加工——加工 3 语料的收集与加工——加工 (1)? (1)+ (2);(2)? (3) ? 两种语言的句子间对齐模式(x句:y句, x=1,2,…;y=1,2,…) 双语句子对齐的方法: 基于长度(length-based)的对齐方法 纯粹基于句子的长度来估计对齐可能性; 资源要求少,算法效率相对较高 基于词(word-based)的对齐方法 一般要依赖词典资源,算法效率相对较低 平均准确率在90%以上 3 语料的收集与加工——加工 Gale Church 基于长度的对齐方法: 定义了六种配对模式,在实际UBS语料库的分布频度为: 3 语料的收集与加工——加工 任一个双语句子对( Si, Tj ),S表示原文,T表示译文 S中任意一个字符在T中所对应的字符数是个随机变量X~N(c,V2) ? 由此定义随机变量δ来度量两个句子之间的长度差距关系: 随机变量δ~N(0,1) 此时句子Si与Tj对齐的可能性就可以表示为条件概率: P(Match)为常数;P(δ|Match)根据下式进行估计: δ服从标准正态分布N(0,1),P(|δ|) 可通过查标准正态函数分布表或数值计算得到。 取对数: 记D(i,j) = Score(si,tj),D(i,j)是对两个句子对齐可能性的一个评估,可以理解为两个句子之间的距离。值越低,表示两个句子之间距离越近,因而对齐的可能性越高。 考虑不同的句子配对模式下的距离: d(x1,y1 ; 0,0) d(x1,y1; x2,0) d(x1,0 ; 0,0) d(x1,y1; 0,y2) d(0,y1; 0,0) d(x1,y1;x2,y2) 两个文本的最小距离可如下计算: 其中si,tj (i=1,2,…,I ; j=1,2,…,J) 分别是两个文本中的句子,算法初始时D(i,j) = 0 D(i,j) = min D(i,j-1) + d(0,tj ; 0,0) D(i-1,j) + d(si,0; 0,0) D(i-1,j-1) + d(si,tj ; 0,0) D(i-1,j-2) + d(si,tj ; 0,tj-1) D(i-2,j-1) + d(si,tj ; si-1,0) D(i-2,j-2) + d(si,tj ; si-1, tj-1) Gale Church (1993) 基于长度的对齐方法: GaleChurch 利用该算法对UBS和Canadian Hansard语料进行了对齐,准确率为96%; 以字符为单位度量句长比以单词为单位 好; 语言有关的参数c, v对结果影响不大。 基于词的句子对齐方法: 根据词汇对齐关系推导句子对齐关系 利用词汇共现的统计特性确定句子的对齐关系,再利用句子和这些词之间的包含关系确定句子的对齐关系 利用明显的词汇对齐关系来改进基于长度对齐方法 人名、地名、数字、日期等 1 什么是语料库 2 语料库的发展 3 语料的收集与加工 4 语料库的应用 5 小结 语料库的作用: 支持语言学研究和语言教学研究 支持NLP系统的开发 基于大规模语料库的语音识别; 基于大规模语料库的音字转换技术(中文输入); 基于大规模语料库的自动文本校对技术; 利用语料库训练HMM模型进行分词,词性标注,词义标注等; 基于语料库的句法分析; 基于语料库的机器翻译; 基于机器学习技术,通过语料库获取语言知识(搭配特征、句法规则等); 基于语料库的语言模型训练和语法模型评价; 支持NLP自动评测 基于大规模语料库的音字转换(汉字输入)技术: 拼音码输入汉字的问题:一音多字 从语言本身出发,利用大规模语料库训练N-gram模型,提高音字转换的正确率 原理:基于N-gram模型,对大规模、有拼音标注的语料库进行统计,获取N个词之间的同现概率。概率值最高的作为正确结果输出。 1 什么是语料库 2 语料库的发展 3 语料的收集与加工 4 语料库的应用 5 小结 * * * * * * 最具代表性的文本语料库是于1964年公布于世,其后又经过多次修订的Brown University Standard Corpu
您可能关注的文档
最近下载
- 牙齿健康和龋齿预防科普知识ppt(共67张PPT).pptx VIP
- 2024年10月 政法干警锻造新时代政法铁军专题研讨班发言材料.docx VIP
- 反恐验厂-危机管理和应急恢复计划.doc
- 2024.10 政法干警锻造新时代政法铁军专题研讨班发言材料.docx VIP
- 六年级上册快乐读书吧知识测试题及答案.pdf VIP
- 北京字节跳动科技有限公司运营模式分析及发展趋势预测研究报告.docx VIP
- 《财务风险管理—以乐视公司为例》10000字.docx
- 人教八年级上册物理《光的反射》PPT教学课件.pptx
- 信息资源管理专业毕业设计论文:信息资源管理在学校教育中的应用研究.docx VIP
- 网络安全项目网络建设方案.doc
文档评论(0)