五_语料库资料.ppt

下载文档 降价啦

1
0
约7.6千字
约 46页
2017-06-16 发布于湖北
举报
版权申诉
保障服务

五_语料库资料.ppt

1、本文档共46页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

五_语料库资料

3 语料的收集与加工——加工语料库加工工具——用计算机软件辅助建库 3 语料的收集与加工——加工双语(平行)语料库的对齐：段落对齐句子对齐词对齐短语对齐双语(平行)语料库的句子对齐：原文句子?译文句子：确定源语言文本中哪个/些句子和目标语言文本中哪个/些句子互为译文 3 语料的收集与加工——加工 3 语料的收集与加工——加工（1）? （1）+ （2）；（2）? （3） ? 两种语言的句子间对齐模式（x句:y句, x=1,2,…;y=1,2,…）双语句子对齐的方法：基于长度（length-based）的对齐方法纯粹基于句子的长度来估计对齐可能性；资源要求少，算法效率相对较高基于词（word-based）的对齐方法一般要依赖词典资源，算法效率相对较低平均准确率在90%以上 3 语料的收集与加工——加工 Gale Church 基于长度的对齐方法：定义了六种配对模式，在实际UBS语料库的分布频度为： 3 语料的收集与加工——加工任一个双语句子对( Si, Tj )，S表示原文，T表示译文 S中任意一个字符在T中所对应的字符数是个随机变量X~N(c,V2) ? 由此定义随机变量δ来度量两个句子之间的长度差距关系：随机变量δ~N(0,1) 此时句子Si与Tj对齐的可能性就可以表示为条件概率： P(Match)为常数；P(δ|Match)根据下式进行估计： δ服从标准正态分布N(0,1)，P(|δ|) 可通过查标准正态函数分布表或数值计算得到。取对数：记D(i,j) = Score(si,tj)，D(i,j)是对两个句子对齐可能性的一个评估，可以理解为两个句子之间的距离。值越低，表示两个句子之间距离越近，因而对齐的可能性越高。考虑不同的句子配对模式下的距离： d(x1,y1 ; 0,0) d(x1,y1; x2,0) d(x1,0 ; 0,0) d(x1,y1; 0,y2) d(0,y1; 0,0) d(x1,y1;x2,y2) 两个文本的最小距离可如下计算：其中si，tj (i=1,2,…,I ; j=1,2,…,J) 分别是两个文本中的句子，算法初始时D(i,j) = 0 D(i,j) = min D(i,j-1) + d(0,tj ; 0,0) D(i-1,j) + d(si,0; 0,0) D(i-1,j-1) + d(si,tj ; 0,0) D(i-1,j-2) + d(si,tj ; 0,tj-1) D(i-2,j-1) + d(si,tj ; si-1,0) D(i-2,j-2) + d(si,tj ; si-1, tj-1) Gale Church (1993) 基于长度的对齐方法： GaleChurch 利用该算法对UBS和Canadian Hansard语料进行了对齐，准确率为96%；以字符为单位度量句长比以单词为单位好；语言有关的参数c, v对结果影响不大。基于词的句子对齐方法：根据词汇对齐关系推导句子对齐关系利用词汇共现的统计特性确定句子的对齐关系，再利用句子和这些词之间的包含关系确定句子的对齐关系利用明显的词汇对齐关系来改进基于长度对齐方法人名、地名、数字、日期等 1 什么是语料库 2 语料库的发展 3 语料的收集与加工 4 语料库的应用 5 小结语料库的作用：支持语言学研究和语言教学研究支持NLP系统的开发基于大规模语料库的语音识别；基于大规模语料库的音字转换技术（中文输入）；基于大规模语料库的自动文本校对技术；利用语料库训练HMM模型进行分词，词性标注，词义标注等；基于语料库的句法分析；基于语料库的机器翻译；基于机器学习技术，通过语料库获取语言知识(搭配特征、句法规则等)；基于语料库的语言模型训练和语法模型评价；支持NLP自动评测基于大规模语料库的音字转换（汉字输入）技术：拼音码输入汉字的问题：一音多字从语言本身出发，利用大规模语料库训练N-gram模型，提高音字转换的正确率原理：基于N-gram模型，对大规模、有拼音标注的语料库进行统计，获取N个词之间的同现概率。概率值最高的作为正确结果输出。 1 什么是语料库 2 语料库的发展 3 语料的收集与加工 4 语料库的应用 5 小结 * * * * * * 最具代表性的文本语料库是于1964年公布于世,其后又经过多次修订的Brown University Standard Corpu