- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
3 语料的收集与加工 —— 加工 语料库加工工具 —— 用计算机软件辅助建库 3 语料的收集与加工 —— 加工 双语 ( 平行 ) 语料库的对齐: ? 段落对齐 ? 句子对齐 ? 词对齐 ? 短语对齐 双语 ( 平行 ) 语料库的 句子 对齐: ? 原文句子 ? 译文句子:确定源语言文本中哪个 / 些句子和目标语言文本 中哪个 / 些句子互为译文 3 语料的收集与加工 —— 加工 3 语料的收集与加工 —— 加工 ? ( 1 ) ? ( 1 ) + ( 2 );( 2 ) ? ( 3 ) ? 两种语言的句子间对齐模式( x 句 :y 句 , x=1,2,…;y=1,2,… ) ? 双语句子对齐的方法: ? 基于长度( length-based )的对齐方法 纯粹基于句子的长度来估计对齐可能性; 资源要求少,算法效率相对较高 ? 基于词( word-based )的对齐方法 一般要依赖词典资源,算法效率相对较低 平均准确率 在 90% 以上 3 语料的收集与加工 —— 加工 Gale Church 基于长度的对齐方法: ? 定义了六种配对模式,在实际 UBS 语料库的分布频度为: 3 语料的收集与加工 —— 加工 ? 任一个双语句子对 ( S i , T j ) , S 表示原文, T 表示译文 ? S 中任意一个字符在 T 中所对应的字符数是个随机变量 X~N(c,V 2 ) ? 由此定义随机变量 δ 来度量两个句子之间的长度差距关系: 随机变量 δ ~N(0,1) 五 语料库 ? 1 什么是语料库 ? 2 语料库的发展 ? 3 语料的收集与加工 ? 4 语料库的应用 ? 5 小结 1 什么是语料库 ? 语料库 (corpus) :存放语言材料的仓库 ? 现代的语料库是指存放在计算机里的原始语料文本 或 经 过加工后带有语言学信息标注的语料文本。 ? 关于语料库的三点基本认识: ? 语料库中存放的是在实际使用中 真实 出现过的语言材 料; ? 语料库是 以计算机为载体 承载语言知识的基础资源; ? 真实语料需要经过 分析、处理和加工 ,才能成为有用 的资源。 1 什么是语料库 北京大学计算语言所富士通人民日报标注语料库样例: ? 历史 /n 将 /d 铭记 /v 这个 /r 坐标 /n : /w 北纬 /b 41.1 /m 度 /q 、 /w 东经 /b 114.3 /m 度 /q ; /w ? 人们 /n 将 /d 铭 记 /v 这 /r 一 /m 时刻 /n : /w 1998年 /t 1月 /t 10日 /t 11时 /t 50分 /t 。 /w ? [ 中国 /ns 政府 /n]nt 顺利 /ad 恢复 /v 对 /p 香港 /ns 行使 /v 主权 /n , /w 并 /c 按照/p “/w 一国两制/j ”/w 、/w “/w 港人治港 /l ”/w 、 /w 高度 /d 自治 /v 的 /u 方针 /n 保持 /v 香港 /ns 的 /u 繁荣 /an 稳定 /an 。 /w 1 什么是语料库 1 什么是语料库 London-Lund 英语口语语料库样例: ^what a_bout a cigar\ette# . / *((4 sylls))* / *I ^w\ont have one th/anks#* - - - / ^arent you .going to sit d/own# - / ^[/\m]# - / ^have my _coffee in p=eace# - - - / ^quite a nice .room to !s\it in ((actually))# / *^\isnt* it# / *^y/\es#* - - - / 1 什么是语料库 London-Lund 英语口语语料库部分标记: 语料库的分类 ? 生语料库:未经加工的,没有任何切分、标注标记的原始语料库 ? 熟语料库:经过加工,带有切分、标注标记的语料库 1 什么是语料库 语料库的分类: ? 口语语料 ? 书面语料 ? 共时语料 ? 历时语料 ? 平衡语料 ? 专门语料 ? 监控语料 ? 样本语料 语料库的分类: ? 生语料库:未经加工的,没有 任何切分、标注标记的原始语 料库 ? 熟语料库:经过加工,带有切 分、标注标记的语料库 1 什么是语料库 语料库与语言知识库: ? 语料库:以语言的真实材料为基础来呈现语言知识,反映语言单 位的用法和意义,基本以知识的原始形态表现 —— 语言的原貌; ? 语言知识库:由专家从大量的实例中提炼、抽象、概括出来的系 统的语言
文档评论(0)