- 哈工大社会计算与信息检索研究中心.ppt

- 哈工大社会计算与信息检索研究中心.ppt

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
双语语料库段落重组对齐方法研究李维刚刘挺王震李生哈工大信息检索研究室主要内容引言方法结果讨论构建双语语料库机器翻译和跨语言检索解决人类的不同语言之间的障碍双语资源给机器翻译和跨语言检索提供了有力的支持尤其是双语语料库构建双语语料库英汉双语语料库是一项十分有意义的工作真实双语文本的特征网络资源丰富篇章级对齐内容分散格式复杂风格各异目前的问题不同的对齐精度段落句子词和短语的对齐上一级的对齐是下一级对齐的基础经过统计发现以上的电子文本中的段落并不对应或者没有明显的段落标记段落对齐和段落重组对齐段落对齐

双语语料库段落 重组对齐方法研究 李维刚 刘挺 王震 李生 哈工大信息检索研究室 2003-8-1 主要内容 引言 方法 结果 讨论 构建双语语料库 机器翻译和跨语言检索解决人类的不同语言之间的障碍 双语资源给机器翻译和跨语言检索提供了有力的支持,尤其是双语语料库 构建双语语料库(英汉双语语料库)是一项十分有意义的工作 真实双语文本的特征 网络资源丰富 篇章级对齐 内容分散 格式复杂 风格各异 目前的问题 不同的对齐精度 段落、句子、词和短语的对齐 上一级的对齐是下一级对齐的基础 经过统计发现90%以上的电子文本中的段落并不对应或者没有明显的段落标记 段落对齐和段落重组对齐 段落对齐是进行对齐加工的第一步 对段落对齐研究的很少 段落对齐的目的是句子对齐 段落重组对齐是打破原有的段落标记,对篇章进行重新分段,仅仅在形式上对篇章进行对齐 句子对齐 基于长度的句子对齐 长句对应的译文长,短句对应译文短 根据长度的不同 单词个数-Brown et al. (1991c) 字符的个数-Gale and Church (1993) 基于词典的句子对齐 段落重组对齐(1) 自动分段对齐研究(中科院计算所) 将原有的段落合并 通过汉英词汇对之间的特征比较,包括词的出现频率、字节偏移量、出现间隔向量 找到可以用于分段的锚点词汇对 通过锚点词所在句子的匹配获得锚点句子进行分段 段落重组对齐(2) 适合含有较多高频固定词的双语文本 适合于术语提取 数据稀疏(较少高频固定词) 需要分词等预处理 主要内容 引言 方法 结果 讨论 几个概念 锚点 句珠 二分图(完全二分图) 匹配 最优对齐匹配 锚点和句珠 锚点(anchor) Brown在对Hansard语料库进行对齐时,引入了锚点的概念,认为锚点的作用就是将整个语料库分成一些小的对齐片断 句珠(Sentence bead) 每一对相对应的句子称作句珠 二分图 设G为无向图,G=V,E,结点集V有两个子集V1,V2满足V1 ∪ V2=V,V1∩V2=ф,使G的每一条边e∈E时,e={vi,vj},vi∈V1,vj∈V2,即同一子集Vi(i=l,2)中的任何两个结点都不邻接,称这样的图为二分图。 完全二分图 G记为G=<V1,E,V2>。对于二分图G=V1,E,V2中,若V1的每个结点与V2的每个结点相邻接,反之亦然。则称G为完全二分图,若|V1|=m,|V2|=n,则简记为Km,n,如图所示 匹配(Matching) 设G=V1,E,V2是二分图,如E的一个子集M中的边无公共端点,即任两边均不邻接,则M为G的一个匹配。 最优对齐匹配 最优对齐匹配 M为完全二分图G=S,E,T的一个最优对齐匹配 ,满足以下条件: 二分图中所有的节点是有序的 若|S|=m,|T|=n则首先默认{sm,tn}∈E; M中若存在一条边e={si,tj}满足d(si,tj) D(D为特定的阈值);此时,M中不存在边{sk,tr}使得ki且rj或ki且rj成立; 采用贪心算法依次在完全二分图G中选取权值最小的边,直到M中边数达到饱和。 最优对齐匹配(图示) 段落对齐问题和模型的关系 S(s1, s2, s3,…si, …sj, …sm) --V1 T(t1, t2, t3,…ti, …tj, …tn) --V2 (1:1)型句珠(si, tj)的集合--Km,n 默认文本中最后一句对齐-{sm,tn}∈E 双语段落重组对齐 -寻找最优对齐匹配 段落重组对齐的锚点选择 (1:1)型正确对齐句珠在文本中的分布情况 (1:1)的句对在全篇的比例均超过85%,并且有着良好的分布规律 段落重组对齐总体思想 篇章定位 句长搭配 词典校对 形式对齐评价函数 P[i,j] = a(Pu[i,j]-P0)2 + (Pl[i,j] -P0)2 + a(Pd[i,j] -P0)2 P0为对应文本长度之比; Pu[i,j]为对应上文部分长度之比; Pl[i,j]为对应句长度之比; Pd[i,j]对应下文部分长度之比; a为加权系数 锚点句对的校验 词典检验 L| |表示全部元素的字符长度和; Match(S)表示译文出现在汉语句中英语单词; Match(T)表示成为英文单词译文的汉语单词 ; 主要内容 引言 方法 结果 讨论 试验结果(1) 召回率 = (返回段落总数 – 错误段落总数)/ 双语文本中(1:1)型正确句珠总数; 准确率 = (返回段落总数 – 错误段落总数)/ 返回段落总数; 试验结果(2) 重组分段的实例(1)--original Around 30 people have staged a naked protest against GM

文档评论(0)

wangsux + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档