一种利用句子长度和位置信息的双语句子对准方法.docxVIP

一种利用句子长度和位置信息的双语句子对准方法.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种利用句子长度和位置信息的双语句子对准方法 传统的双语句子匹配方法主要分为两种类型:基于词汇的方法和基于长度的方法。由于网络上获得的真实的双语信息通常包含不同程度的噪声信息,这些传统方法都有一定的局限性。因此,本文提出了一种基于句子长度和位置信息的新句子对齐方法。基本想法是在双语文本中一定长度的句子的位置分布相似的。局部和整体位置的信息被用来确定句子的是否是完整的。 1 一些基本的概念 1 二 双语文本中各抽一个句子对应在一起,就形成一个句对. 2 对齐锚点 锚点是将整个文本分成对齐的片段的句对. 3 压力 这些对齐的句对叫做句珠.句珠有多种形式,比如:(0:1), (1:0), (1:1), (1:2), (1:more), (2:1), (2:2), (2:more), (more: more). 4 2候选人锚 是指那些可能成为锚点的句对.在本文中,所有的(1:1)型的句珠被作为候选锚点. 2 合并成一个控制节点 对齐的实现有两个步骤:第一步是将原始文本的所有段落合并成一个段落,这样做可以把混乱的段落边界消除;第二步就是重新对齐的过程.对齐结束后,双语文本变成互为译文的对齐片段序列. 2.1 ee时,e 设G为无向图,G=V,E,结点集V有两个子集V1,V2满足V1∪V2=V,V1∩V2=?,使G的每一条边e∈E时,e={vi,vj},vi∈V1,vj∈V2,即同一子集Vi(i=l,2)中的任何两个结点都不邻接,称这样的图为二分图.G记为G=V1,E,V2.对于二分图G=V1,E,V2,若V1的每个结点与V2的每个结点相邻接,反之亦然.则称G为完全二分图,若|V1|=m,|V2|=n,则简记为Km,n,如图1所示. 2.2 匹配匹配 设G=V1,E,V2是二分图,如E的一个子集EM中的边无公共端点,即任两边均不邻接,则M为G的一个匹配. 2.3 最优对称匹配的确定 本文所研究的双语对齐,可以认为是一种特殊的匹配问题,为此定义这种模型为“最优对齐匹配”.M=V1,EM,V2为完全二分图G=S,E,T的一个最优对齐匹配,那么M必须满足如下条件: 1) 二分图中所有的节点是有序的. 2)EM中存在的任意一条边e={si,tj}的距离为d(si,tj)必须满足d(si,tj)D(D为特定阈值);与此同时,EM中不存在边{sk,tr}使得ki且rj或ki且rj成立. 3) 若|S|=m,|T|=n, 则首先默认{sm,tn}∈EM是正确的. 在满足上述条件前提下,依次在完全二分图G中选取权值最小的边,直到不存在满足“最优对齐匹配”的所有条件的边为止.一般情况下,对齐阈值D是由经验决定的. 文本S中每一句子对应V1中一个顶点,文本T中每一句子对应V2中一个顶点,则双语文本可以分别表示为S(s1,s2,s3,…si, …sj, …sm)和T(t1,t2,t3…ti, …tj, …tn),不考虑语义仅从形式上讲,S和T中任何两个元素si和tj均可作为一个(1∶1)型句珠(si,tj)的两个元素,构成一个完全二分图Km,n.因此对齐的过程就是在一个完全二分图中寻找一个“最优对齐匹配”的过程.图2是一个最优对齐匹配的示意图,图中存在边e={si,tj},则视为文本S中的第i句和文本T中的第j句对应.为使文本S和T对齐结束时,S和T中有一样的对齐片断数,默认文本S和T中的最后一句是对应的,即在数学模型最优对齐匹配中,若|S|=m,|T|=n,则首先默认{sm,tn}∈EM成立. 规定完全二分图中的每一条边对应的距离越小,这条边就越可能成为候选锚点.具有最小距离的边首先被搜索出来,也就意味着每次选出来的句对,均是在未对齐的句子中最有可能构成(1∶1)型句珠的句对.依次在完全二分图G中选取距离最小边,EM中边数达到饱和,即在特定条件下(一定的D值),对齐完成.这些抽取出的边对应的句对将双语文本分成短小的对齐片断.并且,由最优对齐匹配的定义可以知道抽取出的句对不可能出现交叉对齐的情况,并且一对多或多对一的对齐情况可能出现在两个抽取出的句对之间. 3 生成对偶函数 从各种类型的文献和不同风格的双语文本中抽取出所有的(1∶1)型句珠,他们的分布状态非常类似,如图3所示. 经大量统计发现句珠类型为(1∶1)的句对在全篇的比例均超过85%,并且有着良好的分布规律.文献也提到繁体中文和英文对齐后,句珠类型为(1∶1)的句对在全篇的比例为89%.如果可以选择这种(1∶1)型的句珠作为候选锚点,将使得对齐具有通用性.本文利用句对的长度和位置信息计算该句对成为对齐锚点的可能性. 考虑互译文本S和T,为了计算任一句对{si,tj}的对齐值,定义四个参数:对应文本长度之比为P0=Ls/Lt;对应句长度之比为Pl[i,j]=Lsi/Ltj;对应上文部分长度之比为Pu

您可能关注的文档

文档评论(0)

186****7870 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档