- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Information Retrieval Lab HIT * 讨论 有效的抑制了错误蔓延 该算法有很强的鲁棒性 在进行词典检验时,无需对汉语分词,实现简单,代价较小 适合各种形式的语料 Information Retrieval Lab HIT * Thanks! 双语语料库段落重组对齐方法研究 李维刚 刘挺 王震 李生 哈工大信息检索研究室 2003-8-1 * Information Retrieval Lab HIT * 主要内容 引言 方法 结果 讨论 Information Retrieval Lab HIT * 构建双语语料库 机器翻译和跨语言检索解决人类的不同语言之间的障碍 双语资源给机器翻译和跨语言检索提供了有力的支持,尤其是双语语料库 构建双语语料库(英汉双语语料库)是一项十分有意义的工作 Information Retrieval Lab HIT * 真实双语文本的特征 网络资源丰富 篇章级对齐 内容分散 格式复杂 风格各异 Information Retrieval Lab HIT * 目前的问题 不同的对齐精度 段落、句子、词和短语的对齐 上一级的对齐是下一级对齐的基础 经过统计发现90%以上的电子文本中的段落并不对应或者没有明显的段落标记 Information Retrieval Lab HIT * 段落对齐和段落重组对齐 段落对齐是进行对齐加工的第一步 对段落对齐研究的很少 段落对齐的目的是句子对齐 段落重组对齐是打破原有的段落标记,对篇章进行重新分段,仅仅在形式上对篇章进行对齐 Information Retrieval Lab HIT * 句子对齐 基于长度的句子对齐 长句对应的译文长,短句对应译文短 根据长度的不同 单词个数-Brown et al. (1991c) 字符的个数-Gale and Church (1993) 基于词典的句子对齐 Information Retrieval Lab HIT * 段落重组对齐(1) 自动分段对齐研究(中科院计算所) 将原有的段落合并 通过汉英词汇对之间的特征比较,包括词的出现频率、字节偏移量、出现间隔向量 找到可以用于分段的锚点词汇对 通过锚点词所在句子的匹配获得锚点句子进行分段 Information Retrieval Lab HIT * 段落重组对齐(2) 适合含有较多高频固定词的双语文本 适合于术语提取 数据稀疏(较少高频固定词) 需要分词等预处理 Information Retrieval Lab HIT * 主要内容 引言 方法 结果 讨论 Information Retrieval Lab HIT * 几个概念 锚点 句珠 二分图(完全二分图) 匹配 最优对齐匹配 Information Retrieval Lab HIT * 锚点和句珠 锚点(anchor) Brown在对Hansard语料库进行对齐时,引入了锚点的概念,认为锚点的作用就是将整个语料库分成一些小的对齐片断 句珠(Sentence bead) 每一对相对应的句子称作句珠 Information Retrieval Lab HIT * 二分图 设G为无向图,G=V,E,结点集V有两个子集V1,V2满足V1 ∪ V2=V,V1∩V2=ф,使G的每一条边e∈E时,e={vi,vj},vi∈V1,vj∈V2,即同一子集Vi(i=l,2)中的任何两个结点都不邻接,称这样的图为二分图。 Information Retrieval Lab HIT * 完全二分图 G记为G=<V1,E,V2>。对于二分图G=V1,E,V2中,若V1的每个结点与V2的每个结点相邻接,反之亦然。则称G为完全二分图,若|V1|=m,|V2|=n,则简记为Km,n,如图所示 Information Retrieval Lab HIT * 匹配(Matching) 设G=V1,E,V2是二分图,如E的一个子集M中的边无公共端点,即任两边均不邻接,则M为G的一个匹配。 最优对齐匹配 Information Retrieval Lab HIT * 最优对齐匹配 M为完全二分图G=S,E,T的一个最优对齐匹配 ,满足以下条件: 二分图中所有的节点是有序的 若|S|=m,|T|=n则首先默认{sm,tn}∈E; M中若存在一条边e={si,tj}满足d(si,tj) D(D为特定的阈值);此时,M中不存在边{sk,tr}使得ki且rj或ki且rj成立; 采用贪心算法依次在完全二分图G中选取权值最小的边,直到M中边数达到饱和。 Information Retrieval Lab HIT * 最优对齐匹配(图示) S1, S2, S3,
文档评论(0)