双语语料库段落对齐方法研究 - 哈尔滨工业大学社会 .pptVIP

  • 14
  • 0
  • 约5.43千字
  • 约 32页
  • 2017-07-04 发布于天津
  • 举报

双语语料库段落对齐方法研究 - 哈尔滨工业大学社会 .ppt

双语语料库段落对齐方法研究 - 哈尔滨工业大学社会

双语语料库段落 重组对齐方法研究 李维刚 刘挺 王震 李生 哈工大信息检索研究室 2003-8-1 主要内容 引言 方法 结果 讨论 构建双语语料库 机器翻译和跨语言检索解决人类的不同语言之间的障碍 双语资源给机器翻译和跨语言检索提供了有力的支持,尤其是双语语料库 构建双语语料库(英汉双语语料库)是一项十分有意义的工作 真实双语文本的特征 网络资源丰富 篇章级对齐 内容分散 格式复杂 风格各异 目前的问题 不同的对齐精度 段落、句子、词和短语的对齐 上一级的对齐是下一级对齐的基础 经过统计发现90%以上的电子文本中的段落并不对应或者没有明显的段落标记 段落对齐和段落重组对齐 段落对齐是进行对齐加工的第一步 对段落对齐研究的很少 段落对齐的目的是句子对齐 段落重组对齐是打破原有的段落标记,对篇章进行重新分段,仅仅在形式上对篇章进行对齐 句子对齐 基于长度的句子对齐 长句对应的译文长,短句对应译文短 根据长度的不同 单词个数-Brown et al. (1991c) 字符的个数-Gale and Church (1993) 基于词典的句子对齐 段落重组对齐(1) 自动分段对齐研究(中科院计算所) 将原有的段落合并 通过汉英词汇对之间的特征比较,包括词的出现频率、字节偏移量、出现间隔向量 找到可以用于分段的锚点词汇对 通过锚点词所在句子的匹配获得锚点句子进行分段 段落重组对齐(2)

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档