一种基于短语搭配和高频骨干词的层次短语约束抽取-自然语言处理.PDFVIP

  • 10
  • 0
  • 约1.36万字
  • 约 8页
  • 2018-05-01 发布于天津
  • 举报

一种基于短语搭配和高频骨干词的层次短语约束抽取-自然语言处理.PDF

一种基于短语搭配和高频骨干词的层次短语约束抽取-自然语言处理

一种基于短语搭配和高频骨干词的 * 层次短语约束抽取方法 1,2 1 1 苏劲松 吕雅娟 刘群 1 中国科学院计算技术研究所 智能信息处理重点实验室 北京 100190 2 中国科学院研究生院 北京 100190 E-mail:sujinsong@ict.ac.cn 摘 要:层次短语翻译模型融合了短语模型和句法模型的优点,是当前统计机器翻译的主流模型之一。然 而,传统的层次短语抽取方法在抽取过程中,只考虑了对齐一致性和规则长度的限制,没有考虑到句子中 存在的短语搭配和高频骨干词,因此抽取出了大量冗余的泛化规则。对此,本文提出了相应抽取约束策略: 1 )采用对数似然比来确定短语搭配,并且在抽取过程中,把短语搭配当作一个整体语言单位;2 )采用频 率来识别句子中的高频骨干词,在抽取过程中不对完全由高频骨干词组成的子短语进行泛化。实验证明, 我们提出的方法在保证翻译质量基本不变的情况下,可以大量减少冗余泛化规则的产生。 关键词:统计机器翻译,层次短语,短语搭配,对数似然比,高频骨干词 A constrained hierarchical rule extraction method based on phrase collocations and high-frequency backbone words 1,2 1 1 Jinsong Su , Yajuan Lv , Qun Liu 1 Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Beijing, 100190 2 Graduate University of Chinese Academy of Sciences, Beijing, 100190 E-mail:sujinsong@ict.ac.cn Abstract: Hierarchical-phrase based machine translation model is a popular translation model which combines advantages of phrase-based translation models and syntax-based translation models. However, since there are no linguistic constraints in the procedure of current hierarchical phrase extraction, there are a large number of redundant generalized rules extracted. In this paper, we propose two strategies to limit the extraction of hierarchical rules and eliminate the number of redundant rules: first, we identify the phrase collocations with the

文档评论(0)

1亿VIP精品文档

相关文档