- 10
- 0
- 约1.36万字
- 约 8页
- 2018-05-01 发布于天津
- 举报
一种基于短语搭配和高频骨干词的层次短语约束抽取-自然语言处理
一种基于短语搭配和高频骨干词的
*
层次短语约束抽取方法
1,2 1 1
苏劲松 吕雅娟 刘群
1 中国科学院计算技术研究所 智能信息处理重点实验室 北京 100190
2 中国科学院研究生院 北京 100190
E-mail:sujinsong@ict.ac.cn
摘 要:层次短语翻译模型融合了短语模型和句法模型的优点,是当前统计机器翻译的主流模型之一。然
而,传统的层次短语抽取方法在抽取过程中,只考虑了对齐一致性和规则长度的限制,没有考虑到句子中
存在的短语搭配和高频骨干词,因此抽取出了大量冗余的泛化规则。对此,本文提出了相应抽取约束策略:
1 )采用对数似然比来确定短语搭配,并且在抽取过程中,把短语搭配当作一个整体语言单位;2 )采用频
率来识别句子中的高频骨干词,在抽取过程中不对完全由高频骨干词组成的子短语进行泛化。实验证明,
我们提出的方法在保证翻译质量基本不变的情况下,可以大量减少冗余泛化规则的产生。
关键词:统计机器翻译,层次短语,短语搭配,对数似然比,高频骨干词
A constrained hierarchical rule extraction method
based on phrase collocations and high-frequency
backbone words
1,2 1 1
Jinsong Su , Yajuan Lv , Qun Liu
1
Key Laboratory of Intelligent Information Processing, Institute of Computing Technology,
Beijing, 100190
2
Graduate University of Chinese Academy of Sciences, Beijing, 100190
E-mail:sujinsong@ict.ac.cn
Abstract: Hierarchical-phrase based machine translation model is a popular translation model which combines
advantages of phrase-based translation models and syntax-based translation models. However, since there are no
linguistic constraints in the procedure of current hierarchical phrase extraction, there are a large number of
redundant generalized rules extracted. In this paper, we propose two strategies to limit the extraction of
hierarchical rules and eliminate the number of redundant rules: first, we identify the phrase collocations with the
您可能关注的文档
- 潍坊盛瑞零部件有限公司电泳涂装线项目环境影响评价报告书公示.doc
- 泛素化蛋白PKM2与肿瘤耐药相关性研究.doc
- 食品安全管理体系认证实施规则CNCA.doc
- 风雷甄荣辉简思怀.ppt
- 照度测量与视觉反差现象.doc
- 片仔癀肝宝对大鼠解酒效果及慢性酒精肝治疗的研究.doc
- 浙江中小学心理辅导等级站评价自评报告.doc
- 高性能纤维产业发展现状.pdf
- 环境微生物试验指导书模板.doc
- 现代生物学基础.doc
- 2026年保定华医中医医院招聘15人备考题库完整参考答案详解.docx
- 2026年保定华医中医医院招聘15人备考题库及参考答案详解.docx
- 2026年保定华医中医医院招聘15人备考题库及答案详解一套.docx
- 2026年保定华医中医医院招聘15人备考题库及1套完整答案详解.docx
- 2026年保定华医中医医院招聘15人备考题库及一套参考答案详解.docx
- 2026年保定华医中医医院招聘15人备考题库及答案详解1套.docx
- 生态旅游景区绿色交通基础设施建设与环保标准可行性研究报告.docx
- 2026年教育资源共享平台创新报告.docx
- 2026年保定华医中医医院招聘15人备考题库及一套完整答案详解.docx
- 冷链物流多式联运2025年技术创新信息化建设可行性研究报告.docx
原创力文档

文档评论(0)