- 13
- 0
- 约5.84万字
- 约 48页
- 2015-10-28 发布于安徽
- 举报
汉英词语对齐技术研究
摘要
词语对齐是跨语言自然语言处理领域的一个基本问题,许多基于双语语料库
的应用(如SBMT、EBMT、WSD、词典编纂)都需要词汇级别的对齐。
以往词语对齐方法对双语词典在对齐中的作用的研究都不够深入。本文重点
研究利用由多部人读双语词典扩充双语词典的规模来改善对齐质量。在Ker的基
于类的词语对齐方法研究和实践的基础上,提出了一个利用大规模双语词典进行
汉英词语对齐的方法。该方法利用双语词典计算的词语相似度,位置和词性信息
进行词语对齐,并通过对齐窗口得到了多对多的词语对应。用该方法建造的汉英
词语对齐系统,最终在中文句子平均单词数是24.8,英语句子的平均单词数为
34.5的650对中英语句子的测试集下,取得了准确率84.0%下召回率62.9%的结
果。
在对齐算法上,本文在下面几点上对Ker的词语对齐算法做了改进和创新:
1.对Ker的算法中相对位置偏移量的计算方式做了改进,并在开始对齐前
通过词语相似度选择对齐锚点来改善对齐质量。
2.提出对齐窗口的概念,通过在对齐过程中设置对齐窗口,可以找到多对
多的词语对应。
关键字:词语对齐、对齐窗口、人读双语词典、机读双语词典
摘要
Research
on Word
Chinese-English
alignment
DENG Softwareand
Dan(ComputerTheory)
DirectedLiu
by Qun
Word isa basic of Natural
alignment Cross-lingual
problem Language
NLPtasks as
basedon such
Processing.Many bilingualcorpus
to
Automated Extractionneed words.
Dictionary align
not attention
word methods to
Previously alignment enough
proposed pay
a scale by
dictionary.Here dictionaryenlarged
bilingual large bilingual integrating
word
severalhuman.readabledicitonariesisthemainca
原创力文档

文档评论(0)