汉英词语对齐技术的分析.pdfVIP

  • 13
  • 0
  • 约5.84万字
  • 约 48页
  • 2015-10-28 发布于安徽
  • 举报
汉英词语对齐技术研究 摘要 词语对齐是跨语言自然语言处理领域的一个基本问题,许多基于双语语料库 的应用(如SBMT、EBMT、WSD、词典编纂)都需要词汇级别的对齐。 以往词语对齐方法对双语词典在对齐中的作用的研究都不够深入。本文重点 研究利用由多部人读双语词典扩充双语词典的规模来改善对齐质量。在Ker的基 于类的词语对齐方法研究和实践的基础上,提出了一个利用大规模双语词典进行 汉英词语对齐的方法。该方法利用双语词典计算的词语相似度,位置和词性信息 进行词语对齐,并通过对齐窗口得到了多对多的词语对应。用该方法建造的汉英 词语对齐系统,最终在中文句子平均单词数是24.8,英语句子的平均单词数为 34.5的650对中英语句子的测试集下,取得了准确率84.0%下召回率62.9%的结 果。 在对齐算法上,本文在下面几点上对Ker的词语对齐算法做了改进和创新: 1.对Ker的算法中相对位置偏移量的计算方式做了改进,并在开始对齐前 通过词语相似度选择对齐锚点来改善对齐质量。 2.提出对齐窗口的概念,通过在对齐过程中设置对齐窗口,可以找到多对 多的词语对应。 关键字:词语对齐、对齐窗口、人读双语词典、机读双语词典 摘要 Research on Word Chinese-English alignment DENG Softwareand Dan(ComputerTheory) DirectedLiu by Qun Word isa basic of Natural alignment Cross-lingual problem Language NLPtasks as basedon such Processing.Many bilingualcorpus to Automated Extractionneed words. Dictionary align not attention word methods to Previously alignment enough proposed pay a scale by dictionary.Here dictionaryenlarged bilingual large bilingual integrating word severalhuman.readabledicitonariesisthemainca

文档评论(0)

1亿VIP精品文档

相关文档