基于联合音变还原和形态切分的形态分析方法JointVoiceHarmony.PDFVIP

  • 9
  • 0
  • 约1.86万字
  • 约 11页
  • 2019-04-03 发布于北京
  • 举报

基于联合音变还原和形态切分的形态分析方法JointVoiceHarmony.PDF

基于联合音变还原和形态切分的形态分析方法JointVoiceHarmony.PDF

基于联合音变还原和形态切分的形态分析方法 摘要:传统的形态分析方法,一般是先进行音变还原工作,再进行形态切分工作。音变还原工作的好坏直 接影响形态切分工作的优劣,两者之间存在错误传播的问题。鉴于传统形态分析方法存在的错误传播问题, 本文提出了基于联合音变还原和形态切分的形态分析方法。该方法通过使用具有双重功能的联合标签,同 时实现了音变还原及形态切分的功能。由于该方法不依赖于黏着语的特有的语言学规则,因此便于扩展到 新的语言上。结果表明,联合音变还原和形态切分的形态分析方法要优于传统的先进行音变还原后形态切 分的形态分析方法,能够很好的解决先音变还原后形态切分带来的错误传播问题。 关键词:形态分析,音变还原,形态切分 中图分类号:TP391 文献标识码:A JointVoiceHarmonyRestorationandMorphologicalSegmentationfor MorphologicalAnalysis Abstract: In order to solvethe problem of errorpropagation in traditional morphological analysis method which carriesoutthevoiceharmonyrestorationproblematfirstandthenthemorphologicalsegmentation,thispaperpresentsa unionmethodcombiningvoiceharmonyrestorationandmorphologicalsegmentation.Thismethodmakesuseofunion labelwithdoublefunctions.Itrealizesthevoiceharmonyrestorationandmorphologicalsegmentationatthesametime. Experimentsshowthattheunionmethodcanimproveprecisioncomparedtothetraditionalmethodanditcansolvethe problemoferrorpropagationintraditionalmorphologicalanalysismethod. Keywords:Morphologicalanalysis,voiceharmonyrestoration,morphologicalsegmentation 1引言 黏着语是一种通过在词干基础上粘贴不同的词缀来实现语法功能的语言类型。我国的很 多少数民族语言,如维吾尔语、蒙古语、哈萨克语、朝鲜语等都属于黏着语。黏着语在我国 分布广泛且使用人口众多,分布地区具有较高的政治经济价值。黏着语每个词的变化形式最 多可达数百种,甚至上千种。现有主流的机器翻译方法基本上不考虑词形变化,把每个不同 词形的词都当成独立的词语来考虑。但是对于黏着语而言,这种做法就会带来比较严重的问 题。因为这类语言的词语变化非常灵活,形式多样,这样会导致机器翻译时出现大量未登录 词,严重影响机器翻译的性能。 黏着语形态分析一般包含音变还原和形态切分两个子任务。音变还原是黏着语形态分析 中的重要基础处理环节。音变现象是词干与词缀连接时发生弱化、增音、脱落等现象。据统 计(如下表1),可以看出,音变现象在三种语言中广泛存在。音变现象使形态分析工作变 得更加困难,音变问题解决的好坏直接影响后续的形态分析工作。音变还原现象研究界关注 较少,艾山・吾买尔等人[18]提出基于噪声信道的识别模型,该模型以弱化的词干词尾的二 个字符、三个字符以及最后音节作为上下文,建立相应的语言模型以及似然度计算公式来解 决音变现象问题。麦热哈巴・艾力等人[20]提出了基于最大熵模型的音变还原模型,该模型 主要基于词性标注工作的思想,首先找出每一个维吾尔语字母可能对应的集合,然后通过维 特比算法对维吾尔语字母进行线性序列标注,这种方法避开了总结和制定音变现象复杂的规 则。然而上述方法只考虑了当前字母的上下文环境,未考虑形态切分任务对于音变还原的影 响,并且音变还原很难做到百分之百的准确率,存在错误传播的问题。 Table1Thestatisticsofvoiceharmony 1

文档评论(0)

1亿VIP精品文档

相关文档