- 9
- 0
- 约1.86万字
- 约 11页
- 2019-04-03 发布于北京
- 举报
基于联合音变还原和形态切分的形态分析方法JointVoiceHarmony.PDF
基于联合音变还原和形态切分的形态分析方法
摘要:传统的形态分析方法,一般是先进行音变还原工作,再进行形态切分工作。音变还原工作的好坏直
接影响形态切分工作的优劣,两者之间存在错误传播的问题。鉴于传统形态分析方法存在的错误传播问题,
本文提出了基于联合音变还原和形态切分的形态分析方法。该方法通过使用具有双重功能的联合标签,同
时实现了音变还原及形态切分的功能。由于该方法不依赖于黏着语的特有的语言学规则,因此便于扩展到
新的语言上。结果表明,联合音变还原和形态切分的形态分析方法要优于传统的先进行音变还原后形态切
分的形态分析方法,能够很好的解决先音变还原后形态切分带来的错误传播问题。
关键词:形态分析,音变还原,形态切分
中图分类号:TP391 文献标识码:A
JointVoiceHarmonyRestorationandMorphologicalSegmentationfor
MorphologicalAnalysis
Abstract: In order to solvethe problem of errorpropagation in traditional morphological analysis method which
carriesoutthevoiceharmonyrestorationproblematfirstandthenthemorphologicalsegmentation,thispaperpresentsa
unionmethodcombiningvoiceharmonyrestorationandmorphologicalsegmentation.Thismethodmakesuseofunion
labelwithdoublefunctions.Itrealizesthevoiceharmonyrestorationandmorphologicalsegmentationatthesametime.
Experimentsshowthattheunionmethodcanimproveprecisioncomparedtothetraditionalmethodanditcansolvethe
problemoferrorpropagationintraditionalmorphologicalanalysismethod.
Keywords:Morphologicalanalysis,voiceharmonyrestoration,morphologicalsegmentation
1引言
黏着语是一种通过在词干基础上粘贴不同的词缀来实现语法功能的语言类型。我国的很
多少数民族语言,如维吾尔语、蒙古语、哈萨克语、朝鲜语等都属于黏着语。黏着语在我国
分布广泛且使用人口众多,分布地区具有较高的政治经济价值。黏着语每个词的变化形式最
多可达数百种,甚至上千种。现有主流的机器翻译方法基本上不考虑词形变化,把每个不同
词形的词都当成独立的词语来考虑。但是对于黏着语而言,这种做法就会带来比较严重的问
题。因为这类语言的词语变化非常灵活,形式多样,这样会导致机器翻译时出现大量未登录
词,严重影响机器翻译的性能。
黏着语形态分析一般包含音变还原和形态切分两个子任务。音变还原是黏着语形态分析
中的重要基础处理环节。音变现象是词干与词缀连接时发生弱化、增音、脱落等现象。据统
计(如下表1),可以看出,音变现象在三种语言中广泛存在。音变现象使形态分析工作变
得更加困难,音变问题解决的好坏直接影响后续的形态分析工作。音变还原现象研究界关注
较少,艾山・吾买尔等人[18]提出基于噪声信道的识别模型,该模型以弱化的词干词尾的二
个字符、三个字符以及最后音节作为上下文,建立相应的语言模型以及似然度计算公式来解
决音变现象问题。麦热哈巴・艾力等人[20]提出了基于最大熵模型的音变还原模型,该模型
主要基于词性标注工作的思想,首先找出每一个维吾尔语字母可能对应的集合,然后通过维
特比算法对维吾尔语字母进行线性序列标注,这种方法避开了总结和制定音变现象复杂的规
则。然而上述方法只考虑了当前字母的上下文环境,未考虑形态切分任务对于音变还原的影
响,并且音变还原很难做到百分之百的准确率,存在错误传播的问题。
Table1Thestatisticsofvoiceharmony
1
您可能关注的文档
- 基于技术知识属性的中国企业外部技术选择的现状和特征识别.PDF
- 基于改进犁犐犁算法和顺序犚犃荦犁犃犆的车道线-计算机测量与控制.PDF
- 基于数值模拟的深埋输水隧洞支护研究与安全评价-路基工程.PDF
- 基于数据挖掘和本体的实时入侵检测系统1张玉强2(江苏科技大学电子.PDF
- 基于文献计量学的珠三角内外科技合作现状调查-广东生物医药与大健康.PDF
- 基于新闻信息抽取的人文社科非正式科学交流研究-图书与情报.PDF
- 基于曲率半径法的油田井斜数据处理与应用-中科院集成信息平台.PDF
- 基于最小生成树的数据流窗口连接优化算法.PDF
- 基于极大代数理论的交通系统稳态性能分析-交通运输系统工程与信息.PDF
- 基于析取图的非周期可重构流水作业的建模与优化-控制与决策.PDF
最近下载
- 2025年拍卖师处理委托人疑虑与期望管理的咨询方法专题试卷及解析.pdf VIP
- 用户手册_财务_第二册.doc VIP
- 机场商业业态的智能布局与旅客消费行为引导策略.pdf VIP
- 2025年无人机驾驶员执照飞行日志中起降数据的记录与分析专题试卷及解析.pdf VIP
- 2025年无人机驾驶员执照安全审计绩效评估专题试卷及解析.pdf VIP
- 2025年AWS认证CloudWatch警报全生命周期管理与持续优化专题试卷及解析.pdf VIP
- 2025年演出经纪人艺人合同中的合同履行中的法律文书存储专题试卷及解析.pdf VIP
- 《哲学的指引 :斯多葛哲学的生活之道》马西莫·匹格里奇【文字版_PDF电子书_下载】.pdf VIP
- 低温等离子体多功能手术系统技术参数.docx VIP
- 用户手册_财务_第一册.doc VIP
原创力文档

文档评论(0)