基干信息处理乌兹别克语语音变化现象自动还原技术探究.doc

基干信息处理乌兹别克语语音变化现象自动还原技术探究.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基干信息处理乌兹别克语语音变化现象自动还原技术探究

基干信息处理乌兹别克语语音变化现象自动还原技术探究   摘要:语音变化现象的自动还原是词干提取的基础。为了提高词干提取的准确率,本文深入研究乌兹别克语中的语音变化现象,并提出音变现象的自动还原模型。分析乌兹别克语中发生语音变化的词干本身的特征,设计音变现象的还原模型,并结合了词干库配对方法来实现自动还原。实验以乌兹比克斯坦的官方网站()截取的语料为实验对象,验证处理模型的有效性 关键词:乌兹别克语;语音脱落;语音同化;增音 中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)32-0177-03 乌兹别克语属于阿尔泰语系突厥语族,是个典型的黏着性语言。语法特征名词跟不同词缀连接表示不同的语法意义。乌兹别克语中常见的音变现象有音的同化、脱落、增音等[3],上述三种变化已体现在文字上。语音变化是指因发音器官的制约和发音方便的需要,在连续发音中会受前后音的影响而发生的变化。所以语音变化的处理是乌兹别克语文字信息处理、乌-维机器翻译、跨语言信息检索等自然语言处理的重要环节。语音脱落是指名词词干末尾连接固有的构形词缀时,词干中的元音或辅音会脱落。如:“shahar城市”这个名词词干末尾连接名词的领属词缀时词干“shahar”中第二个音节里的元音“a”会脱落,即shahar+i=shahri(他的城市)。语音同化是指有些固有的名?~末未连接构形词缀时,词干末尾的辅音换另一个辅音。如:tilak+im = tilagim(我的愿望)。增音是指部分名词末未连接构形词缀时,词干和词缀之间会增多一个音,这种现象叫做增音。如:orzu+ing=orzuying(你的梦想)。这种语音变化现象对乌兹别克语名词词干提取增加难度,降低词干提取的准确率。所以,在处理乌兹别克语中发生的语音变换现象是乌兹别克语名词词干提取的基础、重点,也是最基本的前提 1 相关工作 在音变还原的研究领域上,属于突厥语族的维吾尔语进行的工作比较广阔。文献[1]中指出,维吾尔语词干在接词缀时按维吾尔语语音和谐规律有些语音会发生弱化、脱落、增音等现象。该论文提出了一种自动还原模型,此模型中我们把音变现象泛化,先假设维吾尔语中所有语音都有音变现象,从而将还原问题转化为类似于词性标注问题,再利用标注的方法解决了还原操作。思路是:维吾尔语词被看作是所包含语音的线性序列,先假设音变现象会发生在每个语音上,那么构成一个词的语音序列中每 一个语音就可以有 n ( 0≤ n ≤31)个原形候选,找到它们的原形就类似于词序列自动标注,再利用序列标注的方法即可解决还原问题。文献[4],重点研究维吾尔语中弱化现象及处理算法,并分析了维吾尔语词法结构、音节结构、词干―词缀连接形式等技术。处理弱化问题时,要根据词干库检查弱化属性,并根据语音和谐规律分析是否正确连接。该算法在文本检索、词频统计、文本校对等研究领域得到很好的应用。运行结果表明该算法具有可行性和有效性,并在实践中不断完善 2 乌兹别克语语音变化现象分析 2.1乌兹别克语语音脱落、同化、增音现象的分析 1)语音脱落 ①元音脱落:有些以辅音字母结尾的双音节名词词干末尾连接领属词缀“i,im,imiz,ingiz,ing”时,第二个音节里的元音字母会脱落。这种脱落字母有“u,i,a”等三个。如: Burun(鼻子)+i=burni(他的鼻子), shahar(城市)+im=shahrim(我的城市),qorin(肚子)+im=qornim(我的肚子) ②辅音脱落:乌兹别克语里的“men”和“sen”等两个人称代词末尾连接宾格词缀“ni”、领属格词缀“ning”和词缀“niki”时,这些人称代词词尾的辅音“n”就会脱落。如: Sen(你)+ni=seni(把你),men(我)+ni=meni(把我),men(我)+niki=meniki(我的) 2)语音同化 ①以“q”结尾的多音节名词词干末尾连接元音开头的领属词缀“i,im,imiz,ingiz,ing”时,词干末尾的“q”同化为“g”,然后继续连接词缀。如: Quloq(耳朵)+im=qulogim(我的耳朵),barmoq(手指)+ing=barmoging(你的手指),oyoq(鞋子)+i=oyogi(他的鞋子) ②以“k”结尾的多音节名词词干末尾连接元音开头的领属词缀“i,im,imiz,ingiz,ing”时,词干末尾的“k”同化为“g”,然后继续连接词缀。如: Ertak(童话)+ing=ertaging(你的童话),istak(欲望)+im=istagim(我的欲望),tilak(希望)+i=tilagi)(他的希望) 注:单音节词、外来借词和少数一部分多音节词

文档评论(0)

linsspace + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档