蒙古文信息熵与拉丁转写研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
蒙古文信息熵和拉丁转写研究 那日松1淑琴2 1中国传媒大学北京100024:2内蒙古大学呼和浩特010021 摘要:本文主要是对26万多词的蒙古文拉丁转写语料中的蒙古文名义字符进行信息熵的计算,并给出蒙 古文名义字符的信息熵和蒙古文语料中使用拉丁转写存在的问题。 关键词:蒙古文:拉丁转写:信息熵 lnfOrmatiOnand Resea妒ch0n Character EntrOpy MOngOIlan LatinTranSlIteratiOn NarsulShuQin2 of 1Communication univerSitychilla,cUc,Beiiing,100024,2hnerMongolia in Abstract:1his dis跚ssmecalcIIlationof缸曲皿ation for no面nalch啪cterthe M0ngolian papermainly entr叩y indudemore£h皿260,000 the MoⅡgolj卸La血仃ansliteIatiⅡgco印us,mjscoqⅪs MoⅡgcdj越wofds,andgiVes i11 and ofL丑tin仃柚sliterationusedtbe infomati。n of nominalcharaclers entropyMon901ian th。problems corpus. Mon901ian KeywOrds:M。ngolian;La血Transliteration;InfoHna虹onEn的py 1 引言 本文主要是利用获得的26万词组成的蒙古文语料进行名义字符的统计,并给出蒙古文名义字符的信息 熵。该语料是以拉丁转写的形式存储,服从内大拉丁方案(内蒙古大学蒙古文语料库专用拉丁方案).由内 蒙古大学蒙古语言研究所完成,是《现代蒙古语文数据库》中的一部分。由于蒙古文的特殊性决定了至今未 有人计算出蒙古文的信息熵。 德文4.10比特:罗马尼亚文4.12比特;俄文4.35比特;中文9.65比特。 信息熵与字符数有关,各种拼音文字字符数有限,熵值也相差不大。由于蒙古文在很多方面和英文很接 近,所以可以预测蒙古文的信息熵应该是4点多比特。 2蒙古文和语料介绍 2.1 蒙古文 传统蒙古语属于阿尔泰语系,是音素文字,有8个元音字母和27个辅音字母;蒙古文中的音节是以元 ·782· 音为主辅音为辅;元音有阳性与阴性之分,阳性与阴性元音不会在一个词内同时出现;蒙古文的词分为词根 和词缀两部分,词根一般由一个或两个音节构成;词根绝大部分是单音节和双音节,派生词由词根接附加成 分构成,一个词根可以递加几个附加成分;采用自顶向下竖写,每列从左向右排列的书写方式,字母之间连 写;词汇方面,有汉语借词,也有一些突厥语、满语、藏语、梵语、阿拉伯语、波斯语、希腊语、俄语借词; 词与词之间用空格分开。 由于蒙古文字符在不同文本上下文中采用变化相当复杂的显现字形,所以蒙古文中有名义字符和显现字 Unicode标准中的码位(o。de 的位置和前后所联接的字符的不同有一个或多个显现形式

文档评论(0)

cxmckate + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档