- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
藏语文本信息处理的历程与进展.pdf
藏语文本信息处理的历程与进展·
江荻
中国社会科学院 民族学与人类学研究所语音学与计算语言学研究室北京100081
Email:jiangdi@ca镕.o唱.∞
摘要:本文叙述了25年来中国藏语信息处理领域有关藏语文本及电子词典工作的发展过程以及目前
的进展状况。叙述的内容有藏语文本统计计算和熵值计算研究。有藏语资源和词典构建讨论,藏语分
词、分词规范以及组块识别阐述,最后还讨论了藏文拉丁转写与词典排序解决方案。
关键词:藏语;自然语言处理;文本与词典
1引言
藏语是一种非常古老的语言。公元7世纪藏民族先民建立了吐蕃王朝.并创制了表征它
独特文化的藏文。藏文典籍是一份恢宏的文化遗产,早期文献包括碑文、岩刻,敦煌石窟所
藏藏文手卷、竹木简牍等等。历史上的藏文文献浩如烟海,内容广泛,有为吐蕃赞普歌功颂
德的传记、有记述吐蕃君王与大臣的盟誓、还有吐蕃王国与中原唐朝的会盟祭祀,以及一千
多年来的各类古代历史记载、佛教经典编译,以及民问神话传说等等。藏文文献是我国除汉
文之外,历史最悠久、文献最丰富的语言文化遗产。藏语和藏文也是当今中国社会和藏民族
广泛使用的语言文字,具有重要的社会交际、教育和文化保存功能。
正是由于这个原因,藏文文本的电子化和信息化处理成为当代社会所关注的课题。80
年代初期.中国社会科学院民族所张连生尝试用计算机进行藏文词汇排序[1],开启了藏文
文本处理先河。不过.由于藏文编码与操作系统平台开发的艰难,直到90年代末期,文本
研究才有了进一步的发展。本文试图对藏文文本的信息处理做一简单回顾,并讨论藏语文本
自动处理的现状和可能的发展方向。主要内容涉及文本资源及文献分类,文本的统计和熵值
计算,文本资源建设与词典构建,分词方法与句法识别算法。电子词典排序与藏文的拉丁转
写。其他有关藏文编码、规范、藏文系统平台、文字识别等等应用研究或开发论题(如藏文
识别,藏文排版系统等),需另文讨论。
2藏语文本统计与熵值计算
2.1文本统计
国内晟早开展的藏语文本研究很自然会从文本统计着手,包括词典的统计研究。主要动
机可能有两个方面,一是观察词语单位在文本中的呈现状态和特征,或是利用文本或词典解
‘教育部一国家语委。民族语言文字规范标准建设及信息化科研赞助项目(编号:蛇115-020):园家自然科学孽盒资助项lj(批
准号60473135).
一83—
决语言研究中的难点。90年代初期,中国社会科学院江荻将《藏汉大词典》全部动词抽取
出来开展统计研究,利用相关分析与T检验或卡方检验方法讨论了词缀与词根的关系以及词
缀隐现的统计学成因[2]。进一步。1994年至1995年,江荻等人对三万词条的拉萨口语词
典展开字、词的统计分析.首次获得了有关藏语字、词及字母符号的静态统计结果,以及藏
字平均字长与字母构词频度数据[3][4]。陈玉忠博士认为,“这一工作虽然只对一少部分藏
字进行了静态的统计,但这一工作的意义则远远大于结果本身”[5].
此后,中国藏学研究中心扎西次仁对1000万字的藏文(大藏经·丹珠尔部分作了字频
统计分析,这是一项大规模的历史文本统计,获得了许多有价值的字频统计数据【6]。例如,
构成字的平均字符数为2.54。构成句的平均构件数为25个,然后推测出构成旬的音节数为
7个。从另一方面来看,太藏经丹珠尔是历史上汇编产生的文献,不具备现代平衡语料库的
特征,所以统计数据有一定的偏向。例如,藏文使用频率最高的前15个字的累积频率达到
29.225,而汉语前15个高频用字则仅有15.2l%。两者几乎相差一倍。由此推论。藏语的
词汇用字远不如汉语丰富。作者认为,这个原因与语料的性质有关,因为《丹珠尔》独特的
内容及风格(例如祷词多)造成了用字的偏差。总之,利用古代大藏经文献开展的字频统计:1:
作十分引人入胜.为了解古代藏语文本用字特点提供了有用的数据。
鉴于静态数据的局限性,1998年江荻继续对100万字的现代藏语文本进行字频和结构
的统计研究,全面阐述了现代藏语书面语的动态字频和结构类型[7]。例如,动态文本中不
同字形数达到5581字,共包含藏字结构25类。前40个藏字占全部统计语料出现次数的335,
却又只占全部语料用字的0.7%。西北民族学院的卢亚军等人也展开了一项大规模的藏文文
本统计.所选语料总数达到1,2亿字节,相当于40
文档评论(0)