藏文音节字的频次统计.PDFVIP

  • 239
  • 0
  • 约1.05万字
  • 约 6页
  • 2018-11-26 发布于天津
  • 举报
藏文音节字的频次统计

藏文音节字的频次统计 普次仁 李苗苗 (西藏大学藏文信息技术研究中心 西藏拉萨 850000) 摘要 藏文音节字的频次统计可以准确地掌握藏文音节字中表意字的使用频度。文章以1亿5千万藏文 字符的藏文平衡语料库——大型藏文基础语料库为统计源,提出了非藏文字符和93个特殊藏文字符作为 音节分隔符来识别藏文音节字的方法,设计实现了藏文音节字频次统计软件,并从不同的角度对统计结 果和错误音节的类型进行了分析。 关键词 藏文;音节字;频次;统计 DOI:10.16249/ki.54-1034/c.2016.01.009 中图分类号 TP391.1 文献标识码 A 文章编号 1005-5738(2016)01-050-006 引言 藏文字是一种古老的拼音文字,是藏族人民之间交际的统一工具,至今己成为世界公认的成熟文 字。藏文字符用有限的构件作为前加字、上加字、基字、下加字、元音、后加字和再后加字构成“二维的平 [1] 轁繳 罻纀་ 面”字符 ,每个字符用音节点隔开,所以音节字符简称为音节字( )。藏文文法中对音节字的构成有 [2] 严格的限制,在理论上藏文中符合藏文文法规定的音节字有18000多个 ,但其中的很多音节字没有赋予 字义或词义。研究音节字在文本中的出现频次可以准确地掌握藏文表意字词。藏文音节字又类似于汉 ། ་ ། ་ ། ་ ། ་ ་ ་ ། 輥繻 輥繻 耟繴纍 輥繻 臮纋 輥繻 臱繳纍 輥繻 輟繳 義 纀 輥繻 字有组词的语法功能,如, 等,一个音节字可以构成成千上万 的词,再构成句子,音节字是词和句子的最小语法单位。研究音节字在文本中的出现频次可以揭示每个 音节字的组词能力,为编辑《藏语音节字频次字典》和研究中小学藏语识字提供依据。随着社会、经济、文 化、科学技术的不断发展,新的事物不断出现,藏文音节字的使用情况也在发生变化,例如:随着外来词 迮 “卡”的出现,给藏文音节字 赋予了“卡”的词义。研究音节字在文本中的出现频次可以看出音节字使用 收稿日期:2016-03-24 基金项目:2013年度国家自然科学基金项目“跨语言社会舆情分析基础理论与关键技术研究”(项目号;2015年 度国家自然科学基金项目“基于深度学习的藏语网络舆情监测中的大数据处理研究”(项目号;2015年度西藏自 治区高等学校人文社会科学研究项目“藏文音节字的频度统计”(项目号:sk2015-06)阶段性成果。 第一作者简介:普次仁,男,藏族,西藏日喀则人,西藏大学藏文信息技术研究中心副教授,主要研究方向为藏文信息处理。 普次仁,李苗苗:藏文音节字的频次统计 ··5151 ·· 过程中的变化情况,为制定和规范藏文音节字提供理论依据。 [3] 本文运用“基于统计”的方法 ,以1亿5千万藏文字符的大型藏文基础语料库为统计源,对藏文音节 字的频次进行了统计。 1藏文音节字频次统计的数据源 按照藏文文法规则对藏文音节字的统计称为“静态统计”,而以大量的藏文文本语料库为基础对音节 字的统计称为“动态统计”。“动态统计”更能反映藏文音节字的实际运用情况,意义更广,但需要大量的藏 文语料库。 2013年年底西藏大学完成了教育部、国家语委民族语言文字规范标准建设与信息化项目“大型藏文 [4] 基础语料库建设”(MZ115-039)。“大型藏文基础语料库”是一个大型的藏语通用语料库,为语言文字的信 息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用等服务。该 课题借助计算机技术和语言学理论的新成就及其研究方法,参照国家语委现代汉语语料库,结合藏语语 料本身的

文档评论(0)

1亿VIP精品文档

相关文档