藏文字频统计软件设计与实现.docVIP

下载本文档

30
0
约3.66千字
约 8页
2018-09-19 发布于福建
举报
版权申诉

藏文字频统计软件设计与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

藏文字频统计软件设计与实现

藏文字频统计软件设计与实现　　摘要：藏字的频度统计是藏文信息处理技术领域的一项基础研究，对藏文拼写检查、字典建立等应用有着重要的意义。该文根据藏文音节的特性，结合Unicode藏文基本集的编码特征，提出了计算机统计藏文字频的方法，设计实现了藏文字频统计软件，并在藏文样本语料中进行测试，证明了方法的正确性。　　关键词：藏文；字频；统计　　中图分类号：TP391 文献标识码：A 文章编号：1009-3044（2016）04-0179-03 　　The Design and Implementation of Tibetan Word Frequency Statistics Software 　　LI Miao-miao， GAO Ding-guo， PU Tsering， TRASHI CangJue 　　（Tibetan Information Technology Engineering Research Center， Tibetan University， Lhasa 850000， China）　　Abstract： Word frequency statistics，which has important significance to the Tibetan spell checking， Tibetan dictionary building and other suchlike applications ， is a basic research in the field of Tibetan information processing technology . According to the characteristics of Tibetan syllables， combined with the features of encoding of Unicode Tibetan basic set， we proposed a method to statistic Tibetan word with computer ，and implemented the software ，which has been tested in a sample corpus， and achieved satisfactory result. 　　Key words： Tibetan； word frequency； statistics 　　1 背景　　藏文字符是一种拼音性文种，由辅音和元音构成藏文的一个音节。藏文音节以一个辅音字母为核心，此辅音字母为基础在其前后或上下叠加其他辅音或元音构成一个完整的藏文音节（简称为藏字）[1]。　　藏文字频的统计对研究藏文信息处理技术有着重要的意义，据统计，符合现代藏文书写文法规则的藏字共有19380个[1] ，这是静态统计的结果，包含了所有符合藏文文法书写规则的藏字，但实际上并不都具有实际的意义，在藏文文本中也不会用到没有意义的藏字。为了更好的统计实际应用的现代藏字的数量，就要借助于大规模语料进行动态统计。　　本文在研究藏文文本结构的基础上，整理出藏文音节的分割符号，以这些符号为统计藏文音节的分割点，提出了统计藏文音节的方法，并用软件实现了该方法，在藏文样本语料中进行测试，证明了方法的正确性。　　2 藏字字频统计的方法　　藏文是一种拼音型文字，一般一个音节表示一个字。在文本中，藏文的音节主要以‘□’（0x0F0B）、‘□’（0x0F0D）和一些特殊符号分隔开[8]，我们在统计时，逐个从文本中读取字符，并将读取的字符存入字符串中，当读取的字符为0x0F0B或0x0F0D或其他特殊符号（比如数字）等时，表示一个音节读取结束，此时字符串中保存的就是当前读取到的音节。按照该方法扫描语料，每次取得一个音节，就将该音节的频度加1，最终就可以得到一个藏文音节的频度统计结果。　　参照Unicode藏文字符编码集[4-5]，共整理了91个藏文的分隔符、数字、特殊符号。表1是藏文的38个音节分隔符、标点符号，表2是藏文的33个特殊符号和特殊字符，表3是藏文的20个数字符号。这些符号出现在文本中时，虽不是直接的隔字符号，但在文本中仍起到分隔音节的作用，因此在软件设计中也被当作音节分隔符进行处理。　　3 藏文字频统计软件的设计　　藏文字频统计软件按其功能分为输入、统计、输出三个模块，如图1所示。　　3.1 输入模块　　输入模块实现的功能是：由用户通过直观的界面选择待统计的藏文语料的存放路径和统计结果输出的路径。　　输入模块的流程图如图2所示。　　3.2 字频统计模块　　3.2.1 字频统计的方法　　为了提高统计过程中的