基于藏文音节特征的模式匹配算法的研究.docVIP

下载本文档

0
0
约3.19千字
约 6页
2016-09-12 发布于北京
举报
版权申诉

基于藏文音节特征的模式匹配算法的研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于藏文音节特征的模式匹配算法的研究.doc

基于藏文音节特征的模式匹配算法的研究　　摘要：近年来针对网络中藏文舆情等的研究已在相关研究机构进行。模式匹配问题是计算机科学中的一个基本问题在藏文舆情、网络入侵检测等应用中起着重要的作用。其研究内容在上述众多领域均有重要价值。针对藏文字本身特性的字符匹配算法在相关文献并没有给出相应的解决办法，而是直接采用了中文或英文的模式匹配算法作为研究的基础。在此认为给出一个合理有效的藏文字符串的模式匹配算法，能非常有效的提高藏文字符的匹配效率。　　关键词：模式匹配；藏文音节；BM算法　　中图分类号：TP393.08 　　藏文网络舆情是当前必须关注的舆论涌现与信息传播现象。近几年藏文网络舆情的数量呈现递增的增长趋势，网络信息的传播途径也呈现出多样化和复杂化。由于藏文网络的这些显著的特点，藏文信息处理相对滞后于英文和中文等，短时间内迅速的获取大量信息则不容易。另，目前藏文网站大量的涌现，网页数量巨大，处理起来速度相对慢，以往藏文网络舆情页面的统计都是基于手工统计实现的，效率低，很难对网络舆情的变化做出快速响应。模式匹配技术是内容过滤的核心技术，是计算机信息技术领域研究的基础问题之一，研究敏感词作为模式串的藏文模式匹配算法具有重要的研究意义。　　BM算法是Boyer和Moore提出的一种字符串快速匹配算法。其基本思想是从右向左的把模式字符串同文本做比较。开始时仍是P的最左边与T的最左边对齐，当在某一趟比较中出现不匹配时，计算模式串右移的距离，把模式串向右移动该距离，再进行从右至左的匹配，同时应用到了两种启发式规则，即坏字符规则和好后缀规则，来决定向右跳跃的距离。　　1 BM算法在藏文中的改进　　藏文字符匹配中应用BM算法时，必须结合藏文文字特征，对BM算法进行改进以符合藏文的特点，提高匹配效率。　　1.1 藏文文字结构及编码特点　　藏文是由多个基本字符通过纵向叠加组成的字符串，构成一个完整藏文词素的基本单位是由藏文中的“音节分割符tsheg bar”来确定。一个或多个音节构成一个藏文词。音节，则是由音节分割符（音节点）或者其他藏文标点符号来划分的。一个音节中基字符是不能被省略的，其余相关构件都可以减少掉一个或几个这样仍然可以成一个音节（藏字）。七个构件中辅音字母在各部位依据藏文语法要求都有一定限制并不是所有的辅音字母都能够做前加字或者后加字等。　　藏文在计算机中进行编码时一个音节需要用多个编码来表示，长度是不定的，这使得藏文在信息系统中的实现非常的麻烦。　　（1）国内的几种藏文处理系统将藏文作为整字给予编码。将藏文垂直组合的部分作为一个处理单元编码（预先进行垂直组合，称为垂直预组合，垂直预组合后的字符称为藏文字丁），比如北大方正的报刊排版系统、华光藏文排版和同元藏文处理系统、激光照排系统等，这几个系统都有各自的编码方案这类编码采用双字节进行编码。这样，具有完整构件组合的藏字（即一个音节最多由4个字丁组成）。因此，国内的这几种编码方式一个音节就最多有4个编码。国家标准的扩A和扩B编码方案采用的是也是整字编码方案。　　（2）国外的几种藏文编码方式也是采用整字编码方案，但是将带元音的字丁与元音分离后分别进行了编码。一个藏文音节最多就由5个字丁组成，即一个藏文音节由5个编码组成。　　（3）ISO/IEC 10646藏文基本集是国际标准的编码方案，它完全将藏文视做拼音文字，字丁则是通过字母的动态组合实现的。即将一个藏文音节拆分成不同构件的独立的部分，对每一个构件都单独进行编码。采用国际标准后一个藏文音节最多由7个编码组成。基于不同编码的方式使得一个音节的编码个数不同，即使具有相同编码个数的同一种编码方案，由于编码范围不同编码值也将不一致。1997年，我国的藏文基本字符集被收入了国际标准ISO/IEC 10646《信息技术通用多八位编码字符集》。藏文编码标准得到了统一。故本匹配算法以小字符集国际编码标准（ISO/IEC 10646）编码进行讨论。　　依据藏文采用小字符集编码中音节字的特点：　　（1）具有完整构件的音节具有7个编码且每个编码都是两个字节，则对一个藏文音节字的表示则最多需要14个字节，最少也需要两个字节。匹配过程中只有在一个音节的所有字节都相等的情况下，一个藏文音节才匹配成功。　　（2）藏文音节与音节之间由音节点分割，在小字符集中该音节点为0X0F0B。　　1.2 基于藏字特征改进的BM算法　　改进后的BM模式匹配算法的具体思路：　　（1）用模式串P的尾字符与文本串T进行比较，结果失配，且文本串字符不为音节点，则模式串P右移到下一个出现的音节点处在新的位置继续比较。　　（2）用模式串P的尾字符与文本串T进行比较，结果匹配，再把模式串第一个字符与文本串T比较，