基于贝叶斯分类的汉字编码识别方法.doc

下载文档

2
0
约6.6千字
约 6页
2018-01-26 发布于河南
举报
版权申诉
保障服务

基于贝叶斯分类的汉字编码识别方法.doc

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于贝叶斯分类的汉字编码识别方法

基于贝叶斯分类的汉字编码识别方法摘要本文提出了一种基于贝叶斯分类的汉字编码自动识别方法，该方法将被识别文本看成连续字节流，选取字节作为识别特征。首先在训练语料中统计各种编码的字节分布概率，然后在识别文本中提取若干个特征点计算被测文本为每种编码的概率，采用最大概率原则得到识别结果。实验结果显示，此方法准确率高，速度快，而且可扩展性强。关键词编码识别，贝叶斯分类， GB， BIG5 A Method for Chinese Encoding Identification based on Bayes Classifier Abstract　The paper proposes an algorithm to identify the code type of Chinese character based on Bayes classifier. In the method , texts are regarded as byte streams, and bytes as features. The identification process is as follow, First the distributing probabilities of 256 bytes appearing in general text of various code types are learnt from training texts, Second, several features are selected on the test texts to compute the likelihood of each code type. Finally，the code type can be determined according to the maximum likelihood. The experimental results show that the method could achieve high performance and be expended easily. Key words code identification, Bayes classifier, GB， BIG5 进入计算机时代以来，人们创造了很多计算机数据内部表示方案来表达不同的文字和字符集。同样，在中文信息处理的发展中，随着应用需求的不断变化，也出现过多种不同的汉字编码标准。而目前广泛使用的编码包括大陆地区的GBK编码，港台地区的BIG5编码，以及统一字符集Unicode。由于各种系统和软件的兼容性不同，这些编码在相当长一段时间内将共存，所以汉字编码识别成为信息处理诸多领域面临的首要问题。汉字编码识别比起复杂的信息处理要相对简单，而且有些方法的准确率比较高[1,3]，但这些方法都时间开销不确定的缺陷，在大规模文本处理中时间不好预测，在大规模文本处理中时间不好预测，难以满足实时需求。本文提出了一种基于贝叶斯分类的识别方法，能够快速准确的识别多种编码，而且可扩展性强。本文第一部分介绍现有的几种常用编码识别算法，第二部分阐述贝叶斯分类模型在编码识别中的应用，第四部分是具体实现算法，第五部分是实验及结果分析，最后给出结论。 1常用编码识别算法 1.1基于字符集范围的识别方法虽然汉字编码方法众多，但是没有任何两种编码方法的编码范围完全重合，即每种码制都有自己特有的与其它码非重叠的编码空间，识别时只要出现了这种码制特有空间的字符，便可做出判断。如GB2312编码中首、尾字节的范围都是0xA1~0xFE，而BIG5编码的首字节范围是0xA1~0xF9，尾字节范围分为0x40~0x7E和0xA1~0xFE两个部分。尾字节0x40~0x7E的BIG5字符即可成为其区别于GB编码的特征。此方法简单易行，但是局限性比较大，若识别对象中没有出现某种编码特有空间的字符，则无法判断其码制。 1.2基于码制可信度的识别方法汉语中不同字符的使用频次相差较远，而相同字符在各种编码中对应内码也各自相同。所以，每个双字节序列在不同编码中出现的概率不同，在识别过程中利用这一性质，从头依次扫描所有双字节序列，若当前序列为Ci编码的概率最大，则Ci编码的可信度增加，直到某种编码的可信度达到预先设定的阈值，扫描停止，得出识别结果。该方法是广泛使用的一种识别方法，计算简单，但是识别的时间开销不确定，遇到连续ASCII编码时要扫描大段文本才能做出判断，难以满足实时系统的需求。 1.3 基于字的N－gram识别方法还有一种是基于字的N－gram识别方法[1]。首先在大规模语料中训练得到每种编码的字频，根据一元语法模型增量计算输入串是各种编码的生成概率，最后根据概率值