一种多分类器融合的维吾尔语联词表达方式.docxVIP

  • 6
  • 0
  • 约4.66千字
  • 约 5页
  • 2023-09-08 发布于广东
  • 举报

一种多分类器融合的维吾尔语联词表达方式.docx

一种多分类器融合的维吾尔语联词表达方式 1 辅助特征设计 维尔语作为新疆近1000名彝族人口使用的语言和官方语言之一,具有广阔的市场应用前景。这项工作对维尔语的信息研究非常重要。几十年手写识别研究的积累使得联机汉字手写输入识别系统已满足实用化需求。而维吾尔语手写识别技术近几年来虽然取得了很大的进步, 但距离实用化依然存在较大的差距, 特别是支持联机整词输入识别的系统和方法。 文献提出一种基于BP神经网络实现联机手写维吾尔文字母识别的系统和方法。该系统首先从所输入的单字母中提取笔迹相关特征, 包括笔画数、点数、点位置等为主要特征, 主线X轴方向最大穿越次数、主线Y轴方向最大穿越次数、附件X轴方向最大穿越次数、附件Y轴方向最大穿越次数、环数、主线落笔与抬笔两点△x与△y的大小比、主线宽高比、主线落笔位置、主线抬笔位置、主线落笔象限、主线抬笔象限等辅助特征, 共计15种特征, 接着将其作为特征输入送入系统预置的神经网络计算所述神经网络的相应输出, 确定该笔迹输入的字母标注。该系统的识别准确率较高, 但仅能支持单一字母的识别, 并不能满足维吾尔语输入的实际应用需求。维吾尔语通常以词为基本单位实现连续输入, 如果将一个词语中的字符逐个书写并逐个识别很容易影响手写输入的连贯性。 维吾尔语整词识别是维吾尔语手写识别应用实用化亟待解决的问题。维吾尔语是一种拼音式文字, 按照从右向左的顺序先后书写。维吾尔语在联机手写输入时, 同一字母由于词中的位置不同而写法不同, 同时写法也千差万别。此外不同用户书写时往往带有明显的个人习惯, 就算是写的相同单词, 其字形变化也很大。显然如何设计一个能很好识别各种不同书写风格的维吾尔语词语识别系统具备很大的研究价值。 对此, 本文提出了一种基于多系统融合的方法, 有效提高了维吾尔词语联机手写识别的准确率。具体的系统首先在大规模训练数据上分别训练得到各词语单元的基于混合高斯模型 (Gaussian Mixture Model, 简称GMM) 的词语静态模型以及基于隐马尔科夫模型 (Hidden Markov Model, 简称HMM) 的词语动态书写笔迹模型。随后对接收到的联机词语笔迹输入, 分别计算其相应于各词语单元的GMM模型的似然度及HMM模型的似然度, 并对其进行得分融合。最后系统选择具有最大似然度得分的词语单元为识别结果。该方法在大量维吾尔语手写词样本上进行测试, 具有较好的识别性能。相对于传统基于BP神经网络的算法和基于HMM的字母建模的方法, 在识别正确率和速度上都有非常显著的提高。 2 维吾尔文的声母结构 在历史上, 维吾尔族使用过回鹘文、突厥文、察合台文。现代维吾尔语属于阿尔泰语系突厥语族。维吾尔文与新疆的哈萨克文、柯尔克孜文等都属于以阿拉伯文为基础的拼音文字。维吾尔文是以词为单位来书写的, 词由一个或多个字母组成, 词和词之间必须留有一定的空隙。维吾尔文字母结构特征较明显, 主要有以下几点: 1) 字母不等宽而且某字母的四种形式也不等宽。不但字母宽度不同, 而且有时候还增加额外的连字符。同一个词根往往有不同的书写形式, 同一个附加成分往往有几种变体。在维吾尔文字中使用何种书写形式根据字母在字中的位置来确定, 完全不同于汉字、英文等。32个字母中21个字母有单立式、后连式、双连式和前连式形体。11个字母有单立式和前连式, 其中25个字母有四种书写形体, 5个字母有两种书写形体, 2个字母有八种书写体, 32个字母共有126种书写形体。所以会造成字形变化很大。这些都会给联机手写识别带来很大的困难。 3 基于双引罪犯模型的大规模训练数据输出 手写识别主要流程如图1所示, 对给定的笔迹输入O确定其对应的整词模型或文本结果。手写识别系统就是为了寻找一种函数转换关系:W=f (O) 以获得具有最小错误率的结果输出。手写体识别是模式识别的一个重要分支, 其主要的指导思想贝叶斯后验概率如式 (1) 其中, W是对于所有的文本, W*是手写体识别中最具可能性的输出, O是观测向量, 最具可能的输出W*就是寻找到最接近的观测向量O。p (O|W) 是指手写模型得分, p (W) 是指语言模型得分。得分最高的也就是最具可能性的输出W*。 对接收到的笔迹输入, 系统依次执行:特征提取和手写模型匹配等操作。其中特征提取主要用于获取笔迹样本点序列的书写特点, 进一步地在特征提取前还可通过预处理算法对采集到的笔迹采样点序列进行去噪、归一化、平滑等处理, 以提高鲁棒性。手写模型匹配是整个识别的核心部分, 主要通过计算提取的特征相应于预设模型的相似度确定可能的输入文字标注。常见的分类器有人工神经网络 (ANN) 、支持向量机 (SVM) 、隐马尔科夫模型 (HMM) 等。 显然模型的精细度及准确程度将直接影响到识别系统的性能

文档评论(0)

1亿VIP精品文档

相关文档