基于仿射传播聚类自适应手写字符识别.docVIP

下载本文档

2
0
约4.95千字
约 10页
2018-08-28 发布于福建
举报
版权申诉

基于仿射传播聚类自适应手写字符识别.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于仿射传播聚类自适应手写字符识别

基于仿射传播聚类自适应手写字符识别　　摘要对于手写字符识别过程中相似字符较多且相同字符存在大量不规则书写变形的问题，提出一种改进的仿射传播聚类算法加入手写字符识别过程中。该算法基于原始仿射传播（AP聚类算法，将其与聚类评判函数Silhouette结合，通过AP算法迭代过程自适应地改变偏向参数以调整类别数，并且结合每次聚类质量得到最优聚类结果。基于手写汉字识别的实验结果表明，加入了原始AP算法的识别率比传统识别过程得到的识别率总体提高1.52%，而加入改进AP算法的识别率又比加入原始AP算法的识别率总体提高了1.28%。该实验结果验证了加入聚类算法于手写字符识别过程的有效性，而改进AP算法相比原始AP算法在收敛性和聚类质量上都有一定的提高。　　关键词仿射传播聚类；手写字符；评判函数；偏向参数；聚类质量　　中图分类号 TP391.1 　　文献标志码 A 　　0引言　　汉字识别是人工智能和模式识别中重要的组成部分，脱机手写汉字识别是当前模式识别研究领域中最具挑战性的任务之一。由于每个人的习惯和特点不同，相同汉字的手写体最终的表现形式往往差别很大，如字体变形、汉字结构不规范等问题[1]。脱机手写汉字不同于联机手写汉字，通常无法得到写字的力度、速度、笔画顺序等信息，所以目前针对手写体汉字的识别效果还不太理想，这主要是由于低质量的手写汉字样本书写笔划不规范，得到的文字文本图像不清晰等原因造成。因此，如何将多种变形写法的相同字细分类，且区分差别细微的相似字来提高分类器的推广能力成为了手写汉字识别研究的关键问题之一[2]。目前较常用分类器有欧　　氏距离分类器、改进的二次判别函数分类器、贝叶斯分类器及支持向量机分类器等。本文主要阐述加入聚类算法后对手写汉字识别的作用，因此使用较原始分类器――欧氏距离分类器以验证聚类算法本身对手写汉字识别的效果。手写汉字识别过程如图1所示。　　图片　　图1手写汉字字符识别过程　　聚类分析是依据实验样本本身具有的定量特征，以相似性为基础对大量数据进行分组归类，每个类中的对象相似度较高，类与类之间的对象相似度较低[3]。因此，结合聚类算法自身特点，以区分差别微小的相似字且将相同字不同写法分开的缘由，本文尝试将聚类算法加入自然手写汉字识别过程中。　　1聚类算法研究　　1.1AP算法　　仿射传播（Affinity Propagation，AP聚类算法 [4]，又称为AP聚类算法是2007在《Science》上提出的一种新的聚类算法，它的快速、有效性体现在处理大数据集的聚类问题上，且该算法有无需事先定义类别数，多次独立运行的聚类结果一般都十分稳定等特点。该算法应用在人脸图像聚类、基因表达数据的基因识别、手写文档相似内容聚类、最优航空路线确定等问题上取得较好的效果[5-6]。实验结果表明，AP算法在很短时间内就能得到传统K均值聚类算法花费很长时间才能达到的聚类结果[7-8]。　　图片　　图2AP算法中两种类型消息的关系　　为了能够划分模式的类别，则需根据样本自身特点定义模式的相似性测度，以此来描述各样本间相似程度。而样本间的相似性有多种，对于空间模型，有高斯相似性、距离相似性等。而AP算法正是基于样本间相似度矩阵进行聚类的。AP算法是用置信度的总和得到最优类别的聚类算法。它是一个最初将所有样本点都视为潜在候选聚类中心，递归传输任意两样本间的实值消息直到得到高质量的聚类中心的过程。AP算法传递两种类型的消息，吸引度（responsibility和归属度（availability[9]。r（i，k表示从点i发送到候选中心k的数值消息，反映k点是否适合作为i点的聚类中心，即为i考虑潜在候选中心；a（i，k表示从候选中心k发送到i的数值消息，反映i点选择k作为其聚类中心的合适程度，即考虑其他点对于k作为聚类中心的支持程度。其算法机制如图2。给定包含N个样本的相似度矩阵[S]N×N，两点间相似度值越大说明点与点的距离越近。通过多次迭代后，得到收敛的聚类中心分配到各样本c=[c1，c2，…，ci，…，cN]使得对于每个样本下列函数值最大化：　　ci=arg maxj[a（i， j+r（i， j]（1 　　其中r（i，k和a（i，k相关计算如下　　r（i，k=Sik-maxk′≠k[Sik′+a（i， j]（2 　　a（i，k=min[0，r（k，k+∑i′{i，k}max[0，r（i′，k]]； k≠i（3 　　a（k，k=∑i′≠kmax[0，r（i′，k]（4 　　当局部ci值保持不变时，消息传递过程将停止。　　AP算法和传统的Kmeans聚类算法都采用划分聚类的思想，但其原理有很大不同。针对初始候选聚类中心，AP算法将所有样本都视为候选聚类中心，