基于PCA变换和k近邻法的印刷体数字图像识别.docVIP

基于PCA变换和k近邻法的印刷体数字图像识别.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于PCA变换和k近邻法的印刷体数字图像识别.doc

基于PCA变换和k近邻法的印刷体数字图像识别 摘要:随着当今社会的日新月异及信息化进程的快速发展,我们如今正被数字化时代笼罩着,数字正朝着庖代我们对话语和文字的语言表达、记忆的方向进展。本文通过PCA变换和k近邻法对数字图像识别进行研究,比较了Bayes方法、最近邻法和K-近邻法的识别效率,最后通过PCA变换和K-近邻法的印刷体识别算法的系统设计实验,解释了K-近邻法的识别优势。 关键词:PCA变换;k近邻法;数字识别 中图分类号:TP391 1PCA的基本思想 PCA是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。 PCA所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为F1,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个变量的信息,再考虑选取F2即第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,通过数学表达就是要求Cov(F1,F2) 0,称F2为第二主成分,依此构造出第三、四……第p个主成分。 2k近邻法 2.1模式识别方法 模式识别是指对事物、现象的相关信息进行分析、处理从而进行有效的辨认、描述的过程,首先,选择一定的样本,结合样本间的相似度设计对识别样本进行分类决策的分类器。由预处理、模式特征或基元选择、识别组成,系统的简单框图如下图所示: 模式识别简单框图 2.2K-近邻法决策 一般意义上讲,在知道系统分布密度的条件下,Bayes理论所设计的分类器性能最越优,然而,在实际应用过程中,繁琐的系统分部密度求取经常给人们带来很多的不方便,且很多时候,参数或概率密度函数未知,所以,Bayes方法没能广泛应用,非参数模式识别分类方法一般能更好的解决模式识别分类问题,实际应用广泛。 k近邻法是非数模式识别决策分类方法中最重要的方法之一,它无须估计概率、概密度函数而结合样本特征信息进行决策的模式识别分类方法,如果准备了训练样本,该分类技术根据最近距离给识别模式给予分类,而不进行训练,具有直观、简单、高效等诸多特点。 设:c个类别ω1,ω2,…ωc的模式识别问题,ωi类中有Ni个样本向量xj(i),(i 1,2,…,c;j 1,2…,Ni),训练样本(所有类别)的总数: 。 在定义模式相似性测度后才能划分模式的类别,并通过划分模式类别来表征模式间的相似度。x、y之间的向量差可以度量模式特征向量x、y的相似度,记录该向量差为距离d的欧式范数,即欧式距离:d(x,y) ||x-y||2 ||x-y||。该距离具有平移不变性、旋转不变性。 最近邻法之模式识别分类思想为:待识别模式向量假设为x,计算x与各已知类别的样本模式向量xj(i)的距离,把它判决为最短距离的样本所属类别。 由最近邻法的分类思想给出定义ωi类的判断识别函数为: (1) 判别决策的规定原则为:如 ,则,把它判决为x∈ωm类。此方法研究距离x最近的训练样本的类别来判决x的类别,所以,定义此方法为最近邻法。 如果就单个样本,难免会有偶然性效应,为此,实际操作过程中,可以观察待识别模式向量的k个临近样本,从而总结得出在这k个临近样本中所属样本最多的类别来决策类别,以增加分类的可靠性。设k1,k2,……,kc为x的最近邻的k个样本分别属于ω1,ω2,…ωc类的样本数,即 ;在ωi类中具备Ni个样本训练模式向量xj(i),(i 1,2,…,c;j 1,2…,Ni),训练样本(所有类别)的总数为 。 ωi类的判断识别函数定义为gi(x) ki,i 1,2,…,;判别决策的规定原则为:如 ,则,把它判决为x∈ωm类。此方法一般称其为k-近邻法。 k-近邻法统计意义上的解释由Cover和Hart给出,研究结果证明:当待识别模式向量x的最近邻k和训练样本总数N和→∞,且k/N→0时,k-近邻法的分类误识别率与Bayes决策的分类误识别率相等,当样本数量N→∞时,k-近邻法性能表现。 当k值小于各类样本的最小值时,k值与算法的稳健性成正比,即k值越大,算法越稳健,如果不具备k值小于各类样本的最小值,近邻就不是样本的局部近邻,有研究指出k取值为 或 。k-近邻法以k值为数,像票决一样,尽可能避免票数相

文档评论(0)

lmother_lt + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档