- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于噪声建模技术手写体数字去噪方法
一种基于噪声建模技术的手写体数字去噪方法
【摘要】:文章研究的是在手写体数字字符图像上的孤立噪声移除问题,提出了一种基于噪声建模技术的新方法。新方法主要针对于难以处理的斑块状噪声的移除,通过模型判断并移除噪声。一种基于投影算法的模型用于移除位于字符两边的噪声,而一种基于神经网络的模型用于移除字符中间的噪声。另外,新方法对字符形态没有改变,保留了数字的原始信息。我们对约4000张带噪字符集进行实验,平均去噪错误率小于0.7%。
【关键词】:噪声移除;噪声建模;手写体数字
中图分类号:TB5 文献标识码:B 文章编号:1002-6908(2007)1110045-02
一、引言
在光学字符识别(OCR)系统中,当识别带有噪声的字符图像时,往往分类器的表现会大打折扣。尤其是对基于结构技术设计的分类器而言,更是一个必需解决的问题[1]。所以,出现了很多方法用来移除噪声或降低噪声的干扰。主要分为下面两种技术:
1.滤波:滤波作用主要是用于平滑图像或背景,使之能够更好地进行后续处理。滤波主要包括卷积操作和形态学操作。一般来说,滤波运算更适合移除面积较小的椒盐状噪声。
2.噪声建模:主要通过一些测度量来检测并移除噪声。由于引入噪声的情况很多,诸如光学扫描和书写时的人为因素,复杂背景下的阈值运算等等,各种因素使得噪声具有很大的随机性,所以对噪声建模的研究十分有限[1, 2]。
基于上述情况,文章提出了一种基于噪声建模技术的新方法。该方法用于移除难以处理的斑块状噪声,同时可以保留破损字符的笔划。第2节中,描述了从MNIST字库中抽取并建立了两个子集,约4000张带噪字符图像,用于噪声移除实验。同时定义了用于建模的特征因子,还提出了用于评估方法效果的测度参数。在第3节,我们提出了两个噪声模型:一个基于投影模型,用于移除字符两边的噪声;另一个基于神经网络(ANN)模型,用于移除混淆于字符中的噪声。第4节给出了移除噪声的全部算法框架。通过实验证明了该算法的鲁棒性,其错误率小于0.7%,可靠性大于99%。最后,第5节对方法进行了总结。
二、数据集和测度参数
在一幅手写体数字图像中,我们将一块前景连通域称为一个物体。据统计,拥有最大面积的物体总是属于数字本身,或数字的一部分,称为主物体。小于这个面积的物体,我们称之为副物体(图1)。
图1:带噪数字字符图像中的主物体和副物体。黑色部分是一个数字的主物体,而灰色部分是一个数字的副物体。其中,左边数字有2个副物体,右边数字有3个副物体。
2.1 数据集
MNIST是一套著名手写体数字字库。其中,每张样本图像均为28×28大小的灰度图。为了研究问题的方便,我们在MNIST字库中提取并组合出两套带噪的子字符集,设为MB1和MB2。首先,我们使用全局最大方差阈值[4]对MNIST字库进行了二值化,并抽取结果中所有带噪图像,组成MB1。又对MNIST字库使用局部阈值算法进行二值化,对结果取出所有带噪图像,组成MB2。带噪图像的判断方式是,检测一幅图像中存在的物体(连通域)数目。如果物体数目大于1,我们认为是一幅带噪图像。最后MB1共1702张样本,MB2共2945张样本。
这里我们采用的二值化算法分别为,全局方差阈值和局部8-邻域均值阈值。和前者相比,后者对布局信息的敏感程度更高,从而会保留更多像素,但这样会使得边缘轮廓锯齿状增多,并引入的更多的孤立噪声点。
2.2 特征参数
我们对一幅数字字符图像抽取了下列特征参数:
(1)物体数(NOM):即在一幅图像M中,物体的总数。
(2)物体面积(Sk):第k个物体Ok的面积:Sk=count(p(x, y)), (p(x, y) ∈Ok),其中p(x, y)为坐标(x, y)处的像素点。
(3)物体高度(Hk):第k个物体Ok的高度:Hk=|ybottom-ytop|,其中ybottom为物体最低点的y轴坐标,ytop为物体最高点y轴坐标。
(4)物体宽度(Wk):第k个物体Ok的宽度:Wk=|xright-xleft|,其中xright为物体最右边点的x轴坐标,xleft为物体最左边点x轴坐标。
(5)距离(Dkj):Dkj指为一个物体k到另一个物体j之间的欧式距离,并以像素为单位。
2.3 去噪效果评估参数
一般来说,评估去噪方法的效果和可靠程度,需要下列参数:
(1)去噪率=去噪总数/样本总数;
(2)拒绝率=拒绝总数/样本总数;
(3)正确去噪率=正确去噪数/样本总数;
(4)错误去噪率=错误去噪数
您可能关注的文档
最近下载
- 新探索研究生英语(基础级)读写教程课件unit2-2.pptx VIP
- ZZ058 动漫制作赛题 第3套-2024年全国职业院校技能大赛双数年拟设赛项赛题.pdf VIP
- 财务管理(山东财经大学)智慧树知到期末考试答案2024年.docx VIP
- 中国社科院社会学硕士研究生入学考试真题带答案.docx VIP
- 2025年中国铁路北京局招聘(2124人)笔试参考题库附带答案详解.pdf
- 《已知一个数的几分之几是多少,求这个数》课件.pptx VIP
- 建军大业作文课件.pptx VIP
- 医疗护理员课件.pptx VIP
- 环境管理学课件.pptx VIP
- 【原创】 2021八省联考英语读后续写方法探究.docx VIP
文档评论(0)