图书馆藏书索书自动识别中关键技术的研究.pdf

图书馆藏书索书自动识别中关键技术的研究.pdf

  1. 1、本文档被系统程序自动判定探测到侵权嫌疑,本站暂时做下架处理。
  2. 2、如果您确认为侵权,可联系本站左侧在线QQ客服请求删除。我们会保证在24小时内做出处理,应急电话:400-050-0827。
  3. 3、此文档由网友上传,因疑似侵权的原因,本站不提供该文档下载,只提供部分内容试读。如果您是出版社/作者,看到后可认领文档,您也可以联系本站进行批量认领。
查看更多
图书馆藏书索书自动识别中关键技术的研究

图书馆藏书索书号自动识别中关键技术的研究 摘要 图书馆中的每本图书都有一个索书号,它能准确地确定图书在书架上 的排列位置。但是,图书经常会被放错位置,致使读者无法找到这些图 书,严重影响图书的管理工作。目前依靠人工纠错,由于馆藏图书数量 大,借阅的人数多,人工检测错放图书的工作量非常大。本文采用索书 号自动识别的技术自动检查、找出错放的图书。本课题由上海交通大学 图书馆提出。 虽然文字识别技术已在众多不同领域得到应用,如汽车牌照识别,邮 政编码识别以及视频图像中的文字识别等,但有关图书索书号文字识别 的研究和文献却是至今未见报道。由于图像易受环境影响,因此不同领 域的图像差别很大,其所需解决的问题也各不相同。索书号图像存在的 主要问题如下:(1)光照条件无法控制:(2)索书号与其他文字,如出版社、 书名等混合在一起;(3)墨汁、污迹等污染严重;(4)长时间的使用,索书 号存在不同程度的褪色;(5)有的索书号中存在残缺字符。针对上述问题, 本文对图书索书号识别中的几个关键技术进行了全面的研究。 在图像中的文字定位和分割技术方面,首先提出了基于文字笔画宽度 的文字边缘点滤波算法。该算法利用相邻边缘点距离统计检测笔画宽度, 根据同一文字区域的文字笔画宽度相近的特点进行边缘点滤波。实验表 明,该滤波算法能有效抑制背景的干扰,解决基于边缘点数量统计的文 字分割算法易受背景干扰的问题,从而改善其文字分割算法性能。其次, 提出将纹理和连通域特征相结合的文字分割方法,使得基于纹理特征和 连通域特征文字分割方法的优缺点能够相互弥补。结合上述提出的文字 边缘点滤波方法,利用边缘纹理特征实现文字的粗定位。然后,利用文 字连通域特征实现文字区域的校验和细定位。该算法的文字区域检测率 达到了91.47%,错检率为9.63%。最后,在索书号的定位和分割中,提 出了基于梯度差的文字笔画模型。该模型能有效克服索书号存在墨汁、 污垢和光照较暗的问题,检测出文字像素点,文字像素点形成连通域, 经连通域滤波、合并后形成文字区域。利用MLP神经网络从中选出真正 的索书号字符区域。算法的索书号检测率接近96%,错检率接近3%, 漏检率为1%。 在文字图像的二值化处理方面,提出了利用文字笔画模型进行初始二 值化,在此基础上检测笔画宽度,并根据笔画宽度自适应地调整局部区 域大小和局部阈值的二值化方法。实验结果表明,该方法能克服光照变 化、墨汁污染和褪色等的影响,保持文字笔画的连续性和完整性。 在粘连字符的切分方面,分析了二值化后的索书号粘连字符的笔画粘 连和切分对笔画变形的影响,提出了基于上下凹凸轮廓检测的粘连字符 切分方法,并根据切分处2个笔画的宽度比,对切分后的笔画变形进行 了修复。对索书号的粘连字符切分实验表明,正确率达到了93%。 在残缺字符识别方面,提出了分解文字轮廓后,提取轮廓的宽度统计 特征和突变、竖、左斜、右斜、圆弧等结构特征。运用粗糙集理论的知 识约简,选择特征,建立字符识别的最简决策规则,采用结构语句识别 方法识别残缺数字字符。实验表明,该方法对残缺和完整数字字符的识 别正确率分别为91.8%和97.6%。 图书索书号自动识别中关键技术的研究解决了错放图书的检测问题, 开拓了文字识别技术应用的又一新领域,同时丰富了图像分割和识别的 理论。 关键词:索书号,机器视觉,文字定位,二值化,文字分割, 文字识别 RESEARCHoNKEYTECHNOLoGYOF AUTOMATICCAI J.NUMBERSRECoGNITIoN FOR UBRARYBoOKS ABSTRACT Eachbookin hasa callnumber.Acallnumbercantell library umque wherebookislocatedin are some readers the library.However,therealways

文档评论(0)

qiaochen171117 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档