基于图像识别错位图书检测技术研究.docVIP

下载本文档

23
0
约5.25千字
约 11页
2018-08-29 发布于福建
举报
版权申诉

基于图像识别错位图书检测技术研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于图像识别错位图书检测技术研究

基于图像识别错位图书检测技术研究　　摘要：针对错位图书检测技术的应用，提出一种结合颜色及直线线段检测（LSD）的图书分割方法，以及基于索书标签的图书识别方法，同时设计了相关的实现算法。在LSD方法的基础上，根据在架图书的摆放信息、颜色分割后的部分图书标签、未分割图书标签的边界直线预测结果对未分割图书进行直线检测，增加了图书分割的准确率。将提出的检测方法分别与其他直线检测分割图书方法，以及图书识别方法进行对比。通过定量和定性分析，证明提出的方法确实能够得到更准确、更可行的分割和识别结果。　　关键词：图书检测；索书标签；直线分割检测器；轮廓局域增长；光学字符识别　　中图分类号： TN911?34； TP391.4 文献标识码： A 文章编号： 1004?373X（2016）05?0058?05 　　图书馆大量图书的借阅及归还时的不正确放置，造成图书管理人员大量重复的工作，也给估算在馆图书量以及读者查询、借阅造成极大不便。图像捕获以及图像处理设备的发展普及使得图书馆管理自动化成为可能。近年来，尽管人们对图书的分割、识别进行了较广泛的研究，并提出了许多新颖的分割、识别算法[1]，但是仍然很难得到准确的分割、识别结果。斯坦福大学的David Chen等人给出图书书库管理系统[2]，通过智能手机对书架上的图书进行采集图像，经过识别之后，通过互联网或者图书馆的数据库，可以得到图书的详细信息，包括书名、作者、价格等。而方向感应器以及高速网络访问使得低成本的自动跟踪成为可能[3]。本文主要针对错位图书检测技术涉及到的图书分割、图书识别两个方面进行了深入的研究，并且针对其中的难点提出了切实有效的解决方法。　　1 图书分割　　1.1 颜色分割　　图书馆中的索书标签存在单一的背景和前景（索书号），如白色的背景和黑色的文字，而且噪声少，如图1所示。　　由于索书标签一般在图书的底部，因此将感兴趣区域定义在原图像的下半部分，故需要处理的图像大小减少一半，减少了处理的时间和计算量。在这种情况下，利用特定的颜色可以快速定位同一幅图像中所有索书标签的大致位置。但由于实际环境的复杂性，如光线变化，遮挡，智能手机摄像头的限制，捕获的图像中出现图书曝光过足，书架靠近地面的部分光线不足，索书标签的白色区域亮度不足，书脊上除了索书标签其他部分也存在白色区域等难题。　　由于书脊整洁程度不一，光线变化，有些区域即使是同种颜色，经过一段时间使用，也变化较大，二值化后的图像存在面积小的噪声点或区域，而图书标签分割关注的感兴趣区域是比这些噪声面积大得多的背景是白色的标签，故可以利用图像处理形态学中的腐蚀方法剔除这些噪声[4]，腐蚀核大小为5，得到的结果如图2所示。　　由图2可以看出，书脊之间存在黑色的细缝，而这些细缝把大部分图书分割开来。再者在同一本书中索书标签与其他区域有明显的分割区域，故可以通过连通区域分析，把大部分索书标签分别表示成单独的连通区域。进一步分析，书脊上的一些字形成的连通区域，相对索书标签小很多，因此可以通过限制连通区域的面积大小，去除一部分小的白色连通区域，实验中，取面积阈值为30 000像素点，保留下的连通区域如图3所示，不同的连通区域用不同的颜色表示，得到的连通区域个数为14。　　1.2 基于LSD的图书分割　　经过颜色分割的局域主要是白色的部分，而这些局域可能不包括书脊边缘的直线，为了更好地检测到书本边缘的直线，这里增宽颜色分割后的各个局域，增宽的规则是向左向右分别延宽15像素，对在捕获图像中最左或者最右的局域，延长的最大宽度是15像素与局域左右边界到达相应图像边界的差值两者之间的最大值。　　采用line segment detector检测图像中的直线。考虑到图书馆中的图书一般竖直地摆放着，即使有些倾斜，倾斜的角度也不大，定义候选直线的倾斜角度范围为（[3π8，][5π8]）。图像中书脊边缘保持一个主方向角度，即MainAngle，实验中默认的值为[π2，]并且倾斜角度在主方向角度一定的范围内，在实验中，选择在最左边或者最右边20像素的局域中的直线，这些直线中的两个端点都在边界20个像素的范围内，再者另外一个条件是直线的倾斜角度与[π2]的差值要小于[π8，]则把这些符合条件的直线的倾斜角度定义为要进行直线检测局域的主方向角度。　　得到主方向MainAngle之后，保留与主方向角度偏差[π16]的直线。书脊边缘的直线相对书脊其他部分的直线如文字、图形中的直线要长，即在图像所占的比率大于某个阈值[2]，通过实验，定义候选直线占图像高度的阈值为0.15。经过上述规则可以得到书脊的边缘直线。根据得到的直线，用数组lines6表示，再将图书分割出来。图书的边缘存在多条直线，但都聚集在很小的区间