基于多约束条件中文碎片拼接复原算法设计.docVIP

基于多约束条件中文碎片拼接复原算法设计.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于多约束条件中文碎片拼接复原算法设计

基于多约束条件中文碎片拼接复原算法设计   摘 要:文章对纵横切中文碎纸片的拼接复原问题进行了分析,对碎片图像进行数字化处理,采用灰度相似性比较的方法,利用循环遍历的思想匹配碎片;接着对图像进行二值化降噪处理,去除干扰元素,考虑到传统匹配算法下存在多种匹配、错误匹配、重复匹配的问题,设计基于多种约束条件的中文碎片拼接算法;最后利用编程实现得到完整的复原图形,该算法提高了碎片拼接复原效率和精准度。   关键词:碎片复原;相似性比较;多约束;匹配模型   中图分类号:TP391.41 文献标识码:A 文章编号:1006-8937(2014)6-0132-02   传统破碎文件的拼接复原工作需由人工完成,效率很低。随着计算机技术的发展,人们试图开发碎纸片的自动拼接技术,以提高拼接复原效率。本文对2013高教社杯全国大学生数学建模竞赛B题中提出的碎纸片拼接复原问题进行研究,主要研究纵横切中文碎纸片的拼接复原问题。   1 灰度值的相似性比较   1.1 提取边缘灰度值   ①在得到所有图像的灰度值矩阵后,提取每组矩阵左边缘的灰度值,根据左边缘的灰度值的特点,判断该图像是否为第一张图片,若左边缘灰度值均为255(全白),则表示该列无文字信息,即可确定复原的第一张图片。   ②提取第一张图像灰度值矩阵的右边缘灰度值,并与其他图像的左边缘灰度值作相似性比较,确定与之匹配的图像。   1.2 欧氏距离比较矩阵边缘灰度值相似性   欧氏距离(Euclid Distance)也称欧几里得距离,是一个通常采用的距离定义,它是在维空间中两个点之间的真实距离。在二维空间中的欧氏距离则为两点之间的直线段距离,其表达如下:   d=■   在确定灰度值相似性时,根据欧氏距离最短的准则,对于一张分辨率为m×n的数字图像,用欧氏距离法确定出的的表达式为:   d=■   其中i=1,2……19,且i≠k,k表示要匹配的图片序号。   1.3 循环遍历搜索   根据欧氏距离最小原则的相似性比较,匹配出与第一张图片相匹配的图像,然后将该图像作为待匹配的图像,寻找下一张与之匹配的图像,利用循环遍历搜索的方法,得到匹配顺序。最后??照匹配顺序,绘制复原图像。   2 算法设计与模型求解   2.1 图像二值化降噪处理   由于每张图片都存在着噪点这些干扰因素,所以接下来运用二值化的方法对图片进行降噪处理,为了改善图像上的显示效果,需要人为的选取适当的阈值以便得到更合理的二值化图像。   具体算法步骤如下   ①计算机编程读取BMP图片灰度值;   ②选取适当的阈值;   ③判断该像素点是否为噪点。若是,则视为背景色像素,否则视为文本内容;   ④根据背景色与文本内容确定出文本内容边界;   ⑤重复步骤3,直到识别出清晰图像;   ⑥重置灰度;   ⑦存储BMP灰度数据。   在得到每一行首张图像的基础上,采用问题一的算法,比较灰度值矩阵的相似性,找出水平方向上与第一张图像相匹配的碎片,然后利用循环遍历搜索法,找出与上一张匹配的碎片。   理论上能够搜索出每一行的所有匹配图像,但程序运行中会出现多种情况而导致程序停止运行,不能匹配出一行的图像。出现有以下情况:匹配过程中出现多张碎片能够与上一张匹配、图像的错误匹配、图像的重复匹配。   2.2 图像黑白间隔化——条件1   为了减少“出现多张碎片能够与上一张匹配”和“图像的错误匹配”情况发生的概率,采用将碎片图像黑白间隔化的方法,使图像的匹配精度更高。   具体实现方法如下:   ①对各个图像矩阵进行二值化处理,使矩阵中的值只包含0和1;   ②对于有72×180个像素点的图像,从矩阵上边缘开始搜索,判断是否出现文字信息(即该行中出现0);   ③若出现文字信息,则将该行的值全部赋予0,即全黑化;   ④重复的步骤,是含有文字信息的行均变成全黑;   ⑤搜索出180个像素点后,图像即呈现出黑白间隔化。   例如,将附件3中序号049和054碎片拼接后作黑白间隔化处理过程如下图1所示。   特别地,对于某些碎片图像有较大一部分空白的情况,根据我国文字分段常识,可以判断出这些空白区域是可以有文字的,但可能由于分段原因,使得这一部分看起来没有文字。若空白区域有文字信息,则碎片的匹配准确率更高。对于这种情况,处理方法如下:   根据该碎片中已有文字的行间距计算空白区域中可有文字的位置,行间距值d为上一行文字的下边缘与下一行文字的上边缘的高度差,即为   d=ai-aj   则空白区域中文字可占用的位置为   s=az+d   其中,ai、aj、az分别为文字图像的矩阵各个位置的行向量。   利用matlab编程得到该情况黑白间隔化图像如下

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档