- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
碎纸片的拼接复原分析
碎纸片的拼接复原
摘要
本文利用MATLAB软件将附件图像数字化,把图像转化为灰度矩阵进行处理。
问题一,本文利用边缘匹配模型和灰度匹配模型对碎纸片的边缘作分析。基于,边缘部分的黑白分布越相近,两者相连的可能性越高的原理,得到附件1的排序是008,014,012,015,013,010,002,016,001,004,005,009,013,018,011,007,017,000,006 。附件2的排序是003,006,002,007,015,018,011,000,005,001,009,013,010,008,012,014,017,016,004。
问题二,本文首先按行将小块进行分类,以简化模型。在附件3中,将碎纸片分组,对分完组后的碎纸片采用字体矩形模型,实现同行间排序,将得到的行再通过匹配模型,从而拼出原文。而对于附件4,本文建立四线格位置模型,将碎纸片进行分组。计算过程中发现部分标号基线相同,但却与不同的行对应匹配,此时进行人工干涉。然后运用行内匹配模型,对同行间的碎纸片排序。附件3、附件4的排序结果见附录一。
关键词:灰度矩阵,匹配模型,相关性分析,三线格基线,人工干涉,最优化
一.问题重述
破碎文件的拼接一直以来都以人工为主,其准确度较高,但效率较为低下,不能承担短时间内完成巨大数量的碎片拼接任务,遏制了在司法物证复原、历史文献修复以及军事情报获取等领域的进一步发展。随着计算机技术的发展,我们尝试运用计算机软件来实现对破碎文件的迅速拼接。现问题如下:
(1)、对于给定的来自同一页印刷文字文件的碎纸机破碎纸片(仅纵切),建立碎纸片拼接复原模型和算法,并针对附件1、附件2给出的中、英文各一页文件的碎片数据进行拼接复原。如果复原过程需要人工干预,请写出干预方式及干预的时间节点。复原结果以图片形式及表格形式表达。
(2)、对于碎纸机既纵切又横切的情形,请设计碎纸片拼接复原模型和算法,并针对附件3、附件4给出的中、英文各一页文件的碎片数据进行拼接复原。如果复原过程需要人工干预,请写出干预方式及干预的时间节点。复原结果表达要求同上。
说明:附件1、附件2为纵切碎片数据,每页纸被切为19条碎片。附件3、附件4为纵横切碎片数据,每页纸被切为11×19个碎片。其中每一附件为同一页纸的碎片数据。
二.模型假设
1.附件中所给的拼接碎纸片毫无缺失。
2.附件中的英文严格按照四线格方式打印。
3.机器印刷时的字间距和行间距大致相同。
4.碎纸机切割图片是垂直的。
5.碎纸机切割的碎纸片大小相同、质地均匀。
6.所有的碎纸片由同一碎纸机切割。
7.每个附件中所有的碎纸片来自于同一页文字文件。
三.符号说明
符号 符号说明 相关系数 灰度矩阵 碎纸片左边缘矩阵 碎纸片右边缘矩阵 编号为i的碎纸片,第j行k列的灰度值 相关系数 四.问题分析
碎纸片拼接技术是模式识别领域中一个较为新颖但很典型的应用。他涉及到数字图像处理,机器学习等多个学科,充分体现了当下多学科思想交融的学科特点。一般情况下,在碎纸片拼接过程中涉及数字图像处理技术,如图像分割,边缘提取等知识。解决此类问题有两种手段,一种是根据非规则的碎纸片平面来建立模型,实现碎纸片复原;另一种是根据碎纸片的内容来进行碎纸片拼接,或者综合以上两种方法。
本题比较特殊,第一问只考虑纵切单面碎纸片,第二问考虑横纵向切单面碎纸片。与此同时,解决问题的方法也带来了局限性,也就是机器拼接复原碎纸片所能利用的信息仅局限于规则碎纸片的边缘内容的连续性。
本文正是基于上述的考虑,我们将纸张的边缘部转化成为一连串由0与255相间的一个矩阵,由于文字的笔画是连续的,则两张纸片对应的边缘部分,其黑白点的分布应当具有一定的规律性,所以我们可根据纸片边缘文字被切割部分来判断纸片是否连续。
五.模型建立与求解
5.1 模型预处理
由于纸片本身是图像,计算机无法直接对图片进行识别和处理,我们要将其转换成电脑可以处理的数据来进行操作。本文使用matlab软件中的imread函数,来实现将附件中的图片转化成灰度矩阵
白色即255,黑色为0,中间数值即为不同深度的灰色。处理之后,可将所有图片信息转化成矩阵里面的元素。
5.2 问题一的求解
考虑到纸片被规则纵向切开后,在切开的相邻纸片边缘部分的内容应当是具有一定规律的,即所代表的灰度矩阵在横向上应当具有一定的数值连续性,也就是被切开部分的边缘,相连纸片间灰度矩阵的变化是稳定的。
5.2.1 基于边缘匹配模型求解
附件一中所显示的纸片一共28行,第i块单元纸片的灰度矩阵设为
即每个纵向分布了1980个点,28/1980=0.0141,也就是每个点包含0.014个字(含行间距),说明这个灰度矩阵的精度还是很高的。
取每个单位碎纸片灰度矩阵的最左边的一列,
文档评论(0)