破碎文件拼接数学建模论文.doc

下载文档 降价啦

2
0
约1.65万字
约 32页
2017-12-19 发布于江苏
举报
版权申诉
保障服务

破碎文件拼接数学建模论文.doc

1、本文档共32页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

破碎文件拼接数学建模论文

摘要破碎文件的拼接在司法物证复原、历史文献修复获取等领域。破碎文件的拼接在司法物证复原、历史文献修复获取等领域都有重要的应用。传统上，复原工作需由人工完成，准确率较高，但效率很低。特别是当碎纸片数量巨大，人工拼接很难在短时间内完成任务。随着计算机技术的发展，人们试图开发碎纸的自动拼接技术，以提高拼接效率。对于来自同一页，建立碎纸拼接算法，并附件进行复原对情形，模型和算法，并附件数据进行复原。由于文字文档的行方向平行且单一，如果碎纸片内的文字在碎纸片边缘断裂，那么与它相邻的碎纸片在边缘处一定有相同高度、相同间距的文字行，凭此特征可以很容易地从众多规则碎纸片中挑选出同行碎纸片[1]。基于此，利用碎纸片内文字行特征拼接由碎纸机破碎的文字理论上是可行的。首先，考虑到文本文件最左侧端的碎纸片有其独有的特征，即第一个宽度值是文件的左侧页边距，第二个宽度值是一个文字的宽度值。根据此特点，可以将最左侧端的碎纸片与其他位置的碎纸片区分开来，也就可以把位于文字文件最左侧端的11个碎纸片搜索出来。然后，计算出所有碎纸片（209个）的第一个（按由上往下的顺序）完整字到碎纸片顶端的距离，并将所有碎纸片的两两求绝对差值，。以最左侧端的11个碎纸片为依据，分别搜索出与最左端字片的较小的前18个碎纸片，判断这些碎纸片是否与最左边的11个碎纸片处于同一行。接着，考虑这些处于同一行的碎纸片，将其拼接匹配，与第一问将仅纵切的碎纸片拼接问题原理一样。因此，对同一行的碎纸片拼接问题可以转化为对仅纵切的碎纸片拼接问题，可以用问题一的碎纸片拼接匹配方法将其拼接。最后，根据文字行的特征，上下相邻两行之间所有断裂文字的字高之和应该是固定的。可以以此特征为依据，将行与行的碎纸片进行拼接匹配。最终可以完成对纵横切的碎纸片的拼接匹配。 2.3问题三的分析该问题要求对于纵横切的英文，以及双面打印且纵横切的情形，设计拼接复原模型和算法。基于英文的特殊性，我们决定将原问题二中的纵横切英文碎纸片放到问题三中讨论。理论上，只要对于一面的英文碎纸片拼接完成，那么另一面的碎纸片自然就是对应拼接的。考虑到英文字母和汉字的区别较大，对于汉字而言，汉字的字高都是相同的，而对于英文字母而言，由于字母的不同会导致字高的不同。因此，首先需要对问题二中的同行判断条件进行改进，使改进后的条件能将位于同行的英文碎纸片搜索出来，即可完成对英文碎纸片的同行搜索过程。然后，对纵横切英文进同行的匹配。对于纵横切的英文，以及双面打印且纵横切的情形，设计拼接复原模型和算法。英文同行碎纸片匹配与纵横切的中文同行碎纸片匹配原理类似，因此，对纵横切英文同行碎纸片匹配问题也可以转化为问题一中碎纸片匹配问题。即可完成对纵横切英文同行碎纸片匹配。最后，对纵横切英文进行行与行的匹配。由于英文字母中存在许多类似于“j”、“f”、“P”等特殊的字母，所以，在纵横切英文行与行匹配时，需要同时加入人工干预，方可完成单、双面纵横切英文碎纸片的拼接过程。 3.模型假设假设所给附件中所有图片中的汉字字号、行距、列宽以及页边距均一样；假设所给附件中所有图片中的英文单词字号、行距、列宽以及页边距均一样；假设所有纸张是由同一种碎纸机切割的。 4.模型的建立及求解 4.1问题一的模型建立与求解 4.1.1基于边缘矩阵匹配度最优搜索算法的规则碎纸片拼接模型（1）边缘矩阵匹配度最优搜索算法流程图根据问题分析，要对来自同一页且仅纵切的由碎纸机破碎的文字文件进行拼接匹配，可以用计算机将其表示为矩阵并对其进行匹配。因此，本节讨论用Matlab软件对附件一和附件二的碎纸片进行处理，通过对碎纸片边缘矩阵分析，进而对碎纸片进行匹配，完成对同一页文字文件的复原。模型流程图如下图1所示：图1：规则碎纸片拼接算法流程图其中，255表示白色，0表示黑色。在Matlab中用矩阵表示出所有碎纸片后，本文采取搜索原本位于一页文件的最左边碎纸片的方式。首先判断出一页文件中最左侧端的碎纸片，由问题分析可知，最左边一列的数值均为255，对附件1中所有碎纸片的矩阵观察得知，只有008碎纸片矩阵满足此条件，其矩阵为：同理， 255表示白色，0表示黑色。因此，008即为，它位于原文字文件的最左侧端。根据上述算法，寻找出后，从剩余的碎纸片中继续搜索与右边缘矩阵匹配度度最优碎纸片，即为位于右侧端的碎纸片。（3）边缘矩阵匹配度最优碎纸片的选取在这里，边缘矩阵匹配度最优碎纸片的定义：只要一张碎纸片矩阵最右侧端的一列数值与另一张碎纸片矩阵最左侧端的一列数值相同的个数最多，即认为该两张碎纸片是彼此边缘矩阵匹配度度最优碎纸片。过程如下：将图片导入matlab中得到一个1980行72列大小的矩阵。这里我们用表示第行，表示第列表示第个图片最右列矩阵的第行的数据，即将以确