- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
13年国赛数学建模B题
2013高教社杯全国大学生数学建模竞赛
承 诺 书
我们仔细阅读了《全国大学生数学建模竞赛章程》和《全国大学生数学建模竞赛
赛区评阅编号(由赛区组委会评阅前进行编号):
2013高教社杯全国大学生数学建模竞赛
编 号 专 用 页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
评
阅
人
评
分
备
注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
摘 要
随着图形拼接复原需求的增加,利用计算机技术提高拼接效率已经成为一种趋势。为此,本文基于不同破碎程度的纸张,建立了三个递进的模型,分别用于中英文破碎纸张的拼接复原。
以两张纸拼接为例,为了确定异同程度,应用最小二乘法来模拟被拼接两边的相似程度。较多数据时,采用方差运算时相对较慢。所以基于破损纸张边缘特点采用模型一,用于实现列总像素较多的纵切纸张的拼接,即将其碎片两侧边缘的灰度值进行二值化处理,形成列向量,选出最左端列向量全为0的碎片,循环其他碎片边缘,左右两列进行对比,两列对应元素同真异假,再将结果0-1化,仅比较1的百分比,大于90%的阀值时可确定结果,运算时间为4s,精确度可达100%。
针对横纵切都存在的情况,碎片长度过短,列信息淡化严重,模型二在模型一的基础上,由上往下扫描每一个碎片,产生了一个一维列向量代表每个碎片的行字分布情况,以左侧的11个碎片为基准,分类整理、拼接,得到了大约85%的连续大碎片,其整体精确度可达90%,运行时间为20s,再由人工干预即可确定最后结果。
针对正反面英文的情形,考虑到英文存在较多色素点不规则分布的情况,在模型二的基础上,比较不同碎片接连位置处同种像素的高度,同时,对h,k,d等在确定行高时产生较大影响的字母,采用“尖部”消除技术,再基于模型二中的算法,得到大约70%的连续大碎片,其整体精度可达到85%,算法的运行时间可控制在4分钟内,再由人工干预确定最后结果。
关键词:相似度;Java语言;0-1化 ;拼接复原
一 问题提出
1.1 问题背景:
当代社会,在司法物证复原、历史文献修复以及军事情报获取等领域破损文件的拼接复原成为了极具意义的实际问题。长期以来,此类工作需要人工完成,具有高精确度,但是若在纸片数量巨大的情况下,效率极低。因此,伴随计算机的高速发展,人们在不断改进自动拼接技术,提高拼接复原效率。
1.2 需要解决的问题
问题一:
对于给定的来自同一页印刷文字文件的碎纸机破碎纸片,仅纵切,建立碎纸片拼接复原模型和算法,并针对已经给出的中、英文各一页文件的碎片数据进行拼接复原。如果复原过程需要人工干预,请写出干预方式及干预的时间节点。
问题二:
对于碎纸机既纵切又横切的情形,设计碎纸片拼接复原模型和算法,并针对给出的中、英文各一页文件的碎片数据进行拼接复原。如果复原过程需要人工干预,请写出干预方式及干预的时间节点。
问题三:
从现实情形出发,针对双面打印文件的碎纸片拼接复原问题,解决给出的一页英文印刷文字双面打印文件的碎片数据。请尝试设计相应的碎纸片拼接复原模型与算法,并就碎片数据给出拼接复原结果。
二 问题分析
2.1 整体分析运算难度
通过对碎片数量的统计,第一问为19个碎片,第二问为209个碎片,第三问为418个碎片,若采用传统方式人工拼接,其工作时间显然会是巨大的,即使使用计算机运算,若采用最原始的穷举法,面对一个418的数量级循环,其运算时间也不会令人满意。
因此,面对此情况,需要通过建立一个自动或者半自动拼接复原模型,在精确度允许的范围内,大量减少运算时间。
2.2 分部分析需要解决的3个问题
首先,对碎片进行数据化处理,分析边界具有像素灰度值性质。
针对第一问:提取边界的灰度值后,由于被切边界上的不同点具有不同的灰度值,可以根据左右两侧灰度值的异同程度,运用方差的性质,求得差别最小的相连图片,并在此基本模型上进行优化。
针对第二问:纵切的文字特征同横切的文字特征具有较大差异,行间距空白色素点数远大于列间距空白色素点数,因为切得碎片很小,出现空白部分情形的几率大大增加,会导致运算结果精度大大降低,甚至排除掉了正确答案,为提高准确度,在过程中需要人工干预,基本模型是通过人为确定最左侧边缘(最外侧列为0的列向量),从上(下)往下(上)依次扫描每个碎片灰度值,由于同行的汉字处于相同位置情况,所以拟将被扫描图片表达成一个能体现字分布情况的型0-1列向量,比较字的不同分布情况来确定一个较高精确度的分类,在分类的基础上使得循环次数减少,再按照完成纵切还原的方法,即可得出结果,遇到比较特殊的碎片,再进行人工干预。
针对第三问:正反面的不可区分性在表面上看起来难
文档评论(0)