海量图片去重算法研究-计算机科学与技术专业论文.docxVIP

海量图片去重算法研究-计算机科学与技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
摘 摘 要 随着网络时代的发展,人们对信息资源掌握的增多,导致需要存储的数据量 以几何级数在增长,网络带宽的不足、存储资源的紧缺以及等等诸多问题随之而 来。解决这些问题的有效手段是清除重复数据,保证数据不存在冗余。而图片作 为众多数据中的一种,经常出现在手机、网页这些人们日常使用的工具当中,其 量级之大给存储设备带来极大的困扰。 常用的清除重复数据的方法有文件级去重技术和块级去重技术,但是由于图 片存在不易修改的特性,若采用文件级进行去重,耗时长、对系统性能损耗严重; 又因为图片具有任意性,若采用块级进行去重,块的大小无法准确的适应每种图 片,容易出现删除错误等严重问题。所以建立一种简单有效的图片重复删除技术 成为科研人员的研究重点。本文提出了一种能够高效对海量图片进行去重的算 法,该算法主要利用图片本身固有特征判断重复。利用图片本身特征能够克服块 级去重时由于块大小无法适应所有图片导致其删除错误等问题,同时采用并行化 计算及快速定位重复方法能够克服文件级去重时耗时长等问题。 本论文首先介绍了清除重复数据的研究背景及意义,对常用的清除重复数据 的技术进行了简介。由于这些方法对重复图片删除有一定的局限性,而本论文提 出的方法主要利用图片本身特征,为了准确、高效的提取图片特征,对常用的图 片特征进行了描述。其次,根据提取的特征,建立了多特征综合图片离线去重算 法,通过对该算法的两次改进,使得其在单机i5处理器条件下处理500万级图 片量时仅需要10分钟左右。然后,根据多特征综合离线去重算法的思路,提出 了多特征综合图片在线去重算法。该算法利用对原始图片集进行分组从而能够降 低新图片匹配等计算量的思路,实现了在新图片集为50万时,处理时间在25分 钟左右,该算法为图片在线去重提供了解决思路。 最后,将海量图片并行化去重算法思路进行了推广,将其应用在海量无声短 视频去重研究中,经实验发现,对20万无声短视频进行去重时仅需要7—8分钟, 去重时效性大大提高。 关键词:重复图片去重;海量图片;图片特征; 万方数据 ABSTRACTWiul ABSTRACT Wiul the development of Cyber Time.people call have more information.It causes the amount of data that needs to be stored is growing in geometric progression. So,there are a lot of problems that need to be solved,such as the shortage of network bandwidth and storage resource,the rising in management cost etc.The effective means to solve these problems is to clear the duplicate data,that is,to ensure these data is not redundant.And the images as a large number of data often appear in those tools of people’S daily use,such蕊mobile phone,web pages ete.The seas of images have been the great distress to the storage devices. There are two colnnlon methods to delete duplicate data:one is Whole File Detection;the other is Block File Detection.But,because the image can not be modify easily,if it deletes duplicate data by Whole File Detection,the computer needs a lot of time to compute it,and if it deletes duplicate data by Block File Detection,because the Block can not be easily to adapt every images,there is also a problem that it may happen the mistakenly dropped.For the storage devices,mistaken is ver

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档