基于均值聚类图像检索技术在数字图书馆中应用.docVIP

  • 2
  • 0
  • 约4.14千字
  • 约 8页
  • 2017-11-03 发布于福建
  • 举报

基于均值聚类图像检索技术在数字图书馆中应用.doc

基于均值聚类图像检索技术在数字图书馆中应用

基于均值聚类图像检索技术在数字图书馆中应用   摘 要:在数字图书馆的各类数据查询中,图像检索占有十分重要的地位。为了更好地实现图像检索任务,本文建立了一种新的基于内容的图像检索方法。这种图像检索方法先对图像进行模块化,再根据各个图像块计算出其相应的DCT系数并形成特征向量,再通过k-均值聚类方法生成用于最终检索的12维特征向量,最后利用卡方距离进行相似度差异的检测完成图像检索。为了模拟本文方法在数字图书馆中的使用效果,自建了图像检索系统和小型图像数据库。实验结果表明,本文所提出的图像检索方法具有较高的检索准确性,可以用于数字图书馆中的图像检索。 关键词:数字图书馆 图像检索 DCT系数 k-均值聚类 中图分类号:TP391.3;G354.4 文献标识码:A 文章编号:1672-3791(2013)07(a)-0244-04 随着计算机技术、网络技术、数字化技术的迅猛发展,传统的图书馆模式被彻底打破,一种全新的图书馆模式飞速发展起来,这就是数字图书馆[1]。 相比于传统图书馆模式,数字图书馆具有海量可扩展存储、远程二十四小时在线服务、信息速递即发即收等诸多优点[2],因此受到用户的广泛青睐。 在数字图书馆的各种信息资源中,图像是用户需求量非常大的资源。因此,如何根据用户需要,准确、迅速地查询到相应的图像资源,成为数字图书馆技术发展过程中必须攻克的重要课题,这就促成了图像检索技术的出现[3]。 图像检索技术有两个重要分支,一是基于文本的图像检索,一是基于内容的图像检索(Content Based Image retrieval,简称CBIR)。从近年来的发展态势看,CBIR技术已经称为数字图书馆中图像检索技术的主要发展方向[4]。 无论是简单还是复杂的CBIR技术,其实现过程都包括两项基本内容,即定义检索规则和提取每一幅图像的检索特征[5~6]。检索特征一般是基于图像像素值的,它是图像内容的一种压缩描述。在CBIR技术中,直方图、颜色布局、区域信息这三类特征被广泛使用[7~8]。 本文将离散余弦变换(Discrete cosine transform,简称DCT)系数作为特征向量,构建一种基于k-均值聚类的图像检索技术,并通过自建的数字图像库来检验这种方法的有效性。 1 本文提出的方法 本文所提出的图像检索方法,分为三个重要的组成部分:特征向量的形成、图像聚类、图像检索。 1.1 特征向量的形成 离散余弦变换(DCT)给出了一个序列的有限多个数据点有关一族余弦函数在不同频率的振荡,它的系数在科学与工程等许多实际应用中得到应用,如语音和图像的有损压缩、偏微分方程数值解的光谱方法。也有人尝试在这些应用中使用正弦函数,但结果显示:相对于正弦函数而言,余弦函数对于压缩来讲更有效率、而微分方程余弦定理更是表达了一个特定边界条件的选择。 DCT,尤其是DCT-II常用于信号与图像处理,尤其是对有损数据压缩,因为它有一个强大的“能量压实”属性。即大部分的信号信息往往集中发生在少数DCT低频部分,接近基于一定范围内的马尔可夫过程信号的Karhunen-Loeve变换。 DCT系数应用于图像压缩,最早是用于提取JPEG压缩域的内容。通过分析一块8×8像素模块和该模块对应的四个4×4像素模块的DCT系数,可以提取感兴趣的形状特征向量,并为索引和检索使用。 (1)DCT系数计算。 为了使用DCT,需要先把图像中每个像素进行标度变换,一般可以将每个像素值减去128。然后把图像分成固定大小的模块,再将DCT应用于每一个模块,从而计算出该模块的DCT系数。 通过这种方法,一幅图像可以被划分成n×n模块来计算其DCT系数、量化和熵编码。在具体的执行中,n一般取8。将DCT的相关计算公式应用于各个模块的行和列,就可以得到一个8×8的变换系数阵列。阵列中第一个元素(即(0,0)位置的元素)表示了零频率成分,随着水平和垂直索引的增加,相应元素表征了更高空间频率成分。一个8×8像素模块的二(2)DCT特征向量。 机器学习的很多算法都需要用用到处理对象的数字表示,因为这种表示有利于后续处理和统计分析。特征向量就是表示某些对象数字特征的n维向量。对于本文方法中的每一个像素数为8×8图像块而言,可以提取出一个对应的12维特征向量。 如果整幅图像按照Y、Cb、Cr格式存储,这个12维的特征向量包括三类成分:一是DCT 域内的Y、Cb、Cr(CY(0,0)/8,CCb(0,0)/8,CCr(0,0)/8)子图像的零频率部分,二是Y子图像的B1、B2、B3部分(CY(0,1),CY(1,0),CY(1,1)),三是B4到B9这6个模块和子图像Y的标准偏差(std(B

文档评论(0)

1亿VIP精品文档

相关文档