融合AP聚类视觉字典容量获取及其PLSA评价研究.pdfVIP

融合AP聚类视觉字典容量获取及其PLSA评价研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
融合AP聚类视觉字典容量获取及其PLSA评价研究.pdf

近年来,场景分类变得很热门,在 MIT 召开的首次场景理解 研讨会( Scene Understanding Symposium )上明确提出,场景 描述与理解特别是场景分类将会是图像理解的一个新的有前途 的研究方向[3]。随后每年召开的场景理解研讨会再次确定了场 景分类在视觉领域中的重要地位。 目前,场景分类的主流方法之一是采用词包模型构建视觉 字典,然后采用 PLSA 生成模型实现场景分类。这种分类的一般 流程是 ① 先取一个视觉字典容量 M ,采用 K means 算法对场 景图像 SIFT 特征[4]进行聚类[5]得到容量为 M 的视觉字典和每 一块特征对应的单词的内标; ② 分析内标中每一个单词出现的 次数,得到一个共现矩阵; ③ 采用 PLSA 算法对共现矩阵,生成 概率模型。 ④ 用 K 近邻算法对概率模型进行分类。这种方法第一 种需要人为的先取一个视觉字典容量,而且这个容量对分类结 果影响很大,通常只能通过大量的实验去获得一个合理的容量, 使得效率相当很低。 因此,本文提出了采用 AP 聚类算法,一次获得一个合理的 字典容量,分类效率提高,同时研究 PLSA 的主题数 K 对分类性 能的影响。 1 高效视觉字典容量地获取 第一步 提取所有图像的 SIFT 特征向量,生成场景图像集 的 SIFT 特征矩阵。 SIFT 是基于图像金字塔的多尺度极值点检测和梯度直方 图的特征点计算方法,通过采用特征点邻域的梯度方向直方图 向量对关键点进行描述。 SIFT 提取的每个关键点由 128 维的向量组成,则每提取一 幅场景图像的特征向量是 nx128 ,其中 n 为关键点数目。梯度变 化的大小会影响关键点的数目,从而使每一幅场景图像的关键 点数目不一样,则每一幅场景图像所得到的向量大小也不一样。 如果直接将所有场景图像的特征向量组成特征矩阵,则生成的 特征矩阵是稀疏矩阵,那么所得到的特征矩阵会有很多冗余特 征,会导致场景分类精度相当低。为了解决这种问题,本文使用 PCA SIFT 描述子[6]构建场景图像训练与测试集的特征矩阵。 第二步 利用聚类算法对场景图像集的所有特征向 SIFT 量 进行聚类,获得一个合理的字典容量。 AP ( Affinity propagation ,吸引子传播)聚类算法是 Frey 等 人在 Science 期刊上提出的一种新的聚类算法[7]。 AP 算法的思 想是以 N 个数据点之间的相似度矩阵 S 作为它的输入,相似矩 阵 S 的对角线上的值被称为参考度 p ( Preference ), p 值越大, p 值越大,则这个点就越有可能成为聚类中心。 该算法的关键步骤是 R ( i , k )和 A ( i , k )的迭代更新,如公式 ( 1 )和公式( 2 )所示。当 i=k 时,则由公式( 1 )可得出公式( 3 )。 R(i,k) S(i,k)max j≠k (A(i,j)+S(i,j)) (1) A(i,k)min{0,R(k,k)+ j≠i , j ∑ max{0,R(j,k)}} (2) R(k,k) P(k)max j≠k {A(k,j)+S(k,j)} (3) 在每一次迭代过程中, AP 算法都会更新每一个数据点吸引 度和归属度,一直到 k 个高质量的聚类中心出现为止,同时其余 数据点也被分配到相应的聚类簇中。本文中利用 AP 算法的特 性,对场景图像的 SIFT 特征进行聚类,得出一个合量的视觉字 典容量。 2 构建概率生成模型 PLSA 是针对潜在语义分析而提出的一种概率生成模型,使 用图模型来表示文档、主题和词语三者之间的关系,将文档和词 语映射到同一个语义主题空间。其原理如图 1 所示。 图 1 PLSA 模型原理图 融合 AP聚类视觉字典容量获取及其 PLSA评价研究 钟映春 钟宝麟 (广东工业大学自动化学院,广东 广州 510006) AP CIustering VisuaI Dictionary Integration Capacity Acquisition and EvaIuation of PLSA 摘 要 针对目前需要大量实验方可获得视觉字典的不足,提出了一种一次既可获得合理的视觉字典方法。首先,采用尺度不 变特征转换 SIFT [1]( ScaIe invariant feature transform )局部描述子构建场景图像数据集的特征矩阵;其次,采用 AP 聚类 算法对场景图像的特征矩阵进行聚类,获得聚类中心数,也就是合理的视觉字典容量,并结合 K means 算法获得共现矩 阵,再用 PLSA 算法构建概率模型,然后用 SVM [2]进行分类得出正确率。最后,用该方法与传统的通过大量实验的获得合理 的视觉容量的方法进行对比分析主题数 K ( PL

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档