lazebnik,s.;raginsky,m.;patternanalysisandmachine.docVIP

下载本文档

6
0
约1.39千字
约 7页
2016-01-09 发布于天津
举报
版权申诉

lazebnik,s.;raginsky,m.;patternanalysisandmachine.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

lazebnik,s.;raginsky,m.;patternanalysisandmachine,patternanalysis,svetlanalazebnik,ragin,theragin,pattern,urlpattern,javapattern,patternrecognition,pattern.compile

Supervised Learning of Quantizer Codebooks by Information Loss Minimization Lazebnik, S.; Raginsky, M.; Pattern Analysis and Machine Intelligence, IEEE Transactions on Volume: 31 , Issue: 7 Digital Object Identifier: 10.1109/TPAMI.2008.138 Publication Year: 2009 , Page(s): 1294 - 1309 IEEE Journals Abstract ?|? Full Text: PDF?(3973 KB) 跟以往的非监督的聚类不同，这篇文章讨论的是，知道类别信息的条件下，对训练样本进行聚类，得到一个码本，利用这个码本对未知的样本进行量化，并预测它的类别。这点体现出作者打破传统思路来的特点：聚类干嘛一定是非监督所有，监督的情况也可以聚类！一如既往地，故事从目标函数开始：本来，样本跟类别有个互信息量把样本量化到码本之后，又有个互信息量于是目标函数就出来了： = 上面的式子是算不出来的，如何估计呢？ 1．的互信息量为：在处的分布，用K近邻来估计：；在全体的分布则是他们的平均： 2.间的互信息量则估计为：按照聚类划分：于是有了： 3. 如何让最小化？这里涉及到两方面的问题： 1）.如何确定？ 2）.如何确定每个聚类的Y概率对于第一个问题给出固定的概率：、给出固定的分类的方法：于是有了迭代的算法：初始化： for t=1……T 循环 { ; } 于是，对训练集的聚类完成了。可是，对于那些未知类别的测试集，怎么对他们进行量化，并预测他们的样本类别呢？作者的思路是：找一个码本及其相关的类别的分布让最小。这样，有了码本，就有了量化的方法来了，随便还把类别预测出来了：下面就来想办法解决和的问题： 1. 变成了这个变化，请仔细看，只有一个不同的地方： “用吧量化到一个最近的”变成了“用把量化到所有的，每个量化过去的权值为” 这实际上是软量化的思想，作者称为。 2. 目标函数变成以后，如何选择和来将其最小化呢？作者还是用迭代的方法，每轮迭代： ,: 如何确定让最小？当然是对求的导数了：：这是个问题：到此为止，问题似乎解决了，这个解决方案实现了最小化的理想。但是，我们也要考虑的问题：进一步地给目标函数增加了一项：相应地：打完收工。启发：监督条件下的量化码本，这是个亮点，以后都可以用；软量化仅仅是在求码本的时候用了，在时没用，可以结合Visual Word Ambiguity做一些创新；软量化的时候，权值可以用LNP的方法来求；量化后，可以对每个码字统计加权，这又可以跟Term Weighting结合；量化的时候，可以同时把Hamming Embedding of Local Descriptors用进去，而且，嵌入的方法，也可以用一些先验：在应用方面，也有值得学习的地方：当然是bag-of-features的图像检索和分类：其实图像分割，也可以用clustering的：最后，上作者王道：