12-9 goole video研讨.pptxVIP

下载本文档

3
0
约1.81千字
约 23页
2016-08-06 发布于湖北
举报
版权申诉

12-9 goole video研讨.pptx

1、本文档共23页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

12-9 goole video研讨

Video Google: A Text Retrieval Approach to Object Matching in Videos 钱浩文本检索 TF-IDF 视频检索场景匹配目标检索 Experiments Outline 文本检索文本检索每个文本表示成一个向量，每个维度上的值为该词在文件中出现的频率；各词的值会有加权，比如采用TF-IDF加权等；停用词：即那些特别常见的词，如an、the 在文本检索时，通过计算词频向量，返回向量最接近的文档 TF-IDF TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与资讯探勘的常用加权技术字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降 TF-IDF TF-IDF 假如一篇文件的总词语数是100个，而词语“母牛”出现了3次，那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (DF) 的方法是测定有多少份文件出现过“母牛”一词，然后除以文件集里包含的文件总数。所以，如果“母牛”一词在1,000份文件出现过，而文件总数是10,000,000份的话，其逆向文件频率就是 log(10,000,000 / 1,000)=4。最后的TF-IDF的分数为0.03 * 4=0.12。文本检索场景匹配每行展示了从不同镜头下描述的同一个地点场景匹配主要流程为：图像特征提取，SIFT，特征去噪（三帧内消失reject）； k-means聚类，度量方式为欧式距离，对k-means多次随机初始化，最终使用误差最小的结果；图像向量化，利用TF-IDF加权量化；检索阶段，用cos余弦值度量场景匹配提出了“visual?words”的概念用两种不同的区域来作为一帧图像的visual?words，一种是Shaped?Adapted(SA)，一种是Maximally?Stable(MS) SA和MS作为描述同一篇文章的不同用词可以同时存在场景匹配 SA是以图像中的角点、拐点（corner）为基础提取出相应的椭圆区域； MS是通过对最大稳定极值区域（MSER）的提取得到椭圆区域表示 MS-黄色 SA-蓝色场景匹配场景匹配构造visual?words：采用 sift 提取特征值 k-means聚类所选的特征和特征描述方式满足仿射不变性，有利于区域不同尺度不同视角的匹配。一帧图像中提取出的区域要和相邻几帧进行比较，若该区域只出现在当前一帧图像上，就会把该区域当成噪声或不稳定区域舍去仿射不变性常用的仿射变换:旋转、倾斜、平移、缩放若一个图形具有某种性质或者某个量，在平行射影下，如果不变，称这个性质为仿射不变性质，这个量称为仿射不变量。经过仿射对应它们也是不变的平行四边形在仿射对应下的象还是平行四边形场景匹配构造vocabulary: 两部视频按48个镜头大约10000帧的图像进行visual words的提取将提取到的visual words用K-means的方法进行聚类,得到一副词典利用TF-IDF加权思想，对一些经常出现的visual words赋予较小的权重，对于一些不经常出现或者类似“关键字”之类的赋予一个较大的权值场景匹配场景匹配例如，要从一个样本S中分出标签为L的样本，假设样本S中标签确实为L的集合为SL，分类器将样本标签分为L的集合为SLC，SLC中标签确实为L的集合为SLCR。那么，查准率（Precision Ratio）= SLCR/SLC 查全率（Recall Ratio）= SLCR/SL PR曲线目的：从整个视频中搜索目标，该目标可以是用户从任何一帧中选定的子区域主要流程为：在建vocabulary时生成stop list；进行场景匹配；进行关键点匹配和MSER匹配，对停用词进行抑制；利用空间一致性reject一些散列词；针对匹配点/区域，检查附近是否有15个已匹配的点/区域，少于则rejected。强调了特征之间的相对位置目标检索停用词表收集词频top 5%和bottom 10%的词，组织成Stop list Experiments Experiments