12-9 goole video研讨.pptxVIP

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
12-9 goole video研讨

Video Google: A Text Retrieval Approach to Object Matching in Videos 钱浩 文本检索 TF-IDF 视频检索 场景匹配 目标检索 Experiments Outline 文本检索 文本检索 每个文本表示成一个向量,每个维度上的值为该词在文件中出现的频率; 各词的值会有加权,比如采用TF-IDF加权等; 停用词:即那些特别常见的词,如an、the 在文本检索时,通过计算词频向量,返回向量最接近的文档 TF-IDF TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术 字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降 TF-IDF TF-IDF 假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (DF) 的方法是测定有多少份文件出现过“母牛”一词,然后除以文件集里包含的文件总数。所以,如果“母牛”一词在1,000份文件出现过,而文件总数是10,000,000份的话,其逆向文件频率就是 log(10,000,000 / 1,000)=4。最后的TF-IDF的分数为0.03 * 4=0.12。 文本检索 场景匹配 每行展示了从不同镜头下描述的同一个地点 场景匹配 主要流程为: 图像特征提取,SIFT,特征去噪(三帧内消失reject); k-means聚类,度量方式为欧式距离,对k-means多次随机初始化,最终使用误差最小的结果; 图像向量化,利用TF-IDF加权量化; 检索阶段,用cos余弦值度量 场景匹配 提出了“visual?words”的概念 用两种不同的区域来作为一帧图像的visual?words,一种是Shaped?Adapted(SA),一种是Maximally?Stable(MS) SA和MS作为描述同一篇文章的不同用词可以同时存在 场景匹配 SA是以图像中的角点、拐点(corner)为基础提取出相应的椭圆区域; MS是通过对最大稳定极值区域(MSER)的提取得到椭圆区域表示 MS-黄色 SA-蓝色 场景匹配 场景匹配 构造visual?words: 采用 sift 提取特征值 k-means聚类 所选的特征和特征描述方式满足仿射不变性,有利于区域不同尺度不同视角的匹配。 一帧图像中提取出的区域要和相邻几帧进行比较,若该区域只出现在当前一帧图像上,就会把该区域当成噪声或不稳定区域舍去 仿射不变性 常用的仿射变换:旋转、倾斜、平移、缩放 若一个图形具有某种性质或者某个量,在平行射影下,如果不变,称这个性质为仿射不变性质,这个量称为仿射不变量。经过仿射对应它们也是不变的 平行四边形在仿射对应下的象还是平行四边形 场景匹配 构造vocabulary: 两部视频按48个镜头大约10000帧的图像进行visual words的提取 将提取到的visual words用K-means的方法进行聚类,得到一副词典 利用TF-IDF加权思想,对一些经常出现的visual words赋予较小的权重,对于一些不经常出现或者类似“关键字”之类的赋予一个较大的权值 场景匹配 场景匹配 例如,要从一个样本S中分出标签为L的样本,假设样本S中标签确实为L的集合为SL,分类器将样本标签分为L的集合为SLC,SLC中标签确实为L的集合为SLCR。那么, 查准率(Precision Ratio)= SLCR/SLC 查全率(Recall Ratio)= SLCR/SL PR曲线 目的:从整个视频中搜索目标,该目标可以是用户从任何一帧中选定的子区域 主要流程为: 在建vocabulary时生成stop list; 进行场景匹配; 进行关键点匹配和MSER匹配,对停用词进行抑制; 利用空间一致性reject一些散列词; 针对匹配点/区域,检查附近是否有15个已匹配的点/区域,少于则rejected。 强调了特征之间的相对位置 目标检索 停用词表 收集词频top 5%和bottom 10%的词,组织成Stop list Experiments Experiments

您可能关注的文档

文档评论(0)

ccx55855 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档