- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
12-9 goole video研讨
Video Google: A Text Retrieval Approach to Object Matching in Videos
钱浩
文本检索 TF-IDF
视频检索
场景匹配
目标检索
Experiments
Outline
文本检索
文本检索
每个文本表示成一个向量,每个维度上的值为该词在文件中出现的频率;
各词的值会有加权,比如采用TF-IDF加权等;
停用词:即那些特别常见的词,如an、the
在文本检索时,通过计算词频向量,返回向量最接近的文档
TF-IDF
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术
字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降
TF-IDF
TF-IDF
假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (DF) 的方法是测定有多少份文件出现过“母牛”一词,然后除以文件集里包含的文件总数。所以,如果“母牛”一词在1,000份文件出现过,而文件总数是10,000,000份的话,其逆向文件频率就是 log(10,000,000 / 1,000)=4。最后的TF-IDF的分数为0.03 * 4=0.12。
文本检索
场景匹配
每行展示了从不同镜头下描述的同一个地点
场景匹配
主要流程为:
图像特征提取,SIFT,特征去噪(三帧内消失reject);
k-means聚类,度量方式为欧式距离,对k-means多次随机初始化,最终使用误差最小的结果;
图像向量化,利用TF-IDF加权量化;
检索阶段,用cos余弦值度量
场景匹配
提出了“visual?words”的概念
用两种不同的区域来作为一帧图像的visual?words,一种是Shaped?Adapted(SA),一种是Maximally?Stable(MS)
SA和MS作为描述同一篇文章的不同用词可以同时存在
场景匹配
SA是以图像中的角点、拐点(corner)为基础提取出相应的椭圆区域;
MS是通过对最大稳定极值区域(MSER)的提取得到椭圆区域表示
MS-黄色
SA-蓝色
场景匹配
场景匹配
构造visual?words:
采用 sift 提取特征值
k-means聚类
所选的特征和特征描述方式满足仿射不变性,有利于区域不同尺度不同视角的匹配。
一帧图像中提取出的区域要和相邻几帧进行比较,若该区域只出现在当前一帧图像上,就会把该区域当成噪声或不稳定区域舍去
仿射不变性
常用的仿射变换:旋转、倾斜、平移、缩放
若一个图形具有某种性质或者某个量,在平行射影下,如果不变,称这个性质为仿射不变性质,这个量称为仿射不变量。经过仿射对应它们也是不变的
平行四边形在仿射对应下的象还是平行四边形
场景匹配
构造vocabulary:
两部视频按48个镜头大约10000帧的图像进行visual words的提取
将提取到的visual words用K-means的方法进行聚类,得到一副词典
利用TF-IDF加权思想,对一些经常出现的visual words赋予较小的权重,对于一些不经常出现或者类似“关键字”之类的赋予一个较大的权值
场景匹配
场景匹配
例如,要从一个样本S中分出标签为L的样本,假设样本S中标签确实为L的集合为SL,分类器将样本标签分为L的集合为SLC,SLC中标签确实为L的集合为SLCR。那么,
查准率(Precision Ratio)= SLCR/SLC
查全率(Recall Ratio)= SLCR/SL
PR曲线
目的:从整个视频中搜索目标,该目标可以是用户从任何一帧中选定的子区域
主要流程为:
在建vocabulary时生成stop list;
进行场景匹配;
进行关键点匹配和MSER匹配,对停用词进行抑制;
利用空间一致性reject一些散列词;
针对匹配点/区域,检查附近是否有15个已匹配的点/区域,少于则rejected。
强调了特征之间的相对位置
目标检索
停用词表
收集词频top 5%和bottom 10%的词,组织成Stop list
Experiments
Experiments
您可能关注的文档
- 1.3比热容3研讨.ppt
- 1.3波的叠加研讨.ppt
- 1.3生活中的静电现象课件研讨.ppt
- 1.3直流电机的磁场研讨.ppt
- 1.3电场强度zhang研讨.pptx
- 1.3静电现象1.4电容器研讨.ppt
- 1.4 电势及其梯度-2研讨.ppt
- 1.4.2李比希吸收法测分子式研讨.ppt
- 1.4世界通用的化学语言(第2课时)研讨.ppt
- 1.4从三个方向看物体的形状PPT研讨.ppt
- 浙江衢州市卫生健康委员会衢州市直公立医院高层次紧缺人才招聘11人笔试模拟试题参考答案详解.docx
- 浙江温州泰顺县退役军人事务局招聘编外工作人员笔试备考题库及参考答案详解一套.docx
- 江苏靖江市数据局公开招聘编外工作人员笔试模拟试题及参考答案详解.docx
- 广东茂名市公安局电白分局招聘警务辅助人员40人笔试模拟试题带答案详解.docx
- 江苏盐城市大丰区住房和城乡建设局招聘劳务派遣工作人员4人笔试模拟试题带答案详解.docx
- 浙江舟山岱山县东沙镇人民政府招聘笔试模拟试题及参考答案详解1套.docx
- 最高人民检察院直属事业单位2025年度公开招聘工作人员笔试模拟试题含答案详解.docx
- 浙江金华市委宣传部、中共金华市委网信办所属事业单位选调工作人员笔试备考题库及答案详解1套.docx
- 广东深圳市党建组织员招聘40人笔试模拟试题及答案详解1套.docx
- 江苏南京水利科学研究院招聘非在编工作人员4人笔试模拟试题及参考答案详解.docx
文档评论(0)