- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 提纲 多媒体检索概述 声音检索 图像检索 视频检索 音频(audio) 音频(声音)经过模拟设备记录或再生,成为模拟音频,再经数字化成为数字音频。 数字音频的主要规格为:采样率(sampling rate)及每个样本的位数(bits per sample)。 我们能够听见的音频频率范围是60Hz~20kHz,其中语音(speech)大约分布在300Hz~4kHz之内,而音乐(music)和其他自然声响是全范围分布的。 音频规格 采样率:对模拟声音采样时,每秒钟取的样本数目。数字化时的采样率必须高于信号带宽的2倍,才能正确恢复信号。 每个样本的位数:对每个样本的表示所采用的位数,如8或16。位数越大,声音的表示越精确,所需要的存储空间也越大。 以普通CD为例,通常是采用44.1kHZ(1k=1024)的采样率,每个样本采用16位表示,则1秒钟需要705.6kb表示。 查询形式(1) 样例:用户选择一个声音例子表达其查询要求,查找出与该声音在某些特征方面相似的所有声音。如查询与飞机的轰鸣声相似的所有声音 直喻:通过选择一些声学/感知物理特性来描述查询要求,如音调和音量等。 查询形式(2) 拟声:发出与要查找的声音性质相似的声音来表达查询要求。如用户可以发出嗡嗡声来查找蜜蜂或电气嘈杂声。 主观特征:用个人的描述语言来描述声音。这需要训练系统理解这些描述术语的含义,如用户可能要寻找“欢快”的声音。 音乐检索 以音乐为中心的检索,利用音乐的音符和旋律等音乐特性来检索。如检索乐器、声乐作品等。 基于样例检索 基于哼唱曲调来检索 提纲 多媒体检索概述 声音检索 图像检索?? 视频检索 图像(image) 二维材料经扫描器扫描、拍照或编辑产生数字化图像。图像的主要规格包括分辨率、颜色表示位数、存储格式、压缩手段等等。 图像包括:照片(photo)、图片(picture)、位图(bitmap)、电脑绘图(graphics)、视频中的帧(frame)。 图像规格 分辨率(resolution):图像在横方向和纵方向的像素个数,用“宽*高”表示。如1024*768。 每个像素的表示位数:每个像素是单色或者彩色。8位表示:0~255表示单色的灰度值。24位表示:每8位分别表示红绿蓝3原色。 不压缩情况下,一幅1024*768的24位彩色表示图像占用的存储空间为768*3=2304KB 存储格式、压缩方法:gif/jpg (Joint Photographic Experts Group )/ bmp/tiff等等 图像视觉特征 颜色(color):图像的颜色分布。 纹理(texture):纹理是指图像局部不规则的而宏观上有规律的特征,人们区分纹理主要使用粗糙性和方向性两个方面。 形状(shape):物体的边界特征或者主要轮廓 颜色特征 统计主要颜色的分布 纹理特征 某颜色或密度模式的改变 纹理的分割 形状特征 查询形式 样例:根据库中或者库外已有图像或者人工绘制的图像进行检索。比如通过输入一个红色圆形物体来检索相似的图像。 绘图:手工绘制草图用于检索。如通过勾画衣服形状对服装设计图进行检索。 属性说明方式:指定特征进行检索。如通过限定人的脸形、五官特征从人脸库中进行检索。 文字型图像的检索 文字型图像(textual image):通过对书面文本进行扫描得到的图像。 通过OCR系统识别图像中的文本,基于文本进行检索。 提纲 多媒体检索概述 声音检索 图像检索 视频检索?? 视频(Video) 主要通过视频采集卡从播放画面中采集加工而成。可以看成是在普通图像上增加了时间维度。主要的规格包括:分辨率、每秒播放帧数、压缩方法等。 常见的视频格式:.dat、.mov、.rm、wmv、mpg、mpeg等等 每秒播放帧数:电视是30帧,电影为24帧,对人的感觉而言,至少要每秒12帧以上。 压缩方法:MPEG (Motion Picture Experts Group )、国内AVS 视频中的特征层次(1) 视频中的特征层次(2) 帧(Frame):每个帧可以看成一幅静态图像。 镜头(Shot):由连续的帧组成的一个基本拍摄操作单元。镜头可以通过关键帧表示,摄像机操作引起的镜头运动特征也是视频检索中重要的特征内容。 场景(Scene):由连续的多个内容相似的镜头组成的一个有意义的单元。场景关键帧可以由镜头关键帧组合而成。关键对象也可以组合。
文档评论(0)