- 1、本文档共47页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2.4图像的空间关系特征-北京大学人工智能实验室
博士生课程报告
视觉信息检索技术
博 士 生:施 智 平
指导老师:史忠植 研究员
中国科学院计算技术研究所
2005年1月
目 录
第1章 基于内容的多媒体检索技术综述 3
第2章 图像特征的提取与表达 9
2.1 颜色特征的提取 9
2.2 纹理特征的提取 12
2.3 形状特征的提取 15
2.4 图像的空间关系特征 19
2.5 多维图像特征的索引 20
第3章 相似度量方法 22
3.1 视觉特征的相似度模型 22
3.2 图像特征的性能评价 24
第4章 视频分割 29
4.1 MPEG-2中的关键技术以及视频码流结构 29
4.2提取DC图像 32
4.3基于压缩域的视频分割 34
第五章 视频数据的浏览和检索技术 36
5.1 视频非线性浏览 36
5.2 视频数据的检索 37
5.3 运动信息视频数据的重要内容 37
5.4 运动信息的提取 38
5.5 运动信息的应用 39
5.6视频片断分类方法 42
第六章总结 43
第一部分 综述
第1章 基于内容的多媒体检索技术综述
基于内容的多媒体信息检索技术是数字图书馆的关键技术之一,是海量多媒体信息资源得以高效、充分地获取和利用的技术支持。它的成熟发展和在数字图书馆建设中的推广应用,将从根本上提升数字图书馆的信息检索能力和对用户的信息贡献力度。 1 关于基于内容的多媒体信息检索技术 对于数字图书馆环境下,以多媒体、超文本为主要存储形式的海量数字化信息资源,关键词已经难以足够形象和准确地描述多媒体信息所呈现的视觉或听觉感知,致使适用于文本信息资源的关键词检索方式显得相形见绌,而基于内容的多媒体信息检索技术在数字图书馆建设中逐渐显示出无比的优越性。 所谓基于内容的信息检索(content-based retrieval)是对文本、图像、音频、视频等媒体对象进行内容语义的分析和特征的提取,并基于这些特征进行相似性匹配的信息检索技术。它与传统数据库基于关键词的检索方式相比,具有如下特点: 1.1 突破了关键词检索基于文本特征的局限,直接从媒体内容中提取特征线索,使检索更加接近媒体对象。 1.2 提取特征的方法多种多样,例如,可以提取图像的形状特征、颜色特征、纹理特征,视频的动态特征,音频的音调特征等。 1.3 人机交互式检索。基于内容的检索系统通常采用参数调整方法、聚类分析方法、概率学习方法和神经网络方法等,通过人机交互的方式来捕捉和建立多媒体信息低层特征和高层语义之间的关联,即所谓相关反馈技术。其目的是在检索过程中根据用户的查询要求返回一组检索结果,用户可以对检索结果进行评价和标记,然后反馈给系统,系统根据这些反馈信息进行学习,再返回新的查询结果,从而使检索结果更接近用户的要求。 1.4 相似性匹配检索。基于内容的检索是按照一定的匹配算法将需求特征与特征库中的特征元数据(metadata)进行相似性匹配,满足一定相似性的一组初始结果按照相似度大小排列,提供给用户。这与关键词的精确匹配算法有明显不同。 1.5 逐步求精的检索过程。用户通过浏览初始结果,可以从中挑选相似结果,或者选择其中一个结果作为示例,进行特征的调整,并重新进行相似性匹配,经过多次循环后不断缩小查询范围,做到逐步求精,最终得到较为理想的查询结果。 综上所述,基于内容的多媒体信息检索技术的开发重点和技术优势主要包括以下两项:对多媒体信息内容特征的识别和描述技术、对特征的相似性匹配技术。可见,这种检索技术是一项涉及面很广的交叉学科的应用技术,需要利用图像处理、模式识别、计算机视觉、图像理解等领域的知识作为基础,还需从认知科学、人工智能、数据库管理系统、人机交互、信息检索等领域引入新的媒体数据表示和数据模型,从而设计出可靠、有效的检索算法、系统结构以及友好的人机界面。 2 基于内容的图像检索 基于内容的图像检索技术是通过分析图像的内容,提取其颜色、形状、纹理等可视特征,建立特征索引,存储于特征库中;在检索时,用户只需把自己对图像的模糊印象描述出来,就可以通过多次的近似匹配,在大容量图像库中查询到所需图像。 2.1 基于颜色特征的检索 颜色是描述一幅图像最简便而有效的特征,在基于颜色特征的检索算法中通常用颜色直方图来表示图像的颜色特征。直方图能较好地反映图像中各颜色的频率分布,横轴表示颜色等级,纵轴表示在一个颜色等级上,具有该颜色的像素在整幅图像中所占的比例。直方图可以对整幅图像进行最大匹配度检索;如果用户希望对图像中的部分颜色加以指定,可以采用基于图像分割的直方图检索方法,即将一幅图像划分为n×n个子图像,将对应位置的子图像颜色特征与数据库中的图像进行对比匹配。 2.2 基于纹理特征的检索
文档评论(0)