网站大量收购闲置独家精品文档,联系QQ:2885784924

多媒体信息检索1.doc

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多媒体信息检索1.doc

课程报告:多媒体信息检索 2004年10月 王扉 目 录 1 绪论 1 1.1 内容索引 2 1.2 内容查询 4 1.3 内容匹配 6 2 图像检索 8 2.1 图像特征提取 8 2.2 相关反馈 12 3 音频检索 14 3.1 音频特征提取 14 3.2 音频分割和识别 17 4 视频检索 22 4.1 运动分析 22 4.2 视频结构化 24 4.3 视频语义分析 26 5 关于多媒体信息检索的讨论 29 参考文献 31 1 绪论 按照Amarnath Gupta和Ramesh Jain的说法[1],“信息检索”一词最早是在1951年由Calvin Moores提出的,用来描述预期的信息用户能够把对信息的请求转化为一个参考集合的过程。 随着科学技术的进步,特别是多媒体数字化技术的发展和推广,存储成本的降低,网络传输带宽的增长,计算机处理速度的提高,以及高性能计算环境的普及化,现代信息检索所处理的对象和规模都有了很大的变化。包含各种类型数据如文本、图像、音频、视频等的多媒体信息,飞速膨胀逐渐成为信息的主流,并对人们的生活和社会的发展产生了重要的影响。多媒体信息有其特点,一方面它的信息量很大,百闻不如一见,一图值千言都说明了这个事实,另一方面它的抽象和结构化程度较低,不利于进行有效的管理。在许多领域由于数据增长过快而处理能力不足,大量的多媒体信息沉积下来成为废物。例如,在体育方面,NBA每年组织近2000场比赛,每场比赛录像长度约为48分钟,许多数据从接受下来后已沉睡了多年。如何有效地利用多媒体信息中的相关内容已成为一个急需解决的问题。 图1 网络带宽使用的变化(数据来源:Inktomi USA) 为了解决上述问题,多媒体信息检索(Multimedia Information Retrieval)的研究从上世纪末开始出现,逐渐成为信息技术一个新的重要研究内容。它的目标是有效描述、存储、组织和查找用户所需的多媒体信息[2][3][4][5][6]。多媒体信息检索的研究涉及到人工智能、计算机视觉、信号处理、模式识别、数据库、人机交互等诸多学科领域,具有重要的理论意义。同时,它也是理论和实践紧密结合的一项研究,其最终目标就是解决信息膨胀,帮助人们更方便、更快捷和更准确地找到需要的多媒体资源,具有巨大的应用前景。 传统的信息检索方案主要以文本为处理对象。例如为实现图像检索,需要首先人工给图像加上对其描述的文字标签,然后基于这些文字标签进行图像查询。这种方法虽然简单,但有几个根本问题影响了对信息的有效使用。 首先,由于多媒体信息的内容丰富很难用文本标注完全表达。不同的观察者或同一观察者在不同条件下对同一幅图像可能给出不同的描述。这使得在很多情况下文本标注并不能满足实际需求。例如,商标注册部门在审理新的商标注册时需要对已注册商标进行检索,看是否有雷同。这仅靠对商标进行文本标注是不能解决的。 其次,人工对多媒体信息内容进行标注,十分费时费力。尤其是当资源的数量达到海量级,或是处理的速度要求接近实时的时候,完全采用人工的方法都会遇到难以克服的困难。例如,足球比赛中的射门镜头是非常精彩的,但从一场比赛近两个小时的录像中如何能把射门镜头迅速而准确的提取出来呢? 由上可见,对多媒体信息的检索需要研究新的手段——需要借助计算机对多媒体信息从底层到高层进行处理、分析和理解以有效获取其内容,并根据内容实现方便快捷的检索,称之为基于内容的多媒体信息检索。例如,对于商标检索,可以提取出图像的颜色、形状、纹理等内容特征来比较不同的商标,衡量雷同程度。又如对足球录像的管理,如能对比赛的场景和事件自动进行识别和建立索引,那么提取射门镜头就非常容易了。 图2 多媒体信息检索的一般流程 图2表示了一个典型多媒体信息检索系统的一般流程。首先,系统对资料库中的多媒体信息进行处理、分析和理解,建立相应的内容表示和索引;然后,在用户提交检索需求时,生成规范的内容查询表达;最后,根据匹配模型计算相似度并返回检索结果集。 1.1 内容索引 内容索引模块完成对多媒体信息的处理、分析和理解,有效的提取和表示内容。对于多媒体数据来说,内容多个层次上[7]: 感知层(Perceptive Level),如视觉上的颜色、纹理、形状、轮廓、运动听觉音高、音色、音质等Cognitive Level),如主体、对象、场景、故事等概念和语义; 情感层(Affective Level),如印象、情绪、感情等。 实际上,正是对“内容”这个概念理解的深入,使得人们认识到多媒体信息检索,仅仅用基于文本标注的方法来进行检索是远远不够的。多媒体信息检索系统必须能获得、存储和检索媒体中基于形象(imagery-based)的信息内容[1]。 多媒体信息的内容是多种多样的,为了规范对多媒

文档评论(0)

xinshengwencai + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5311233133000002

1亿VIP精品文档

相关文档