- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于隐马尔可夫链的音频语义检索.pdf
第14卷第l期 V01.14
模式识别与人工智能 No.1
2001年3月 PRAI March
2001
基于隐马尔可夫链的音频语义检索*
吴 飞 庄越挺 张 引 潘云鹤
(浙江大学人工智能研究所浙江大学微软视觉感知联合实验室杭州 310027)
摘要作为多媒体媒质之一的音频信号蕴涵了丰富的视觉听觉语义,但是目前多媒体检索主要利用的是视觉信
息,音频信息被忽略.为了弥补这一不足,本文介绍了~个音频语义检索原型系统,在这个系统中,音频信号被分层
次处理:首先分析音频信息中的短时能量、过零率和基本频率能量比等特征,音频信息流被按层次粗分为静音、和
谐音乐、对话和环境背景音四类;由于环境背景音蕴涵了大量语义,环境背景音被继续细分,并用训练好的隐马尔
可夫链表示每类环境背景音以进行语义检索.实验数据表明,这样的音频查询处理方式取得了良好效果.
关键词 分层分割,隐马尔可夫链,音频检索
中图法分类号TP391.4
1 引 言 分割成不同的语义场景.但是如果提取音频特征,按
照音频特征相似聚类,就可以用“和谐平缓”这样的
语义去表述视频信号变化剧烈的画面,把它们归于
多媒体信息流本质上是由文本、图像、图形、音
一类语义场景.还有象“枪声”、“警笛声”或“鼓掌声”
频和视频等多态媒质交互融合形成的.如何对这些
等环境背景音,这些环境背景音的出现往往暗示着
无结构的多媒体信息流进行高层语义检索已成为模
重要场景或者重要人物的出现,蕴涵了丰富的语义,
式识别、人工智能、数据库和信息查询等相关领域共
成为用户感兴趣的检索目标.这些环境背景音的共
同面临的挑战.
同特点是,与它们相连的视频信号特征变化剧烈,但
目前,基于内容的图像或视频检索是分别抽取
是音频信号特征保持稳定,可以用音频去表述语义,
相应媒质的物理视觉特征11j,如颜色、纹理、运动和
从而不致于使表示同一语义的视频场景被分割开
形状等,将多媒体语义内容用其视觉物理特征来表
来.
示,以实现多媒体信息的管理和查询,
给音频信息流赋上语义,有两个目的:一是实现
然而,多媒体本质是文字、视频和音频等多模态
音频到音频语义检索,即查找出听觉上相似的同类
信息的综合体,每一模态都表示了丰富的语义信息.
音频数据流;二是实现音频到视频检索,即用含有极
早期多媒体查询技术考虑的只是文字或视频信息,
大语义的音频信号去索引视觉变
文档评论(0)