基于隐马尔可夫链的音频语义检索.pdf

基于隐马尔可夫链的音频语义检索.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于隐马尔可夫链的音频语义检索.pdf

第14卷第l期 V01.14 模式识别与人工智能 No.1 2001年3月 PRAI March 2001 基于隐马尔可夫链的音频语义检索* 吴 飞 庄越挺 张 引 潘云鹤 (浙江大学人工智能研究所浙江大学微软视觉感知联合实验室杭州 310027) 摘要作为多媒体媒质之一的音频信号蕴涵了丰富的视觉听觉语义,但是目前多媒体检索主要利用的是视觉信 息,音频信息被忽略.为了弥补这一不足,本文介绍了~个音频语义检索原型系统,在这个系统中,音频信号被分层 次处理:首先分析音频信息中的短时能量、过零率和基本频率能量比等特征,音频信息流被按层次粗分为静音、和 谐音乐、对话和环境背景音四类;由于环境背景音蕴涵了大量语义,环境背景音被继续细分,并用训练好的隐马尔 可夫链表示每类环境背景音以进行语义检索.实验数据表明,这样的音频查询处理方式取得了良好效果. 关键词 分层分割,隐马尔可夫链,音频检索 中图法分类号TP391.4 1 引 言 分割成不同的语义场景.但是如果提取音频特征,按 照音频特征相似聚类,就可以用“和谐平缓”这样的 语义去表述视频信号变化剧烈的画面,把它们归于 多媒体信息流本质上是由文本、图像、图形、音 一类语义场景.还有象“枪声”、“警笛声”或“鼓掌声” 频和视频等多态媒质交互融合形成的.如何对这些 等环境背景音,这些环境背景音的出现往往暗示着 无结构的多媒体信息流进行高层语义检索已成为模 重要场景或者重要人物的出现,蕴涵了丰富的语义, 式识别、人工智能、数据库和信息查询等相关领域共 成为用户感兴趣的检索目标.这些环境背景音的共 同面临的挑战. 同特点是,与它们相连的视频信号特征变化剧烈,但 目前,基于内容的图像或视频检索是分别抽取 是音频信号特征保持稳定,可以用音频去表述语义, 相应媒质的物理视觉特征11j,如颜色、纹理、运动和 从而不致于使表示同一语义的视频场景被分割开 形状等,将多媒体语义内容用其视觉物理特征来表 来. 示,以实现多媒体信息的管理和查询, 给音频信息流赋上语义,有两个目的:一是实现 然而,多媒体本质是文字、视频和音频等多模态 音频到音频语义检索,即查找出听觉上相似的同类 信息的综合体,每一模态都表示了丰富的语义信息. 音频数据流;二是实现音频到视频检索,即用含有极 早期多媒体查询技术考虑的只是文字或视频信息, 大语义的音频信号去索引视觉变

文档评论(0)

rewfdgd + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档