基于隐马尔可夫链的音频语义检索.pdf

下载文档

6
0
约1.67万字
约 7页
2015-09-09 发布于湖北
举报
版权申诉
保障服务

基于隐马尔可夫链的音频语义检索.pdf

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于隐马尔可夫链的音频语义检索.pdf

第14卷第l期 V01．14 模式识别与人工智能 No．1 2001年3月 PRAI March 2001 基于隐马尔可夫链的音频语义检索* 吴飞庄越挺张引潘云鹤 (浙江大学人工智能研究所浙江大学微软视觉感知联合实验室杭州 310027) 摘要作为多媒体媒质之一的音频信号蕴涵了丰富的视觉听觉语义，但是目前多媒体检索主要利用的是视觉信息，音频信息被忽略．为了弥补这一不足，本文介绍了～个音频语义检索原型系统，在这个系统中，音频信号被分层次处理：首先分析音频信息中的短时能量、过零率和基本频率能量比等特征，音频信息流被按层次粗分为静音、和谐音乐、对话和环境背景音四类；由于环境背景音蕴涵了大量语义，环境背景音被继续细分，并用训练好的隐马尔可夫链表示每类环境背景音以进行语义检索．实验数据表明，这样的音频查询处理方式取得了良好效果．关键词分层分割，隐马尔可夫链，音频检索中图法分类号TP391．4 1 引言分割成不同的语义场景．但是如果提取音频特征，按照音频特征相似聚类，就可以用“和谐平缓”这样的语义去表述视频信号变化剧烈的画面，把它们归于多媒体信息流本质上是由文本、图像、图形、音一类语义场景．还有象“枪声”、“警笛声”或“鼓掌声” 频和视频等多态媒质交互融合形成的．如何对这些等环境背景音，这些环境背景音的出现往往暗示着无结构的多媒体信息流进行高层语义检索已成为模重要场景或者重要人物的出现，蕴涵了丰富的语义，式识别、人工智能、数据库和信息查询等相关领域共成为用户感兴趣的检索目标．这些环境背景音的共同面临的挑战．同特点是，与它们相连的视频信号特征变化剧烈，但目前，基于内容的图像或视频检索是分别抽取是音频信号特征保持稳定，可以用音频去表述语义，相应媒质的物理视觉特征11j，如颜色、纹理、运动和从而不致于使表示同一语义的视频场景被分割开形状等，将多媒体语义内容用其视觉物理特征来表来．示，以实现多媒体信息的管理和查询，给音频信息流赋上语义，有两个目的：一是实现然而，多媒体本质是文字、视频和音频等多模态音频到音频语义检索，即查找出听觉上相似的同类信息的综合体，每一模态都表示了丰富的语义信息．音频数据流；二是实现音频到视频检索，即用含有极早期多媒体查询技术考虑的只是文字或视频信息，大语义的音频信号去索引视觉变