多功能语音%2f音频信息检索系统的研究和实现.pdfVIP

多功能语音%2f音频信息检索系统的研究和实现.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
奎国网络与信息安全技术研讨全’矗嬲 多功能语音/音频信息检索系统的研究与实现 欧智坚,罗骏,谢达东,赵贤字,袜晖,王作英 (清华大学电子工程系,北京100084) 摘要:语音倍频是一种重要的信息载体。本文描述了如何综合运用语音识别、说话人识别等技术。实现一个多功 能语音/音频信息检索系统,能够从语音/音频库中检索(searching)出感兴趣的信息。感兴趣的语音/音频信息呈现 出不同的形式,可以是关键词,或者关键说话人,或者关键音频。本文提出了一个两阶段系统框架,介绍了如何在 这样的两阶段系统框架下统一实现三项不同形式的语音,音频信息检索,描述了每一项检索功能的实现方法。实验表 明,系统在检索性能和速度上都能达到一个较高的水平。 关键词:信息检索;关键词检测:说话人检测;音频检测 1 引言 息,有着重要的研究价值和应用前景。特别地,我们可以将语音/音频信息检索技术用于从存在于互联网上的 众多语音/音频数据中检测有关信息,从而达到为国家安全服务的目的。目前的互联网搜索引擎,如GooSe, Yahoo等,限于对文本信息的检索。在常规的文本检索中,文本本身就是一个易检索的形式。而语音/音频信 息的检索首先依赖于某种模式识别技术(语音识别、说话人识别等)。 本文描述了如何综合运用这些技术,实现一个多功能语音/音频信息检索系统,能够从众多的语音/音频 关键说话人(KeySpeaker),或者关键音频(KeyAudio)。 1)关键词检测:当用户提交关键词文本,系统能够从音频库中查找出指定的关键词。 2)关键说话人检测:当用户提交某个说话人(称为关键说话入)的语音样本,系统能够从音频库中查找 出这个关键说话人的所有语音。 3)关键音频检测:当用户提交一段音频(称为关键音频),系统能够从音频库中查找出这个关键音频。 得到系统的响应。 人们在语音识别、说话人识别等方面已有过不少的研究,但如何真正把这些技术综合应用到信息检索系 统来,集成以上三项任务,对研究者提出了新的要求。 本文从定位在实现一个多功能语音,音频信息检索系统出发,提出了一个两阶段系统框架。详细介绍了如 何在这样的两阶段系统框架下统一实现三项不同形式的语音,音频信息检索,描述了每一项检索功能的实现方 法,给出了实验结果。 在目前研究中,我们假设有一个“音频库”充当虚拟的互联网。 全国网络与信息安全技术研讨会’盘嬲 2系统总体框架 图1 多功能语晋/晋频信恩检秉系统总体设计框架 作为一个信息检索系统,检索速度是一个很重要的因素。通常以实时率来衡量一个检索系统的检索速度。 检索实时率=墨耄磊鎏嘉美筹 例如,假设音频库的规模是100小时,O.1倍实时即指检索系统平均将在10小时后给出用户一次查询的结果。 实时即指系统平均将在100小时后给出用户一次查询的结果。 对于语音内容信息(关键词)、说话人信息的检索需要依赖于识别技术(语音识别、说话人识别),这是一一 个费时的过程。互联网上语音/音频数据量之大(成百上千小时甚至更多),实时检索是远远不够的。鉴于此,我 们提出如下的两阶段系统,如图1所示。 (meta—data)。“音频元数据”是用来描述原始音频数据的数据,是对原始音频数据内容的紧凑表示。 随后,预处理引擎进行音频自动分段、分类(区分语音与音乐),特征提取,利用声学模型和拼音文法进行声 学识别,并进行说话人分析(具体含义见4.2)。预处理阶段最终输出『特征,识别得到的拼音图,说话人分析 结果1j项作为“元数据”。 橙震盼戥根据用户输入不同的查询条件,系统只需在前面生成的易检索的“元数据”中利用相关元数 据进行所需内容的检测。 tog· . 全国固络与信息安全技术研讨会’j口解 显然,预处理阶段只要运行一次,而用户的检索可以反复进行,变化不同的查询条件。 对丁二这样的两阶段检索系统,我们有 平曷检索速度=霉姜霾翟磊笔筹 垫竺堡堕墼望堕!!盗2±鳖鍪堕壁垫堕!丝姿! 音频库的总时长×N 因此,当用户检索的次数(Ⅳ)足够多后,系统的平均检索速度就近似等于检索阶段实

文档评论(0)

youyang99 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档