多功能语音%2f音频信息检索系统的研究和实现.pdfVIP

下载本文档

3
0
约9.92千字
约 7页
2017-08-16 发布于安徽
举报
版权申诉

多功能语音%2f音频信息检索系统的研究和实现.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

奎国网络与信息安全技术研讨全’矗嬲多功能语音／音频信息检索系统的研究与实现欧智坚，罗骏，谢达东，赵贤字，袜晖，王作英 (清华大学电子工程系，北京100084) 摘要：语音倍频是一种重要的信息载体。本文描述了如何综合运用语音识别、说话人识别等技术。实现一个多功能语音／音频信息检索系统，能够从语音／音频库中检索(searching)出感兴趣的信息。感兴趣的语音／音频信息呈现出不同的形式，可以是关键词，或者关键说话人，或者关键音频。本文提出了一个两阶段系统框架，介绍了如何在这样的两阶段系统框架下统一实现三项不同形式的语音，音频信息检索，描述了每一项检索功能的实现方法。实验表明，系统在检索性能和速度上都能达到一个较高的水平。关键词：信息检索；关键词检测：说话人检测；音频检测 1 引言息，有着重要的研究价值和应用前景。特别地，我们可以将语音／音频信息检索技术用于从存在于互联网上的众多语音／音频数据中检测有关信息，从而达到为国家安全服务的目的。目前的互联网搜索引擎，如GooSe， Yahoo等，限于对文本信息的检索。在常规的文本检索中，文本本身就是一个易检索的形式。而语音／音频信息的检索首先依赖于某种模式识别技术(语音识别、说话人识别等)。本文描述了如何综合运用这些技术，实现一个多功能语音／音频信息检索系统，能够从众多的语音／音频关键说话人(KeySpeaker)，或者关键音频(KeyAudio)。 1)关键词检测：当用户提交关键词文本，系统能够从音频库中查找出指定的关键词。 2)关键说话人检测：当用户提交某个说话人(称为关键说话入)的语音样本，系统能够从音频库中查找出这个关键说话人的所有语音。 3)关键音频检测：当用户提交一段音频(称为关键音频)，系统能够从音频库中查找出这个关键音频。得到系统的响应。人们在语音识别、说话人识别等方面已有过不少的研究，但如何真正把这些技术综合应用到信息检索系统来，集成以上三项任务，对研究者提出了新的要求。本文从定位在实现一个多功能语音，音频信息检索系统出发，提出了一个两阶段系统框架。详细介绍了如何在这样的两阶段系统框架下统一实现三项不同形式的语音，音频信息检索，描述了每一项检索功能的实现方法，给出了实验结果。在目前研究中，我们假设有一个“音频库”充当虚拟的互联网。全国网络与信息安全技术研讨会’盘嬲 2系统总体框架图1 多功能语晋／晋频信恩检秉系统总体设计框架作为一个信息检索系统，检索速度是一个很重要的因素。通常以实时率来衡量一个检索系统的检索速度。检索实时率=墨耄磊鎏嘉美筹例如，假设音频库的规模是100小时，O．1倍实时即指检索系统平均将在10小时后给出用户一次查询的结果。实时即指系统平均将在100小时后给出用户一次查询的结果。对于语音内容信息(关键词)、说话人信息的检索需要依赖于识别技术(语音识别、说话人识别)，这是一一个费时的过程。互联网上语音／音频数据量之大(成百上千小时甚至更多)，实时检索是远远不够的。鉴于此，我们提出如下的两阶段系统，如图1所示。 (meta—data)。“音频元数据”是用来描述原始音频数据的数据，是对原始音频数据内容的紧凑表示。随后，预处理引擎进行音频自动分段、分类(区分语音与音乐)，特征提取，利用声学模型和拼音文法进行声学识别，并进行说话人分析(具体含义见4．2)。预处理阶段最终输出『特征，识别得到的拼音图，说话人分析结果1j项作为“元数据”。橙震盼戥根据用户输入不同的查询条件，系统只需在前面生成的易检索的“元数据”中利用相关元数据进行所需内容的检测。 tog· ．全国固络与信息安全技术研讨会’j口解显然，预处理阶段只要运行一次，而用户的检索可以反复进行，变化不同的查询条件。对丁二这样的两阶段检索系统，我们有平曷检索速度=霉姜霾翟磊笔筹垫竺堡堕墼望堕!!盗2±鳖鍪堕壁垫堕!丝姿! 音频库的总时长×N 因此，当用户检索的次数(Ⅳ)足够多后，系统的平均检索速度就近似等于检索阶段实