语音关键词检出系统中操作点自适应方法的研究.pdfVIP

下载本文档

5
0
约8.5千字
约 6页
2017-03-27 发布于广东
举报
版权申诉

语音关键词检出系统中操作点自适应方法的研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语音关键词检出系统中操作点自适应方法的研究.pdf

语音关键词检出系统中操作点自适应方法的研究1 ．李代松谢湘匡镜明北京理工大学电子工程系北京 100081 摘要：本文提出了针对基于补白模型，词表无关的关键词检出系统的自适应操作点设计方法。它解决了两个方面的问题：一是对于词表无关，动态扩展词表的关键词检出系统，本文提出了基于关键词模型状态数目自适应配比的加权方式，可以获得更好的操作点曲线；二是对于不同时长的输入语音，按照语音的帧长动态调整关键词网络的自适应加权尺度因子，以动态调整最优操作点。实验结果表明，本文提出的自适应操作点方法可显著提高传统关键词检出系统的检出率(音节基元建模条件下提高了27．7％)。关键词：模式识别语音识别关键词检出隐含马儿可夫模型补白模型自适应操作点 1 引言语音识别(SpeechRecogrfifion)技术已经在模式识别(PatternRecognition)和人机智能接口等领域得到了广泛的关注和应用，用隐含马尔可夫模型(HMM)来解决语音识别的问题已经取得了很大的成就【l】。关键词检出(KeywordSpotting)是一种特殊的语音识别任务，其目的在于从连续无限制的语音流中识别出给定的若干关键词【2】【3】。因此，关键词检出技术广泛用于人机交互的口语对话系统中，例如自动订票系统，航班查询系统，电话人名查询和自动转接系统，面向奥运的智能信息服务系统中都用到关键词检出技术。关键词检出系统把一段输入语音描述为“背景噪声，非关键词语音，关键词语音，非关键词模型(KeywordModel)，再加上静音模型等。在基于补白模型的关键词检出系统中，系统的操作点ROCfReceive 曲线是影响关键词检出系统性能的一个重要因素。而传统关键词检出系统的操作点，多是根据经验进行人为调节，使在误警率很高的条件下得到满意的检出率，然后通过后期的关键词确认对误警的关键词进行拒识【4】【5】。当关键词词表变化时，系统最优操作点发生偏移而降低系统的性能。针对上述缺陷，本文提出的自适应操作点设计方法，使系统自适应工作在最优操作点。 2 系统框架 2．1关键词检出网络本文描述的关键词检出系统是基于电话人名查询和自动转接应用背景。用户只要说出要 1基金项目：国家自然科学基金资助项1匡1 ·189· 查找或转接的人名，系统就会对用户的输入语音进行以人名为关键词的检测，然后根据用户的需要提供电话号码的查询或者分机转接。系统假设用户是合作的，即用户输入语音中最多只包含一个关键词。则对任意一条句子的建模网络如图l所示。为支持对任意关键词的建模，本文没有采用整词建模方法，而是采用字词建模方法构造出关键词模型和补白模型。在汉语普通话中，完备的常用子集合即基元有音节，声韵母和音素。本文关键词用建模基元连接而成，补白模型则为对应的基元集合。实验中选用了406个音节基元和60个声韵母基元【6】，并分别带有一个静音模型，作为模型基元集合。图1关键词检出网络 2．2声学模型与数据库声学模型是基于HMM建模并由声学特征矢l-iJII练得到。输入语音帧长20ms，帧移10ms，每帧语音提取13维MFCC声学特征矢量(包括O阶系数)，并求出一阶差分系数，形成26 维的特征矢量作为HMM中的观测矢量。本文所采用的HMM模型均是无跳转自左向右的结构，每个状态产生连续的输出特征矢量。特征矢量分布空间用多混合高斯密度来描述。对音节基元，采用统一的8个有效HMM状态，每个状态输出概率密度用3个高斯混合密度线性叠加而成；对声韵母基元，采用统一的4个有效HMM状态，每个状态输出概率密度采用8 个高斯混合密度线性叠加而成。训练和识别采用HTK工具包来实现【7】。本文训练集采用“汉语全音节库”和“863”连续语音库，前者用于模型参数的初始化，后者用于模型参数的训练，采用基于嵌入式的Baum-Welch训练方法；测试集采用本实验室录制的KeyName语音库，关键词词表为50个人名，其中2音节人名有18个，3音节人名有32 个。该库的说话人包括5男5女(50旬从)，一共500旬测试语音。此语音库的特点是说话人以完全I：1语化的方式发音，每句话包含一个入名关键词，说话人以人名查询和电话自动转接系统服务为情