语音技术前沿及应用.pptVIP

下载本文档

0
0
约1.5万字
约 10页
2025-03-19 发布于四川
举报
版权申诉

语音技术前沿及应用.ppt

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

IntonationEmotionTTS在现在陈述语气合成的基础上实现感叹，疑问，强调的效果在正常情绪合成的基础上增强系统在高兴，生气，悲伤等多种情绪方面的表现能力感叹疑问演示文本：没错！现在资金这么紧缺！你还想扩大生产规模？你说这件事情令人担忧？我觉得完全不会；Intonation和EmotionTTSIntonationEmotionTTS我们现在进行的情感语音方面的研究主要包括以下几个方面的内容：情感语料库的设计与录制；情感语音韵律模型的研究，主要是研究情感语音中基频、时长等韵律参数相对于中立语音的变化规律，实现情感语音的韵律预测；语音声源参数分析方面的工作，研究发音人在表达不同情感时声源参数对应的“音质”(VoiceQuality)特征的变化规律；情感语音合成系统的建立，包括采用参数调整、VoiceConversion方法等。中立合成情感合成高兴生气难过即AutomaticSpeechRecognition过程,简称ASR技术01主要解决将语音信息转化为文本状态的文字信息的问题02可以分为以下几个方面的技术说话人鉴别孤立词识别连续语音识别03语音识别技术语音识别技术回顾语音识别的历史相对语音合成，语音识别更加困难，在电子计算机发明以前，很难进行这方面的工作年代里程碑1970’sHMM统计参数模型被发明，引发了语音识别的革命1971DARPA开始支持语音识别工作1982第一个语音识别公司：Dragon公司成立1994Nuance公司成立，现在最强大的语音识别技术提供商安静环境/噪杂环境？Environmentrobustness4一般信道/电话信道？Channeladaptability5孤立词/连续语音？IsolatedorContinuousspeech1认人/不认人？Speaker-dependentorIndependent2小词汇量/大词汇量？Smallorlargevocabulary3语音识别的复杂性语音识别技术语音输入结果输出判决比较特征提取模板最基本的孤立字识别系统语音识别技术语音识别技术现代语音识别系统组成前端处理（特征参数提取）最大限度地冗余信息的剔出，和最大限度地语音的区别特征的保留，同时具有ROBUST。例：LPC，LSP，DFT，MFCC。模型的建立与学习（生学模型、语言模型）声学模型建立与学习：模板，HMM。语言模型建立与学习：词BI-GRAM，TRI-GRAM,POSBI-GRAM，有监督学习和无监督学习自适应学习：OFFLINE有监督与无监督，ONLINE无监督识别（分类）最佳路径搜索，决策最可能的结果识别方法的有效性（运算量与最优性的矛盾），ROBUST性语音识别技术现代语音识别系统系统构成图语音识别技术隐马尔可夫模型（HMM）电话信道环境下的非特定人连续语音识别01考虑到电话信道特性，噪音，话机的差别等因素的语音识别ROBUST问题的研究02电话信道环境下的非特定人连续语音识别数据库的建立03电话语音识别技术语音识别技术拨打时间：2005-5-120120次拨打，识别动作436次，产生声音296句占67.58％，人声171句占39.04％02171句人声，语法内句子22.22％03语法内正确识别率60.53%04安徽炫铃20次实际拨打记录分析嵌入式语音识别现有ASR的技术应用近年来ASR核心研究的前进步伐放慢，性能几乎饱和现有系统鲁棒性还比较差使用时需要用户很好配合在噪声背景下，识别性能下降明显，现有的信号处理方法收效甚微面对对话中出现不符合语法的病句，集外词，任务外的词，说话习惯的嗯啊….等，现有的系统难以胜任和人类识别语音相比误差率要大一到两个数量级。这样的识别性能难以直接应用，但只要用户界面设计、实现的好，现有的技术可以发挥其应有的价值！010203产生语音信号的源-滤波器模型码激励语音编码技术分析/合成语音编码技术语音编码技术的基本原理语音编码技术语音编码技术产生语音信号的源-滤波器模型语音编码技术语音压缩编码技术最新动态功能：通过语音识别或确认说话人身份分类：身份确认、身份识别文本相关、文本无关难点：相同人不同身体状态的音色有差别要防止恶意的模仿12345水平：1000个人，97%以上的识别正确率方法：GMM，HMM身份识别和确认（声纹识别）音色分类功能：通过语音识别或确认说话人音色分类：男女