(语音信号处理课件)13语音识别简化.ppt

下载文档 降价啦

3
0
约2.5千字
约 21页
2018-03-20 发布于浙江
举报
版权申诉
保障服务

(语音信号处理课件)13语音识别简化.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* Speech signal processing 语音识别 1 2 3 语音识别基本概念语音识别的应用语音识别的方法 * Speech signal processing 语音识别（speech recognition）语音识别（Speech Recognition）：机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术。根本目的是研究出一种具有听觉功能的机器，能直接接受人的语音，理解人的意图，并做出相应的反映。从技术上看，它属于多维模式识别和智能接口的范畴。 * 语音识别与合成作为一个独立的研究领域已经有近五六十年历史。语音识别作为一个跨学科的技术，是在人们几个世纪以来对语言学、声学、生理学及自动机理论研究的基础上发展而来的。但这些理论实现起来仍然面临着以下困难：不同的说话者有不同的说话方式；在含噪音环境中引入的噪声在很大程度上干扰了原始语音信号；连续语音中音素、音节或单词之间的调音结合引起的音变使基元模型之间的边界不明确；语法语义规则的建立与理解很难；语音信息的变化很大，不同人不同，同一个人也不同；语音的模糊性；单个字母及单个词发音时的语音特性受上下文环境的影响，音量、音调、重音、音速等都可不同；环境噪声和干扰对语音识别有严重影响；语音识别（speech recognition） * Speech signal processing 语音识别分类按词汇表（Vocabulary）的大小分小词汇表系统：包括10~100个词条中词汇表系统：包括100~1000个词条大词汇表系统：至少包含1000个以上的词条按照发音方式分孤立词（Isolated Word ）识别连接词（Connected Word）识别连续语音（Continuous Speech）识别语音理解（在识别的基础上用语言学知识推断语音含义）、会话语音识别（书写语音识别） * Speech signal processing 语音识别分类按说话人的限定范围分特定人（Speaker Dependent，SD）识别非特定人（Speaker-Independent ，SI）识别按照识别方法分模板匹配方法：DTW 概率模型方法：HMM、 ANN 、SVM * 语音识别的发展现状从理论到产品走过了50多个春秋；现有很多实际应用系统；有可能成为下一代操作系统和应用程序的用户界面；远没有达到计算机与人类自然交流的终极目标；实用的语音识别技术研究极具市场价值和挑战；重点：大词汇、非特定人、连续语音识别。 * 汉语语音识别与其他语言没有本质区别；汉语的特点使其识别难度更大。交叉学科：计算机、通信、语音语言学、数理统计、信号处理、神经生理心理、人工智能等 * 语音打字机（听写机，键盘输入的3－4倍）；电话查询自动应答系统（语音界面）；语音命令的控制系统（释放手脚）；信息查询（股票、天气、航班……）人机界面（新一代操作系统、智能家居）听写机（文字输入、记录）数据库管理（语音检索）…… 说话人识别（安全应用）关键词检出（多媒体数据检索）…… 语音识别应用－人机交互： * 语音识别方法：模版匹配法特定人、小词汇、孤立人识别系统Dynamic Time Warping 随机模型法主流，HMM语音：从一个相对稳定的状态过渡到另一个状态概率语法分析法区别性特征＋（语法、语义、语用）规则＋知识基于ANN的方法、基于模糊数学的方法、句法语音识别等 * 语音识别典型系统 IBM ViaVoice 听写机 ATT VRCP系统（自助话务员协助呼叫） NTT ANSER 语音识别银行服务系统 SONY AIBO 机器狗 * 语音识别的性能评价原句：我们明天去天安门识别：我 × 明后天去天坛 × 删除错误 Deletion 插入错误 Insertion 替换错误 Substitution 正确率: 准确率: * 语音识别技术面临的问题数据资源 (年龄、性别、语言、方言、主题、情绪、地域……切分、标注体系) 抗噪性能(背景噪声、信道噪声、干扰) 协同发音(Co-articulation) 口语现象(重复、顿措、语序颠倒……) 说话人变异(口音、情绪、年龄……) 听觉机理(音量、频率、抗噪、区分……) ………… * 语音识别层次模型 * 统一层次模型——系统设计 * 语音识别原理模式匹配原理：未知语音模式与已知语音模式逐一比较，最佳匹配的参考模式作为识别结果。识别步骤：