- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语音识别概论1
2003-12-02 北京理工大学 语音识别技术 谢 湘 博 士 xie.xiang@263.net 北京理工大学电子工程系 现代通信实验室 提 纲 一、语音识别技术概论 二、语音识别生理分析与系统设计 三、语音识别系统举例 四、关键技术——声学特征提取 五、关键技术——HMM 六、汉语语音识别特点 七、参考文献及作业 1.1语音识别学科特点 计算机学科 ——计算机智能接口 信息处理学科——信息识别及提取 通信及电子系统——信源处理 人工智能——时序模式、多维模式识别 …… 声学、生理学、心理学、语音学、语言学 “语音研究工作者应当努力工作在跨学科的领域” 1.2语音识别应用价值 信息查询(股票、天气、航班……) 人机界面(新一代操作系统、智能家居) 听写机(文字输入、记录) 数据库管理(语音检索)…… 语音识别(提取或匹配语义)、语音压缩(高效存储、传输语音信号)、语音合成(输出自然可懂的语音信号)、语音增强(提高信噪比、加重语音成分)息息相关。 说话人识别(安全应用) 关键词检出(多媒体数据检索)…… 1.3语音识别系统分类及典型系统 孤立词-连接词-连续语音-自然语音 特定人-非特定人 词汇量(小、中、大) IBM ViaVoice 听写机 ATT VRCP系统(自助话务员协助呼叫) NTT ANSER 语音识别银行服务系统 SONY AIBO 机器狗 1.4 语音识别历史发展 50年代-ATT Bell Lab,可识别10个英文数字 60年代-LP较好地解决了语音信号产生模型, DP则有效解决了不等长语音的匹配问题。 70年代-DTW(Dynamic Time Warp)技术基本成熟,VQ和HMM理论;实现了基于LPC和DTW技术相结合的特定人孤立语音识别系统。 80年代-HMM模型和人工神经元网络(ANN)在语音识别中成功应用。1988年美国CMU大学基于VQ/HMM开发SI-CSR系统 SPHINX。 90年代-大规模应用,工业标准,理论进展缓慢 1.5 语音识别的性能评价 原句:我 们 明 天 去 天 安 门 识别:我 × 明后天 去 天 坛 × 删除错误 Deletion 插入错误 Insertion 替换错误 Substitution 正确率: 准确率: 1.6 语音识别技术面临的问题 数据资源 (年龄、性别、语言、方言、主题、情绪、地域……切分、标注体系) 抗噪性能(背景噪声、信道噪声、干扰) 协同发音(Co-articulation) 口语现象(重复、顿措、语序颠倒……) 说话人变异(口音、情绪、年龄……) 听觉机理(音量、频率、抗噪、区分……) ………… 2.1语音产生语音理解生理过程 2.2语音识别层次模型 2.3统一层次模型——系统设计 2.4 各类典型语音识别系统比较 3.1语音识别系统基本构成 3.2语音识别系统举例 4、特征提取 预加重: 分帧: 短时平稳(10-30ms) 加窗:Hamming 特征参数 倒谱均值归一化 4.1 特征参数 静态参数:Mel-Frequency Cepstrum Coefficients (MFCC)、PLPC…… 帧能量 动态参数 4.2 Mel-频率 目的:模拟人耳对不同频率语音的感知 人类对不同频率语音有不同的感知能力 1kHz以下,与频率成线性关系 1kHz以上,与频率成对数关系 Mel频率定义 1Mel—1kHz音调感知程度的1/1000 Mel-频率 公式: 频率-Mel-频率: MFCC 计算流程: Discrete Fourier Transform (DFT) 公式: 应用:Fast Fourier Transform (FFT) Mel 滤波器组—参数选择 以采样率8kHz,帧宽30ms为例: FFT窗宽:512 滤波器个数:26 (通常24-40) 滤波器频率应用范围(电话频带): 最高:3400Hz 最低:300Hz Mel 滤波器组—图示 对数能量 公式: 应用:对噪音和谱估计误差有更好的鲁棒性 倒谱参数 Discrete Cosine Transform (DCT) 倒谱维数:前12维 4.3 帧能量 公式: 应用: 4.4 动态参数 反映帧间相关信息 一阶差分: 二阶差分: 4.5 特征参数 特征矢量 图例:m=1 4.6 倒谱均值归一化 Cepstrum Mean Normalization (CMN) 目的:消除信道带来的影响 应用:T通常为整个词的特征帧数 一个变形: 5. HMM的核心思想和关键技术 问题描述(孤立词识别)
您可能关注的文档
- 论第三者破坏他人婚姻家庭的民事责任.doc
- 论电力燃料体制改革.docx
- 论英语委婉语的特点.doc
- 论自学成才.doc
- 论行业协会的能力建设.doc
- 论警力资源管理的现状及其发展.doc
- 论语与孔子.ppt
- 论语选读课文解读与文言练习详解.doc
- 论说文写作用.doc
- 论贝氏体相变.ppt
- 深度解析(2026)《ISO 22002-12025食品安全前提方案—第1部分:食品制造》.pptx
- 深度解析(2026)《ISO 22002-52025食品安全前提方案—第5部分:运输和储存》.pptx
- 深度解析(2026)《ISO 22002-42025 食品安全前提方案 — 第4部分:食品包装制造》.pptx
- 徒步活动策划方案.doc
- 深度解析(2026)《ISO 22002-62025食品安全前提方案—第6部分:饲料及动物食品生产》.pptx
- 2026年新版郯城期末真题卷.doc
- 深度解析(2026)《ISO 22476-72012岩土工程勘察与测试 — 现场测试 — 第7部分:钻孔千斤顶试验》.pptx
- 深度解析(2026)《ISO 22090-22014 船舶与海洋技术 — 航向传送装置(THD) — 第2部分:地磁原理》.pptx
- 深度解析(2026)《ISO 23584-22012 光学和光子学 — 参考字典规范 — 第 2 部分:类与特性定义》:构建智能制造数据基石的专家视角与未来展望.pptx
- 深度解析(2026)《ISO 22932-92025 Mining — Vocabulary — Part 9 Drainage》:构建未来矿山“水脉”治理与可持续发展的新语言体系.pptx
最近下载
- 高直度水平锚索孔测斜及潜孔锤防斜钻进技术.doc VIP
- 2023年中考化学鲁教版(五四学制)一轮复习第四单元 第二节 金属的化学性质.pptx VIP
- 2023年中考化学鲁教版(五四学制)一轮复习第二单元 探秘水世界复习课件.pptx VIP
- 博观研究院2025年中国跨境进口保健品市场分析报告.pdf
- 2023年中考化学鲁教版(五四学制)一轮复习第四单元 我们周围的空气课件.pptx VIP
- 2023年中考化学鲁教版(五四学制)一轮复习第三单元 海水中的化学复习课件.pptx VIP
- 2023年中考化学鲁教版(五四学制)一轮热点突破专题三 物质的检验与鉴别、分离和除杂.pptx VIP
- 2023年中考化学鲁教版(五四学制)一轮复习第四单元 第一、三节 常见的金属材料及钢铁的锈蚀与防护.pptx VIP
- 口腔解剖生理学:颌位 建颌.ppt VIP
- 比亚迪M6音响系统维修手册.doc VIP
原创力文档


文档评论(0)