- 0
- 0
- 约2.51千字
- 约 26页
- 2026-01-15 发布于陕西
- 举报
语音文本转换及其逆过程主讲人:孟凡朕
CONTENTS目录01语音-文本转换和语音特征02构建语音识别分类器03语音-文本和文本-语音实现方式
学习目标理解语音-文本转换的原理掌握各种语音特征的提取方法熟练运用各种语音特征
01 语音-文本转换和语音特征基本概念波形合成方法参数合成方法规则合成方法基本信息波形特征参数语言符号组合语音质量可懂度高高中自然度高中低词汇量少(500字以下)大(数千字)无限合成方式PCM、ADPCM、APCLPC、LSP、共振峰LPC、LSP、复倒谱数码率9.6~64kbit/s2.4~9.6kbit/s50~75kbit/s比特可合成语音长度15秒~100秒100秒~7分无限合成单元音节、词组、句子音节、词组、句子音素、音节实现简单比较复杂复杂
01 语音-文本转换和语音特征基本概念
01 语音-文本转换和语音特征数据准备为原始语音段加基音标注是算法执行的基础。(1)浊音有基音周期,能够进行有效地标注。(2)对于清音,为了保持算法的一致性,一般标注为一个适当的常数。需要按基音周期分别修改音长、基频及合成信号的幅值。
01 语音-文本转换和语音特征将语音映射为矩阵特征映射过程示意图
01 语音-文本转换和语音特征将语音映射为矩阵(1)大量的各种信道的数据训练一个与信道无关的UBM模型,模型的训练按男女性别单独训练,最后拼接成一个大的UBM模型。(2)每种信道分别选择几个小时的数据,通过MAP的方法由信道无关的UBM模型映射得到每个信道的GMM模型。(3)对于输入的一段语音特征参数,在各信道的GMM模型上计算对数似然度,根据对数似然度大小判断该段语音所属信道类型。
01 语音-文本转换和语音特征将语音映射为图像语谱图的产生
01 语音-文本转换和语音特征将语音映射为图像语谱图的示例
CONTENTS目录01语音-文本转换和语音特征02构建语音识别分类器03语音-文本和文本-语音实现方式
学习目标了解各种语音识别分类器掌握语音分类器的原理熟练训练和运用各种分类器进行识别任务
02 构建语音识别分类器利用MFCC特征构建语音识别分类器SVM说话人模型的建模策略“一对一”和“一对多”两种策略。“一对一”策略,需要为目标说话人和每个冒认者单独训练一个SVM模型。这样就需要至少为每个说话人训练个SVM模型,系统总共需要训练至少个说话人模型。“一对一”策略缺点:但当N很大时,需要训练的说话人模型个数呈指数增长。“一对多”策略时,对每个说话人只需训练一个SVM模型,即将目标说话人和所有冒认者的语音数据一起训练。“一对多”策略缺点:冒认者很多时,其训练数据远远多于目标说话人的训练数据,会造成两类训练数据的严重不平衡。
02 构建语音识别分类器利用MFCC特征构建语音识别分类器核函数的选择(1)核函数的目的,就是将原始空间中的不可分数据转换为高维空间中的可分数据。(2)不同的说话人模型却应该采用相同的核函数。(3)常用核函数:线性核函数、多项式核函数和径向基核函数RBF。(4)建立基于概率统计模型的核函数:Fisher核函数及其改进、基于KL距离的核函数。
02 构建语音识别分类器利用声谱图构建语音识别分类器
CONTENTS目录01语音-文本转换和语音特征02构建语音识别分类器03语音-文本和文本-语音实现方式
学习目标了解语音-文本和文本-语音转换原理掌握语音和文本之间相互转换的步骤熟练应用各种转换方法
03 语音-文本和文本-语音实现方式语音-文本API的发展历程1997年IBM公司推出ViaVoice系统1998年微软和intel同时开始研究语音识别1999年语音识别开发包spark3.02002年美国国防先进项目研究局研发NIST2005年至今,口语语音识别的探索
03 语音-文本和文本-语音实现方式语音-文本APIPocketSphinxAPIpipinstallPocketSphinximportspeech_recognitionasasrrgn=asr.Recognizer()
03 语音-文本和文本-语音实现方式语音-文本APIGoogleSpeechAPIr.recognize_google((audio))
03 语音-文本和文本-语音实现方式语音-文本APIBingVioceAPI在B创建新的账号,然后获取bingviocerecognitionAPI秘钥。asr.recognize_bing(audio,key=BING_KEY)
03 语音-文本和文本-语音实现方式语音-文本APIIBMspeechAPI登录IBM云,启动项目或得账号和密码ibm(audio,username=
您可能关注的文档
- 一为什么说悠悠万事民生为大为民造福是立为公执政为民的本质要求13课件讲解.pptx
- 语音识别简介33课件讲解.pptx
- 语音识别06课件讲解.pptx
- 语音合成54课件讲解.pptx
- 语音编码30课件讲解.pptx
- 语言史简述计算机主讲王学德97课件讲解.pptx
- 语料库王跃光76课件讲解.pptx
- 与高龄者家属的沟通交流刘慧萍36课件讲解.pptx
- 鱼骨图49课件讲解.pptx
- 幼少儿英语歌谣与律动中比较常见的形式授课人彭礼智11课件讲解.pptx
- 七年级语文上册期末模拟试卷1(解析版).docx
- 七年级语文上册期末模拟试卷1(原卷版).docx
- 七年级语文上册期末模拟试卷2(原卷版).docx
- 七年级语文上册期末模拟试卷2(解析版).docx
- 期末测试卷(二)(解析版)2024—2025学年七年级语文上册期末测试卷(全国版).docx
- 期末测试卷(三)(解析版)2024—2025学年七年级语文上册期末测试卷(全国版).docx
- 期末测试卷(二)(原卷版)2024—2025学年七年级语文上册期末测试卷(全国版).docx
- 期末测试卷(三)(原卷版)2024—2025学年七年级语文上册期末测试卷(全国版).docx
- 期末测试卷(一)(原卷版)2024—2025学年七年级语文上册期末测试卷(全国版).docx
- 期末测试卷(一)(解析版)2024—2025学年七年级语文上册期末测试卷(全国版).docx
最近下载
- 深度解析(2026)《GA 990-2012爆破作业单位资质条件和管理要求》.pptx VIP
- 症状严重程度每日记录量表的引进及信效度检验.doc VIP
- 2025年美容主诊考试题库及答案.doc VIP
- 财务部年终工作总结及下年计划.pptx VIP
- 美容主诊考试题库及答案.doc VIP
- 安徽省合肥市包河区2024-2025学年七年级上学期期末地理试卷(解析版).pdf VIP
- 强条检查记录表模板.doc VIP
- 蒋悟生 第四版 生物专业英语第二课含准确中文翻译.pptx VIP
- 2026年高中政治学业水平考试核心知识点填空练习(含答案).pdf VIP
- GB46768-2025《有限空间作业安全技术规范》解读_-60页.pptx
原创力文档

文档评论(0)