- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多媒体图像处理_声音课件
MIDI标准的优点:生成的文件比较小,容易编缉,可以作背影音乐。 MIDI音乐合成方法有两种:一种是频率调制(frequency modulation, FM)合成法,另一种是乐音样本合成法,也称为波形表(wave table)合成法。 FM合成法来产生各种逼真的乐音相当困难,有些乐音几乎不能产生。 波形表合成法把真实乐器发出的声音以数字的形式记录下来,播放时改变播放速度,从而改变音调周期,生成各种音阶的音符,产生的声音质量要比FM合成的声音质量好高。 2.6 语音识别与合成技术 语音合成技术 2.6 语音识别与合成技术 又称为文语转换、Text-to-Speech (TTS)、Speech Synthesis 将文本转换成自然语音的技术,即“让计算机说人话” 评价标准:可懂度、自然度 (如MOS测试) 基于对合成单元处理的方式的不同,可以分为: 发音参数合成:对发音生理机制进行分析,用一起记录发音时的生理参数,从中归纳出控制合成模型所需的参数。 参数分析合成:对合成单元(如音节)的自然语音按一定方法进行分析,得到单元特征参数并存储起来,称为音库;合成时调用相应单元参数并按一定规则变换后送入合成器,合成语音。 波形编码合成(拼接式合成):合成语句的语音单元从一个预先录制的、经过编码压缩的语音数据库中挑选出来。只要语音数据库足够大,包括了各种可能语境下的所有语音单元,理论上就有可能通过高效的搜索算法拼接出任何高自然度的语句。 语音合成技术——典型系统构成 2.6 语音识别与合成技术 语义、语法与词法分析 声调、语气、停顿、时长 变音及韵律规则或韵律模型 根据语音参数进行语音生成 或从语音单元波形库搜索最优单元拼接 语音合成技术——未来方向 2.6 语音识别与合成技术 可视语音合成(Visual Speech Synthesis) 文本 摘自中科大王仁华教授在第九届全国人机语音通讯学术会议上的报告,2007年10月,安徽黄山。 语音识别技术 2.6 语音识别与合成技术 又称为语文转换、Speech-to-Text、Speech Recognition 将自然语音转换成文字的技术,即“让计算机听懂人话” 评价标准:错误率(如词错误率WER) 语音识别系统分类: 按词汇量分:小词汇量、中等词汇量、大词汇量 按使用者限制分:特定人、非特定人 按能处理的语音类型分:孤立词、连接词、连续语音、自发语音 按使用平台分:PC机、嵌入式 语音识别系统——典型系统构成 2.6 语音识别与合成技术 声学模型 语言模型 字典 特征提取 模式分类/ 解码/搜索 置信度判分 ◆ 建立语音识别系统的过程分为训练和识别两个部分。 ◆ 声学建模技术:动态规划DTW、隐马尔科夫模型HMM、人工神经网络ANN、图模型(GM)或动态贝叶斯网络(DBN)… 语音识别技术——发展历程与现状 2.6 语音识别与合成技术 摘自Georgia Tech 李锦辉(C-H Lee)教授在第九届全国人机语音通讯学术会议上的报告,2007年10月,安徽黄山。 环境噪声 信道不匹配 字典容量有限 自发语音 …… 挑战: 谢谢! PCM PCM编码是对连续语音信号进行空间采样、幅度量化及 用适当码字将其编码的总称。 PCM量化:均匀、非均匀、自适应。 均匀量化与非均匀量化: 均匀量化就是采用相同的“等分尺”来度量采样得到的幅度; 采用相同的量化间隔,幅度范围 N=2B (B为量化位数) 均匀量化脉冲编码调制的不足:为满足听觉上的效果,要使用较多的量化位数,因而数据量大,需要较多的存储空间。 均匀量化PCM 非均匀量化PCM 利用语音信号幅度的统计特性,量化区间在遇到大幅度信号时变大,在遇到小幅度信号时变小。 根据语音抽样非均匀分布的特点,设法让量化阶距随信号的概率密度的减少而增大,或者说把大的量化误差留给出现概率小的样值,从而得到较大的信噪比,又保证了足够大的动态范围。 人耳对语音信号能量感知呈现对数规律。量化前用对数函数将幅度压缩,解码后再用指数函数进行幅度扩张。 均匀量化无论对大的输入信号还是小的输入信号一律都采用相同的量化间隔。为了适应大幅度输入信号,同时满足精度要求,就需要增加样本的位数。 但是,对话音信号来说,大信号出现的机会并不多,增加的样本位数就没有充分利用。为了克服这个不足,出现了非均匀量化的方法,也叫做非线性量化。 非线性量化的基本思想:对输入信号进行量化时,大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔。 例如,典型的窄带话音带宽限制在4kHz,采样频率是8kHz。如果要获得高一点的音质,样本精度要用12 位,其数据率为96kb/s; 若用非线性量化的对数量化器(logarithmic quantizer), 它产生的样本精度为8
您可能关注的文档
最近下载
- 一年级数学思维年龄问题.docx VIP
- 2026版《治安管理处罚法》解读.pptx
- 【MOOC答案】《电磁场与电磁波理论》(南京邮电大学)章节作业慕课答案.docx
- 一种用于LNG船常规试航及气体试航的一体化试航的方法.pdf VIP
- 切开缝合结扎止血.pptx VIP
- 传感器技术基础与应用实训(第3版)答案项目单元4.pdf VIP
- 四年级上册语文知识梳理(豪华精细版)-第三单元小结|人教(部编版).doc VIP
- 最新苏教版五年级上册数学期末考试试卷(10套).docx VIP
- 传感器技术基础与应用实训(第3版)答案项目单元11.pdf VIP
- 2024年高中语文统编版选择性必修下册单元导语、学习提示、单元任务、写作指导汇总.docx VIP
原创力文档


文档评论(0)