网站大量收购独家精品文档,联系QQ:2885784924

语音数据与语音合成.pptVIP

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* HMM建模预测+单元挑选的结合 创新:走自己的路 * * * * ARCTIC库,回头去录BTEC库 随机挑选词覆盖率不到50%,经过应用选择和语料挑选后词覆盖率接近99% * 不是识别的办公室环境,越干净越好 低平偏移 失败例子,Terry前1000与后面…… * 五状态模型,至少得30ms,短于这个时间人也难以判断 连续语流切分,多切到了停顿段,影响自然度 * 这些都是需要在文本分析的基础上修改的 说不定什么时候就踩地雷了 * 当然个别错误未必会导致非常严重的错误,但精确的韵律标注的确能从建模开始到合成结束一系列的过程中帮助我们做的更好 * * * 大家偏向不同,会造成数据混乱无序 * 浊浊修正是老牌,借宝地强调一下 沟通很重要,帮助我们认识这个音库和发音人,也许能省很多工作量 * * * 0.1分之间,几家欢喜几家愁 * 自然度对音质打分映像的影响难免 16K原始录音音质可打5分,一般统计得到4.5~4.8 16k原始分析合成可超过4分,一般统计得到4.0~4.3 波形拼接合成音质可到4分,一般统计得到3.8~4.5 参数合成系统音质在3分附件,一般统计得到2.8~3.5 * 音质对自然度打分映像的影响难免 忍痛,樽 * 自然度对音质打分映像的影响难免 * * 敏感度比我们高,角度常与我们不同 老外打0分,令人很无奈 * * * 数据制作与合成 韵律标注与合成 中文韵律:调型,停顿层次(L0 L1 L2 L3 L4 L5) 英文韵律:ToBI ( Tone and Break Index) 停顿层次: Tone Break 边界调: Phrase Tone 重读: Pitch Accent 数据制作与合成 韵律标注与合成 标注不同对合成的影响实例 重读 But*I*did*not(H*)*enjoy*it*long。 边界调 Now*run*along(L-H%),and*tell*them*to*hurry。 数据制作与合成 韵律标注与合成 一致性! 一致性非常重要,统一标准 面对模棱两可的地方,如何取舍? 个人尊重大家意见 新人咨询资深意见 多讨论,多比对 对新录库可以按批次做一致性检查 “还请大家细致统一的标注韵律” 数据制作与合成 音素检错与基频修正 评测会给数据打分纠错,合成也需要 挑出音库中可能存在的地雷 检错种类: 浊浊修正 调型修正 音素修正 基频修正 特点:直接锁定位置判断,规律性强 “还请大家多反馈检错时的规律总结” 数据制作与合成 索引制作与合成 音库索引将音库韵律和参数信息整理保存 合成需要从索引中提取数据,拼接合成在系统挑选时还需要直接使用索引 较为固定,但一旦出错不易更改 某个词性错位问题遗留很久才被发现(技术人员的错误……) “制库工作很繁琐,烦劳大家了” 总纲 1 . 数字语音信号 2 . 语音合成技术 3 . 数据制作与合成 4 . 合成效果测听 合成效果测听 测听与合成 效果测听是评判合成系统好坏的硬性指标 常用测听项目 音质 自然度 相似度 主观打分标准,(mean opinion score, MOS) MOS分 主观意见 5分 优,察觉不到任何不自然 4分 良,刚察觉若干不自然 3分 可,能察觉不自然但可以接受 2分 差,明显察觉但可忍受 1分 坏,不可忍受 合成效果测听 测听与合成 音质测听注意事项 对音质由技术路线主导,但敏感度因人而异,主观好恶 16K原始录音音质可打5分 16k原始分析合成可到4分 波形拼接合成音质可超4分 参数合成系统音质在3分附近 尽量减少自然度上的错误对音质打分的影响 一般测听要求 黑盒:防止惯性打分 0.5分间隔:提高一致性 测听数量不能少,要有覆盖率和代表性 一只好耳机,包住耳朵,提高音量 其实,5分很高,2分很低 合成效果测听 测听与合成 自然度测听注意事项 同样是主观打分,个人标准看待 说话人原始录音也只能接近5分 参数合成较为流畅,相对平淡 拼接合成存在不稳定性,波动较大 自然度测听强调对不自然处的扣分 同样尽量减少不同音质对自然度打分的影响 一般测听要求 黑盒:防止惯性打分 0.5分间隔:提高一致性 保证一定数据量,如果数量很多,可以分批测听 5分太高,2分很丢人 合成效果测听 测听与合成 相似度测听注意事项 一般会提供目标人的录音作参照 重点考察音色,兼顾基频,时长,口音 一般测听要求 黑盒不重要 0.5分间隔:提高一致性 合成效果测听 测听与合成 偏向性测听注意事项 在两个较为接近的效果中取舍 测听要求 一定要黑盒! 可以用黑盒工具,固定0, 1打分 偏向性选择只能选一个 在特别说明时,对难以区分

文档评论(0)

jdy261842 + 关注
实名认证
文档贡献者

分享好文档!

1亿VIP精品文档

相关文档