- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
语音合成技术决策树模型聚类有了模型怎么使用?来一句话怎么预知用哪个模型?基于上下文的信息的决策树聚类优点:拥有明确目标和度量准则,音质好,自然度高,系统搭建自动化程度高,InterPhonic5.5以上版本利用HMM目标模型和连接模型来指导单元挑选自主原发,意义重大结合参数训练模型的数学统计模型优势和波形拼接的高音质,相对以前的大语料库技术在自然度上有较大提升样例:缺点:仍然需要很大规模的语料库,计算量较大语音合成技术基于HMM的语料库拼接语音合成系统语音合成技术基于HMM的单元挑选系统结构图5%55%30%10%.数字语音信号.数据制作与合成.语音合成技术.合成效果测听总纲“无源之水无本之木”一份音库的制作质量,直接决定了该发音人合成系统的能达到什么效果音库数据是合成系统的基石,离开了音库谈合成就是数据与合成的关系数据制作与合成音库设计音库录制音素切分韵律标注音素检错基频修正索引制作数据制作与合成数据制作过程数据制作与合成音库设计与合成一个设计良好的音库要有较好的音素,韵律覆盖率01“还烦请大家收集更多更好的语料文本”04广泛的语料来源,保证超大规模库的稳定02某方向定制语料,提升某特应用场合的效果,对语料库拼接技术很重要03数据制作与合成音库录制与合成录音控制很重要录音室环境,隔除噪音话筒的摆放,能量幅度范围如何保持发音人的发音状态轻松心态,自然流程,不要带情绪,除非这是情感库适度原则,不要疲劳录音,宁缺勿滥批次比对,及时与之前数据做比对,可加入重复句“还请大家多关注录音质量”数据制作与合成音素切分与合成切分精度精切:大语料库拼接标准,周期下降沿粗切:参数合成与HMM拼接,模型具有一定内部切分调整能力粗切不代表切分不重要,好的初始位置能帮助模型自切。电脑未必比人聪明,清浊好定,浊浊也难定,还需修正停顿位置什么地方有Sp,silv,pau?标准L3层以上边界,30ms以上计算机才能使用如果本来有停顿却没有加silv,停顿段会影响前后音素单元质量一些录音缺陷也可塞给停顿位置,鼻息,口水音合成样例:The*psychotropic*airplanes#underwrote*the*dispassionate*song。数据制作与合成音素切分与合成音变处理连续语流总存在一些规则音变或者不规则音变,导致所读不是原来词典音素音素是身份牌,这个错了后果很严重!修改标准:尊重录音中文:声调变化,儿化,轻读。没被改过的音变就是地雷英文:连读,吞音,弱化,缩写词吞音标准:有无音位,或者我去掉这个读有无差别英文音素短,不是母语,更需小心“还请大家切音时多细心”数据制作与合成韵律标注与合成韵律标注是音素的档案,据此来分门别类,听候取用良好的韵律标注帮助我们构建正确有效的统计预测结构,上下文韵律决策树如果韵律标注是错误的,连锁毁灭性破坏韵律标错-聚类分错-模型建错-预测走错-参数找错-挑选看错-合成出错-客户很生气-gameover数据制作与合成韵律标注与合成中文韵律:调型,停顿层次(L0L1L2L3L4L5)英文韵律:ToBI(ToneandBreakIndex)停顿层次:ToneBreak边界调:PhraseTone重读:PitchAccent*大家偏向不同,会造成数据混乱无序*浊浊修正是老牌,借宝地强调一下沟通很重要,帮助我们认识这个音库和发音人,也许能省很多工作量***0.1分之间,几家欢喜几家愁*自然度对音质打分映像的影响难免16K原始录音音质可打5分,一般统计得到4.5~4.816k原始分析合成可超过4分,一般统计得到4.0~4.3波形拼接合成音质可到4分,一般统计得到3.8~4.5参数合成系统音质在3分附件,一般统计得到2.8~3.5*音质对自然度打分映像的影响难免
忍痛,樽
*自然度对音质打分映像的影响难免**敏感度比我们高,角度常与我们不同
老外打0分,令人很无奈***语音音库与合成
江源
2009-6-11语音合成技术什么叫语音合成TextToSpeech过程,简称TTS作用:将文本状态的文字信息转化为可听的声音信息———“电脑会说话”键盘光电扫描手写识别网络/数据库文本语言处理韵律处理语音合成结果输出词典/规则语音库发声机理语音产生的生理过程总纲1.数字语音信号2.语音合成
您可能关注的文档
最近下载
- 计算机视觉 第7章 摄像机成像模型.ppt VIP
- 2025年部编版新教材语文二年级上册第三单元教案设计.docx
- 宠物医院一例猫血栓诊治方案.pdf VIP
- 史铁生的课件.pptx VIP
- 2024-2025学年广东省深圳市南山育才集团九年级(上)期中语文试卷.doc VIP
- 北师大版七年级下册 第2章平行线 ---纸片翻折问题 专题练习(word版、含解析).docx VIP
- 2025-2026学年八年级数学上学期第一次月考01(江西专用,人教版2024八年级上册第十三章_第十四章)【含答案】.docx
- 介绍信 接洽函.docx VIP
- 2025年-2025秋形势与政策课件携手周边国家共创美好未来.pdf
- 第05讲 平行线中的翻折问题解题技巧(含解析)-2021-2022学年七年级数学下册常考点.pdf VIP
文档评论(0)