自然语言及语音处理项目式教程 课件7.3.2-1数据预处理.pptx

自然语言及语音处理项目式教程 课件7.3.2-1数据预处理.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

基于PaddleSpeech实现新闻自动播报

文本前端处理合成声学模型声码器合成结果评测

文本前端处理了解CSMSC数据集的相关内容奠定基础文本前端处理流程

CSMSC数据集由专业播报员录制的,具有较高的语音质量,适用于训练高质量的语音合成系统。专业播报员录制数据集包含拼音和汉字文本,便于训练和评估各种基于拼音或汉字的语音合成和语音识别模型。数据标签数据集包含各种主题和领域的文本,有助于训练出更具泛化能力的模型。多样化文本内容CSMSC数据集已经开源,对学术研究和商业应用具有较高的价值。开源可用特点

CSMSC数据集CSMSC数据集是一个有价值的中文普通话语音数据集,适用于训练和评估各种中文TTS和ASR系统。

文本前端处理流程构建文本前端文本前端模块文本正则化字音转换

构建文本前端的类使用Frontend类构造文本前端对象,该类的常用参数说明。参数名称参数说明phone_vocab_path接收str,表示指定音素词典文件的路径或位置。默认为PaddleSpeech中提供的中文音素词典文件的位置

字音转换的函数Frontend类的frontend.get_input_ids函数可以将文本转换为音素ID序列,其常用参数说明。参数名称参数说明text接收str,表示待转换的文本序列,以字符串形式传入。无默认值merge_sentences接收bool,表示是否将多个句子合并为一个句子。默认为Trueprint_info接收bool,表示是否打印调试信息。默认为False

文本前端处理合成声学模型声码器合成结果评测

合成声学模型01声学模型自回归模型预测过程相对较慢,但音质表现较好02非自回归模型预测速度快,但音质可能稍逊色一些

合成声学模型使用自回归模型中的FastSpeech2作为声学模型,在分句的基础上构建FastSpeech2模型。构建FastSpeech2模型输出Mel频谱

构建FastSpeech2模型使用PaddleSpeech中的FastSpeech2类构建声学模型,该类的常用参数说明。参数名称参数说明idim接收int,表示输入维度,即词表大小。无默认值odim接收int,表示输出维度,即音频特征维度。无默认值**FastSpeech2_config[model]接收dict,表示预训练模型的参数。无默认值

输出Mel频谱

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档