- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于TTS汉语发音动态时间弯曲评测法
摘要:汉语学习日趋广泛,如何快速有效地实现标准汉语语料库供学习者参考并对汉语学习者的发音标准水平做出评测受到了很大程度的关注。该文介绍微软提供的TTS语音引擎,阐述其编程实现过程,利用TTS生成的汉语音频作为标准语料库。采集汉语学习者发音,对TTS生成的汉语音频和汉语学习者的发音作预处理并提取特征值,最后采用DTW(动态时间弯曲)算法实时地进行发音标准水平评测。
关键词:TTS;DTW;特征提取;模式对比
中图分类号:TP18 文献标识码:A文章编号:1009-3044(2011)10-2390-02
Chinese Pronunciation Evaluation Method of DTW Algorithm Based on TTS
SUN Jin-kang, WU Qiong-gui, LI Yu-wei
(PLAUST, Nanjing 210007, China)
Abstract: Learning Chinese is becoming popular, It has been concerned that how to quickly and effectively establish the standard Chinese language corpus for learners to reference and evaluate the Chinese learners level of pronunciation. This article describes Microsofts TTS voice engine, describes the programming process, use TTS generated audio as a standard corpus of Chinese. Gather the pronunciation of Chinese learners. Pre-treatment and feature extraction on TTS Chinese audio. Finally, evaluate pronunciation with DTW algorithm on real-time.
Key words: TTS; DTW; feature extraction; pattern comparison
1 TTS及程序实现
1.1 TTS
TTS 是 Text To Speech的简写, 即语音合成,是一种文本转换为语音的技术。 它解决的主要问题就是如何将文字信息转化为可听的声音信息, 通过计算机语音合成技术可以在任何时候将任意文本转换成自然语音。
TTS功能模块可分为文本分析、韵律建模和语音合成三大模块。其中,语音合成是TTS系统中最基本、最重要的模块。目前大多数的语音合成系统都是基于大量的语音数据和统计过程建立的,这类系统通常被称为基于语料库的TTS系统。在基于语料库的TTS系统中,大量的语音数据被存储作为语音库。合成时,从语音库中挑选最佳单元,输出语音时拼接最佳单元并调整它们的韵律。
国内外有许多高科技公司和科研机构致力于基于语料库的TTS 技术的开发和研究,但只有微软公司提供的语音软件开发包 Microsoft Speech SDK可以从微软的网站上免费下载和使用, 其他产品都需要购买 SDK 开发包才能进行语音程序开发, 价格昂贵。微软的语音开发包技术成熟,功能强大。最重要的是微软TTS语音引擎技术在WindowsVista中Microsoft Speech SDK 5.3的文本朗读比WindowsXP中Microsoft Speech SDK 5.1有很大改进, 合成语音音质自然、逼真,韵律调整合适,声调连续。
本文利用微软提供的TTS语料库将文本文字通过TTS技术转换成标准音频供模式对比需要,功能流程图如图1所示:
图1 基于TTS汉语发音评测法功能流程图
1.2 汉语朗读及其音频自动保存功能实现
本文开发平台及工具选用:Windows XP;Microsoft Speech SDK 5.1;Visual studio 2008;Matlab R2009a。
安装Speech SDK 5.1和Language Pack5.1,安装以后,在安装目录下面找到SAPI.dll,用.Net Framework自带的Tlbimp.exe工具将SAPI.dll转换成.net平台下的DotNetSpeech.dll。
在控制面板--语音属性--文字―语音转换--语音选择组合框中选Microsoft Sim
您可能关注的文档
- 基于Moodle平台的教师CMS的研究.doc
- 基于MSP430F1101的智能学习型红外遥控器的设计.doc
- 基于Multi-agent的互助学习系统实现.doc
- 基于Multi-Agent的计算机免疫系统的研究.doc
- 基于Multi-Agent的情感交互教学系统研究.doc
- 基于Multi-Agent和X3D的虚拟教学研究.doc
- 基于MultiGen Creator和Vega虚拟校园漫游系统实现的关键技术.doc
- 基于Multi-agent的网络数据流软件性能测试方法研究.doc
- 基于Multi-agent的智能学习环境的设计与实现.doc
- 基于Multisim 8的弱信号放大电路的设计与仿真.doc
- 2025至2030年中国刷板机行业投资前景及策略咨询研究报告.docx
- 2025年中国三色高强度电脑激光灯市场调查研究报告.docx
- 2025年中国健康护理通讯系统市场调查研究报告.docx
- 2025年中国光凝窝沟封闭剂市场调查研究报告.docx
- 2025年中国二苯甲烷双马莱酰亚胺数据监测研究报告.docx
- 2025年中国冶金矿山机械配套部件市场调查研究报告.docx
- 2025年中国化键市场现状分析及前景预测报告.docx
- 2010-2023历年陕西省西安市五校高三第一次模拟考试英语试卷(带解析).docx
- 2025年专业技术人员继续教育公需科目-专业技术人员网络道德建设考试近5年真题集锦(频考类试题)带答案.docx
- 2025至2030年110呼叫指挥中心系统项目商业计划书.docx
最近下载
- 热分布报告样本.pdf
- 2025年一建一级建造师建筑实务案例分析考点重点知识总结高分笔记.pdf VIP
- 手足口病的诊断与治疗课件.ppt VIP
- 会计法律法规答题答案.doc VIP
- 我国商业银行开展绿色信贷业务存在的问题和对策.docx VIP
- 医院消防安全除患整治攻坚行动工作总结8篇.docx VIP
- 《桃花源记》比较阅读85篇(历年中考语文文言文阅读试题汇编)(含答案与翻译)(截至2020年).doc
- 2025年北京东城区高三一模高考英语试卷试题(含答案详解).docx
- 2024潍坊护理职业学院招聘笔试真题及参考答案详解一套.docx VIP
- 年产300吨2-乙酰呋喃分离工段的工艺设计.docx
文档评论(0)