语音表现力的感知分析研讨.pdfVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语音表现力的感知分析研究 杨鸿武”蔡莲红1蒋丹宁1 ‘(清华火学计算机系,北京,100084) 2(西北师范大学物理与电子工程学院,甘肃兰卅l,730070) 摘要:为了增加TTs系统的表现力,表文利用“有效性”和“一致性”实验研究了5种情 感和3种风格的语音特征在感知上的作用,并统计分析了3种风格语音的时域特征。结果表明, 基频和时长等时域特征在风格和情感的表达中起到显著的作用,为合成出具有风格和情感表现 的语句,需要优先对风格和情感的韵律特征建模。 关键词:表现力语音合成;情感;风格;TTs 1.引言 对于人机交互来说,理想的合成语音不仅要能将“字”读正确,而且要能够表达出“言 外之意”,不仅仅是“说什么”,更重要的是“说话的时候意味着什么”,也就是能够根据情 境表达出合适的语义信息。在这里,“情境”不仅指文本内容,还应包括交互内容、交互背 景、交互对象、交互场景、语体风格等多方面的因素,所有这些都影响着言语的表达。比 如,如果通过TTS陈述一些事实、道理(播报一般新闻),希望听者明知,则需要合成语 音的语调平稳,声音清晰:要解说体育比赛,则合成语音应该表现出激情;而机场的信息 广播系统,则需要语气平缓,字真意切。 语言的语音表现丰富多彩,我们认为,可以从j个方面研究语音表现:情感、风格和 个性。情感是由心理一生理变化引起的情绪反应,这导致说话人的音质以及韵律特征的改 变;风格是由说话者要表达的内容以及说话的情境所决定的某种表达模式;个性是由说话 人的生理特征和发音习惯决定的,这反映在音质参数上。情感、风格和个性形成的语音表 达是相对独立又不可分割的三个方面。通常,个性和风格是指相对稳定的、全局的语音表 现;而情感重在表现变化,它更多是一种短时的、局部的语音现象。情感、风格和个性的 相互联系表现为:人们可以借助风格传递情感;同一个人也可以不时变换说话风格与情感; 不同人表达情感内涵的语音表征不尽相同。因此,如果合成语音能够合成不同人、1;同风 格的情感语音.则会使人机交互更为和谐。 在语音合成的研究中,人们关注可懂度和清晰度,追求自然度。目前,数据驱动的拼 接式文语转换(TTS)系统虽然可以达到很高的可懂度和清晰度,但还缺乏自然度。因此, 这一领域的研究重点开始转向提高合成语音的自然度,试图为合成语音增加情感、变换风 格,以促进人机交互的发展”j。拼接式语音合成系统参数的修改范围小,难以满足语音表 现的需求。为了进一步提高拼接合成系统的表现力,一方面研究直接修改语音信号的算法。 资助项目:闺家自然科学基金60418012) educn 联系作者:杨鸿武.Email:yang—hw03@mailstslnghua 502 第一部分第届全国人机交互学术会议 利用PSOLA、HNM”J、HMMp J、STRAIGHT州等方法,对中性的语音信号进行修改以产 生目标风格和情感的语音。信号处理的方法造成音质的r降,m且频域参数的修改难以达 到理想的目标。另一方面,人们期望通过录制不同人的不同情感、风格的目标语音库米实 现富有表现力的合成语音。这虽然能维持信号的质量,但是录制才i『司风格和情感的语音库 的代价太高“J。如果只录制小规模的情感和风格目标语音库,就不能保证找到合适的基元。 为了增加TTs系统的表现力,本文利用“有效性”和“致性”实验研究了5种情感 和3种风格的语音特征在感知上的作用,并统计分析了3种风格语音的时域特征。结果表 明,基频、时长等时域特征在风格和情感的表达中起到显著的作用,因此,只对风格和情 感语音的韵律特征建模,就可以在一定程度上合成出具有风格和情感表现的语句,这样可 以减小录制语音库的代价。 2.情感与风格的表示 对于情感,目前有两种主要的表示方法, 足离散表示力法,二是维度表示方法HJ。 离散表示方法将情感宁间划分为若_r个离散的范围,并用不同的名称表示每个范围的情感。 目前普遍认为存在少数几种基本情感,大多数研究者认可的基本情感为害怕、愤怒、悲伤、 高兴。维度表示方法在连续变化的维度上表示情感。最常见的维度为激发度(arousal)和 评价度(evaluation)。激发度主要从生理的

文档评论(0)

精品课件 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档