- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机世界/2007 年/1 月/29 日/第B13 版
技术专题
深入研究人类用语音表达情感的机理,探索不同情感状态下语音的差异以进
行转换,可以为语音合成、语音分析、语音识别等提供指导,最终改善人机交互。
情感语音的分析与转换
崔丹丹 蔡莲红
情感是语音传情达意的重要成分。在交互过程中,语音的情感承载着丰富的信息,同样文本
的语音可能表达出不同的情感和含义。情感语音转换主要关注表达的准确性,追求表达的真实意
图和弦外之音。近年来,在信息、娱乐等服务的应用系统中,表现力和情感语音合成成为新的热
点。
美国早在 1990 年就由MIT 的Cahn 构造了一个用声学和语音学来描述发音的计算机程序,
用来驱动一个基于规则的语音合成器合成六种基本情感,合成的情感约有50%的识别率。欧洲也
启动了PHYSTA (Principled Hybrid Systems and Their Application )项目,目标是开发一个能从脸
像和语音识别情感的系统。日本ATR 实验室对人类自然语音交流中的情感、意图等非音段信息进
行深入分析,并录制和标注了大量的日常生活中的语音数据。国内也开展了情感语音相关的研究,
特别是清华大学和中科院心理所合作,将人机交互技术与心理、认知科学相结合,在情感语音计
算和处理领域迈出了新的探索之路。
情感语音分析与转换的主要工作
语音变换的目标是实现语音的个性化,比如实现男女声变换、特定声音音色的变换,而情感
变换的目标是实现不同情感的变换,比如原有一个中性(无感情色彩)的声音变成“高兴的”声
音。
情感声音转换的研究分为情感语音分析和情感语音变换两个部分。情感语音分析的主要工作
是收集各种带有不同情感的语音数据、提取声学特征,分析声学特征与情感联系,建立“情感描
述词”与“情感状态空间”的映射、“情感空间”与语音特征的映射、训练情感转换模型。而情
感语音变换是按照指定的“情感描述词”,利用情感转换模型实现转换。
困难的是,语音表达丰富多彩,人类的情感也非常复杂,因而情感如何量化一直困挠着研究
人员。清华大学与中科院心理所的研究人员借用心理学家提出的PAD 三维情感状态模型解决了情
感的量化问题。PAD 情感状态模型包括三个维度,即愉悦度、激发度和优势度,特别是 PAD 中
“优势度”可很好地描述语音交互属性。如发出命令的声音比接受命令的声音优势度高。下面将
介绍情感语音转换中的几个关键部分。
从情感体验到情感状态空间
为了实现人机语音交互系统的符号用户接口,建立如文本中的词汇、网络聊天用的字符表情、
字体颜色等情感符号在情感描述空间上的分布是非常必要的。
最基本的情感符号是表示情感的形容词,在心理学研究中叫做“情绪体验词”。情感符号都
可以转写为特定的情绪体验词。为此,课题组选取了一个能够覆盖日常生活中常见情感表达模式
的情绪体验词集合,并标定它们在PAD 空间的分布,从而建立起从情感描述符号到情感状态空间
的映射。其中,关键问题是情绪体验词的选取。
为了解人的情绪体验,心理学者们常选用一系列形容词制成检表来测查心境状态或情绪性障
碍,例如Izard 的分化情绪量表DES 就得到了广泛的认可。在汉语方面,左衍涛先生评定出 127
组共400 个汉语常见情绪词作为中文情绪词的代表样本,也很值得借鉴。而在课题组的研究中,
第1 页 共3 页
情绪体验词的选取面向人机交互中的表达模式,在覆盖基本情感的基础上考虑了典型表达模式下
的混合情感,并兼顾其在PAD 空间的分布。选取的情绪体验词集可以分为两个部分:
核心体验词:覆盖前面提到的基本情感范畴,是情绪的基本分化成份,如快乐的、惊奇的。
混合体验词:代表典型表达模式下的混合情感,需要同时考虑典型性和区分性,如轻蔑的、
温顺的。
情感状态与声学特征
研究情感空间与语音特征的关系首先要根据研究目标收集语音语料数据,得到能够支持分析
的语料后,提取特征参数,进行分析,选择出与情感相关的特征参数。
数据采集:数据的收集与处理是最为关键和困难的环节之一,而要获得有效理想的情感语音
数据则格外困难。为此,在分析之前,课题组首先设计并收集了一个面向表达模式、以数据的典
型性和区别性为目标的情
您可能关注的文档
- 浅谈学前儿童线造型绘画课程设置.pdf
- 美术专业中的绘画教学和绘画材料研究.pdf
- 浅谈信息技术和小学数学课堂教学的整合.pdf
- 浅析广西农村消费行为和消费心理.pdf
- 培养中学生学习地理兴趣途径地的研究_买热丽卡_艾则孜.pdf
- 木薯酒精发酵的研究进展.pdf
- 精心布局谋篇语言精雕细刻_一座城市向一位普通市民告别_赏析.pdf
- 全球局势影响汽车设计.pdf
- 立方相InGaN的时间分辨光谱的研究.pdf
- 交互模式理论对大学英语阅读教学启示_陈佳.pdf
- 2025年卫星遥感技术在森林火灾预警中的应用报告.docx
- 自然语言处理技术2025年引领智能客服行业发展,问题解决与效率提升报告.docx
- 自然语言处理技术在智能客服中的应用效果评估与2025年改进报告.docx
- 2024-2025学年初中信息技术(信息科技)七年级下册滇人版(2016)教学设计合集.docx
- 康复工程智能化产品在康复治疗中的智能化升级路径规划报告.docx
- 共享办公空间2025年运营创新模式下的空间布局与设施配置策略.docx
- 行政法学知识的延伸与试题及答案.docx
- 2025年城市轨道交通站点周边交通组织变革的风险管理与对策报告.docx
- 虚拟现实(VR)设备在虚拟办公环境中的应用与市场潜力研究报告.docx
- 自然语言处理技术赋能智能客服2025年应用的创新模式与挑战分析.docx
文档评论(0)