语音性别变换的实时实现.docVIP

下载本文档

13
0
约6.25千字
约 9页
2017-08-28 发布于河南
举报
版权申诉

语音性别变换的实时实现.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语音性别变换的实时实现陆成刚（浙江工业大学理学院应用数学系，浙江省，杭州市，邮编310023）摘要：语音性别变换是网络聊天、数字娱乐和安全领域中的热门课题。本文讨论一个性别变声方案的高性能算法的实时实现，主要有三个特点：1）基于间接控制的PSOLA方法；2）动态调整的信号处理流程；3）低复杂度、低延时，可在嵌入式系统上实时实现。关键词：重采样，基频检测，基音标注，基频移动，反混淆滤波 A Real-Time Realization of Voice Gender Changer Chenggang Lu （The college of science, Zhejiang Industrial University，，31） AbstractVoice gender transformation is one hot topic in networks talking, digital entertainment, and security communication. This paper discusses a Real-Time Realization of Voice Gender Changer in high performance, as has three advantages: 1) an indirect controlling mechanism in PSOLA involved; 2)dynamic sequence of signal processing modules; 3) low complexity and low delay, ease of running in embedded system. Key Words: Re-sampler, pitch detection, pitch marker, pitch shift, anti-aliasing filter （注：作者通信地址：杭州西湖区文新街道康乐新村1－1－602室邮编310013） 1. 前言作者简介：陆成刚、1973年生、男、博士、从事信号处理和机器学习方向的研究；不同于特定目标人变声[1]，语音性别变换的主要任务是对语音进行某种变换使之产生性别变化的特效，例如在男声、女声、老年人声和童声之间互相转换，达到伪装的效果。语音变换在数字娱乐领域有着很广泛的应用[2]。例如一些有名的商用软件AVVCS、VodiSoundTouch等就已经实现了这样的功能，国际权威的语音科学软件Praat也有这样的功能。在电信领域，已经有运营商开展了这项称之为“魔话”或“彩话”的业务，甚至一些通信终端设计商也瞄准这个应用在手机上实现变声软件的功能[3]。在业界，Praat被公认为实现了一个优秀变声效果的系统，但是它有两个缺陷，一、它的基频检测模块复杂度较高、基于动态规划的后端处理需要较多的语音延时，经过实测，在ARM7系统上，该模块需要800多MIPS，这是成为嵌入式实现的制约瓶颈，而它的延时一般在百毫秒级别，不利于实时语音通信；二、它的实现不是基于帧的，是离线的，其PSOLA直接控制模式如果应用到实时系统，获得长期稳定的高质量语音比较困难，这一点下文有详细的剖析。其他产品或系统如AV VCS等几乎都是基于类似相位声码器的基频移动（pitch shift），附加后端均衡器调制的原理实现的；还有一些系统如SoundTouch等，是通过WSOLA变速和重采样（re-sampler）变调实现的，以上两个方法在理论上是等价的。这一类方法和Praat所基于的方法的不同之处是不需要做基频检测，因而没有用到PSOLA合成，好处是更容易获得稳定的高质量语音，但是处理的变声效果则显得有一点卡通化、缺乏真实感和自然度。Vodi是一款实现原理类似于Praat的商用软件，并且是实时实现的，在22050赫兹采样频率下，男声变女声的处理在普通P4-3G机器上的CPU占用率高达80％左右，系统开销高于Praat。表1是各类系统的一个比较。表1 各类系统的比较原理实时性变声效果语音质量 Praat PSOLA 离线好，真实、自然好 SoundTouch WSOLA 实时较好，有一点卡通化好 AVVCS 基频移动和后端均衡处理实时较好，有一点卡通化好 VoDi PSOLA 实时好，真实、自然好 2．变声原理语音科学家将人类发声过程视作一个由声门源输送的气流经以声道、口、鼻腔组成的滤波器调制而成的[4]。人类语音可分为有声语音和无声语音，前者是由声带振动激励的脉冲信号经声腔调制变成不同的音，它是人类语言中元音的基础，声带振动的频率称为基频。无声语音则是声带保持开启状态，禁止振动引发的。一般来说，由声门振动决定的