语音转换翻译.docVIP

下载本文档

16
0
约1.63万字
约 17页
2017-02-21 发布于重庆
举报
版权申诉

语音转换翻译.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语音转换翻译

介绍大量的身体或行为特征，这是鲜明的，可测量的特征来描述人类个体，已经研究了生物识别。说话人确认，也被称为语音生物识别RICS，是生物识别技术的智能手机[1]或电话应用中语音业务空间分为最流行之一。说话者检验的任务是自动接受或拒绝根据由用户提供的语音样本的身份，如权利要求。就像生物的任何其他方法，一个扬声器自动检定（ASV）系统不仅有望成为准确的普通用户，也可确保不会受到spoof- ING攻击。如所讨论的[2]，可能欺骗攻击发生在两点：传感器电平与感测到的信号的发送。在传感器级别，对手，我们称之为一个骗子，可能欺骗系统，通过模拟目标发言人麦克风，或通过合成产生的信号取代获取的语音信号或。一般来说，欺骗传输时间模仿声音攻击。使用伪造的语音信号作为系统的输入进行特征提取和验证;因此，呈现给扬声器验证系统的威胁。在本文中，冒名顶替者是指零努力骗子欺骗谁的系统不依赖于任何技术，而我们所说的非零努力骗子的攻击，谁使用语音转换或其他技术来模仿目标说话。随着数码录音已经成为普及，重放攻击是欺骗扬声器验证系统的最简单方法。重放攻击涉及预记录话音样品或通过从一个给定的目标讲话者串联基础语音段创建的示例的重复。事实上，重放攻击已被证明是伪造文本的独立扬声器验证（TI-SV）系统，它没有对语言的内容限制的有效方法[3，4] .How-以往，如果重放的内容是不同的由文本依赖扬声器verifica-灰所需的特定密码短语（TD-SV）系统，它不构成威胁，除非攻击能够获取目标讲话者的声音进行特定的通行短语如假定在[5 ]。除了重放攻击，人的声音模仿或模拟也得到相当大的关注[6-8]。作为模拟需要特殊的技能，因此很难判断其作为一般欺骗技术有效性。部分证据，然而，表明人类是最有效的模仿音箱采用“类似”的声音煤焦Cucumis Sativus查阅全文，以自己的，而扮演一个任意扬声器，将会出现挑战[6]。专业的语音模仿，往往配音演员，往往会模仿韵律，口音，发音，词汇，和其他高级别音箱的特征。而不是使用自动系统频谱线索。因此，人声模仿不考虑成本效益的对手来说话人确认系统。语音合成代表了更真实的威胁。由于单位选择[9]的快速发展，统计学的参数[10]，并混合[11]的方法，语音合成系统现在能够产生语音以可接受的质量，以及一个给定的目标讲话者的语音特征，如频谱线索。在早期的研究[12 - 14]，漏洞oftext提示使用10个扬声器的小型数据库隐马尔可夫模型（HMM）为基础的说话人确认进行了检查。最近，[15]中使用的柔性适于基于HMM的语音合成系统，欺骗的TI-SV系统上的约300对扬声器，一个主体。虽然基于HMM的合成构成威胁埃斯佩cially到TD-SV系统中，通常需要训练语音小时培养的合理质量的语音合成系统。甚至一个适于基于HMM的语音合成系统需要显著量的发言者的数据来训练的平均语音模型目标讲话者适应[16]。因此，它并不像straightforwardas人认为使用基于HMM的语音合成以模仿某人的声音。从重放攻击，人声mimick- ING和语音合成不同的是，声音的转换把一种扬声器（源）的声音听起来像另一只音箱（目标）不改变语言的内容。保持语言的内容不变，该转换技术的工作原理有两种方式，一种是改变源的声音听起来不同 - 伪装自己; 另一种是改变源的声音听起来像一个目标的声音 - 模仿一些一.Asreal的语音转换不仅是可能的，而且还提供了语音质量和特色，即使是人耳无法轻易分辨，它提出了一个真正的威胁文字依赖性和TI-SV系统。总之，人声可以看出有三个属性，语言内容，光谱图案，和韵律。人声的个性是由光谱二尖瓣模式描述的，称为语音质量或音色，并通过由语音。人类语音伊京携带的韵律模式通常修改韵律图案而音质转换修改都光谱和韵律模式。因为它是更可靠，受到他们的频谱线索的表征音箱[17]，大多数国家的最先进的扬声器核查系统是光谱模式的差异。在本文中，我们将专注于语音转换欺骗攻击，并查看最新的研究工作在语音转换，说话人确认，欺骗攻击，反欺骗攻击看法欺骗与反欺骗的说话人确认中可以找到[18]。本文的其余部分安排如下。在第二节，语音转换技术的观点上提出，并在第二节，我们将简要飞再次查看该语句的最先进的扬声器验证技术，并讨论发言的薄弱环节，如果我阳离子。欺骗攻击，防欺骗攻击的研究在第四和第五节，回顾分别。本文的结论在第六节。二。语音转换技术人的声音传达不仅仅是语言的内容，而且音箱的个性。从言语感知的角度来看，音箱的个性特点是在三个不同的层次：段，超音段，和语言的信息。节段性信息涉及短期特征的表示，如频谱和瞬时基本频率（F0）。该超音信息介绍韵律特征，如持续时间，语调，重音，节奏上的讲话比语音单位更长的区段。它是更相关的信号，但跨越更长的时间比段信息。在语言信息进行编码