基于类脑感知和类脑决策的语音鉴伪方法-冯畅.docx

基于类脑感知和类脑决策的语音鉴伪方法-冯畅.docx

  1. 1、本文档共44页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

基于类脑感知和类脑决策的语音鉴伪方法

基于类脑感知和类脑决策的语音鉴伪方法

冯畅

北京信息科学与技术国家研究中心语音和语言技术中心(CSLT)

清华大学计算机科学与技术系

CONTENT目S录

1研究背景及介绍

2研究基础

3研究内容

4总结与展望

2

生成式语音智能机器人服务应用程序多媒体文件编辑伪造语音安全问题生成式语音算法:语音合成、语音转换伪造语音语音鉴伪研究背景及介绍

生成式语音

智能机器人服务应用程序多媒体文件编辑

伪造语音安全问题

生成式语音算法:

语音合成、语音转换

伪造语音

语音鉴伪

研究背景及介绍

恶意模仿

恶意模仿

3

研究背景及介绍

研究背景及介绍

语音鉴伪应用场景

?防止电信诈骗

?司法鉴定?

?司法鉴定

4

真实类虚假类分数分数1真实类虚假类分数N5研究背景及介绍

真实类

虚假类

分数

分数1

真实类

虚假类

分数N

5

研究背景及介绍

研究现状

Countermeasures(CMs)对策系统体系

特征提取

分类器

分数

真实类

虚假类

端到端模型

分类模型1

融合分数

分类模型N

研究背景及介绍

研究背景及介绍

研究动机

?伪造语音的产生算法多样,语音数据多样化。

?已有的训练方法是完全依赖于训练数据,对未知数据的泛化性不够。

?已有的纯数据学习的方法是黑盒的,不能解释数据与伪造音检测结果产生之间的关系。

?新数据层出不穷,但是已有模型对新信息的学习需要重新训练所有数据,成本加大。

?学习机制应该包含数据和知识双重驱动。6

CONTENT目S录

1研究背景及介绍

2研究基础

3研究内容

4总结与展望

7

研究基础

研究基础

大脑工作机制

外部影响因子感知─—大脑决策计算

感知

?对同一个感觉器官而言,有多个检测细胞去分别检测信息源中的一种特点;

?对不同的感觉器官,其检测细胞结构设计均不同。

?低层次的检测细胞将外部信息转换为人体内的神经电信号传递到大脑中更高层次的区域。

8

耳蜗基底膜毛细胞视网膜视锥、视杆细胞

耳蜗基底膜毛细胞

研究基础

研究基础

大脑工作机制

感知

?低层次的检测细胞将外部信息转换为人体内的神经电信号传递到大脑中更高层次的区域。

9

研究基础

研究基础

大脑工作机制

大脑决策计算

层级连接:信息从感觉传到大脑决策神经中枢,具有明显的分层性。每一层信息计算后再向下一级传递。

听觉系统信息层级传输至大脑

视觉系统信息层级传输至大脑

10

·结果11研究基础

·

结果

11

研究基础

··

·

··

·

·

·

·

·

·

目标数据决策多细胞感知

目标数据

决策

?感知细胞只捕获信息,然后产生对该信息的刺激响应。

?决策机制联合考虑多个细胞的感知刺激响应。

CONTENT目S录

1研究背景及介绍

2研究基础

3研究内容

4总结与展望

12

13研究内容——伪造语音的伪造特点

13

研究内容——伪造语音的伪造特点

伪造特点

真实语音

伪造语音

采样点变化波动程度

线性频谱中低频模糊度

相位规律

真实语音无统一规则

相位根据某种变换产生或为固定值

发音帧内峰值离散余弦变换

?一条伪造语音,具有一个或多个伪造特点

14研究内容——伪造语音的伪造特点

14

研究内容——伪造语音的伪造特点

特点涉及范围

意义

示例

帧级别

采样点以滑动窗口进行分帧后变换为频域、相位域,短时计算

发音帧内峰值离散余弦变换、相位重复

音素级别

与音素发音和音素间过度相关,受音素发音时长的影响

音素间隔、单音素发音差异、音素内采样点变化波动程度

音节级别

中等时长分析

中等时长频率能量分布

句子级别

考虑整条语音数据进行长时计算

低频整体模糊度

研究内容

研究内容

感知——检测器

?检测器——模拟感觉检测细胞,只对特定信息进行响应

检测器设计——只对确定的检测内容输出检测信息

?检测元是检测伪造语音

?训练以100%的检测准确率作为准则

检出部分其他方法:最小分类错误---可区分性

检出部分

数据密度

单个检测器的目标

伪造语音

真实语音

?单个检测器输出检测信息值V∈{0,1}

数据分布

?每个单检测器学习少量数据,设计简单15

检出部分研究内容

检出部分

研究内容

感知——检测器

?每个

文档评论(0)

我爱分享 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档