fbank 和mfcc计算过程 _原创精品文档.pdfVIP

下载本文档

0
0
约1.6千字
约 4页
2024-11-26 发布于河南
举报
版权申诉

fbank 和mfcc计算过程 _原创精品文档.pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

fbank和mfcc计算过程

fbank和mfcc是语音信号处理中常用的特征提取方法，它们都可以

用于语音识别、语音合成、语音增强等应用。本文将介绍fbank和

mfcc的计算过程及其特点。

一、fbank的计算过程

fbank（FilterBank）是一种基于滤波器组的特征提取方法。它将

语音信号划分为多个频带，并计算每个频带的能量作为特征。fbank

的计算过程主要包括以下几个步骤：

1.预加重：为了强调高频部分的能量，首先对语音信号进行预加重

处理。预加重是通过滤波器对语音信号进行卷积来实现的，滤波器

的系数通常为[1,-0.97]。

2.分帧：将预加重后的语音信号切分成若干帧，每帧的长度通常为

20-30ms，相邻帧之间有一定的重叠。

3.加窗：对每帧语音信号进行加窗处理，常用的窗函数有汉明窗、

海宁窗等。窗函数的作用是减少帧与帧之间的突变。

4.傅里叶变换：对加窗后的语音信号进行快速傅里叶变换（FFT），

得到每帧的频谱。

5.滤波器组设计：设计一组滤波器，将频谱划分成若干个等宽的频

带。滤波器组的个数通常为23或40，每个滤波器的中心频率按照

人耳听觉特性进行均匀分布。

6.滤波器组输出：将每帧的频谱通过滤波器组，得到每个频带的能

量。

7.对数处理：对每个频带的能量取对数，得到fbank特征。

二、mfcc的计算过程

mfcc（Mel-frequencyCepstralCoefficients）是一种基于倒谱的

特征提取方法。它将语音信号的频谱转换到倒谱域，并提取倒谱系

数作为特征。mfcc的计算过程主要包括以下几个步骤：

1.预加重：同样地，对语音信号进行预加重处理。

2.分帧：将预加重后的语音信号切分成若干帧，与fbank相同。

3.加窗：同样地，对每帧语音信号进行加窗处理。

4.傅里叶变换：与fbank相同，对加窗后的语音信号进行FFT，得

到每帧的频谱。

5.滤波器组设计：与fbank不同，mfcc使用一组三角滤波器进行

频谱的压缩。滤波器组的个数通常为23或40，每个滤波器的中心

频率按照Mel刻度进行均匀分布。

6.滤波器组输出：将每帧的频谱通过滤波器组，得到每个频带的能

量。

7.对数处理：同样地，对每个频带的能量取对数。

8.倒谱变换：对取对数后的能量进行倒谱变换，得到倒谱系数。

9.静态特征提取：从倒谱系数中提取一阶差分特征和二阶差分特征。

三、fbank和mfcc的特点

1.fbank和mfcc都是基于滤波器组的特征提取方法，都能够反映

语音信号在不同频带的能量分布。

2.fbank和mfcc在滤波器组的设计上有所差异，mfcc使用的是三

角滤波器，而fbank使用的是等宽滤波器。

3.fbank和mfcc都对频谱进行了对数处理，可以增强低频部分的

特征。

4.mfcc在倒谱域中提取特征，相对于频域的fbank，更能反映语音

信号的时序特征。

5.fbank和mfcc都可以作为语音识别、语音合成等任务的特征输

入。

总结：

本文介绍了fbank和mfcc的计算过程及其特点。fbank通过滤波器

组将语音信号划分为多个频带，并计算每个频带的能量作为特征；

mfcc则将语音信号的频谱转换到倒谱域，并提取倒谱系数作为特征。

它们在特征提取的方法上有所差异，但都能够反映语音信号在不同

频带的能量分布。在实际应用中，根据具体任务的需求选择合适的

特征提取方法，可以提高语音处理系统的性能。

您可能关注的文档

文档评论（0）

182****9510 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

fbank 和mfcc计算过程 _原创精品文档.pdfVIP