自然语言及语音处理项目式教程 实训指导 实训16 提取MFCC特征.docx

自然语言及语音处理项目式教程 实训指导 实训16 提取MFCC特征.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

《自然语言处理技术》

PAGE2

《自然语言处理技术》

PAGE2

初识语音数据加工处理

——提取MFCC特征

实训目标

掌握librosa库提取MFCC特征的流程。

掌握通过librosa.feature中的mfcc函数实现MFCC特征提取。

熟练掌握使用Matplotlib库对MFCC特征进行可视化展示。

实训环境

环境

版本

说明

Windows10

64

电脑操作系统

Python

3.8.5

Python语言版本

pandas

1.3.0

主要用于数据读取、清洗等操作

NumPy

1.21.6

主要用于Python中的数值计算

jieba

0.42.1

主要用于文本分词

Gensim

4.2.0

主要用于检索文本、计算文本相似度、训练词向量、建模主题等

Matplotlib

3.3.0

主要用于数据可视化

PaddlePaddle

2.4.2

是一个深度学习框架,提供了高效的计算框架和优化算法

PaddleSpeech

1.2.0

主要用于语音和音频中的各种关键任务的开发

scikit-learn

1.0.2

广泛地用于统计分析和机器学习建模等数据科学领域

Librosa

0.8.1

主要用于分析一般的音频信号,是一个非常强大的Python语音信号处理的第三方库

NLTK

3.5

是一个常用的自然语言处理工具包,可用于文本处理、语义分析、词性标注等

SciPy

1.7.3

是一个科学计算工具包,可用于数学、科学、工程学等领域

pyttsx3

2.9.0

主要用于将文本转换成语音

实训说明

在语音信号中,包含着非常丰富的特征参数,各种不同的特征向量代表了不同的物理和声学属性。选择什么特征参数对说话人识别系统的成败意义重大。如果选择了好的特征参数,那么将有助于提高识别率。特征提取就是要尽量取出或削减语音信号中与识别无关的信息的影响,减少后续识别阶段需处理的数据量,生成表征语音信号中携带的说话人信息的特征参数。根据语音特征的不同用途,需要提取不同的特征参数,从而保证识别的准确率。

梅尔频率倒谱系数(MelFrequencyCepstralCoefficients,MFCC)是一种常用的语音特征,模拟了人耳对声音的感知特性。梅尔频率倒谱系数考虑了人类听觉系统的非线性特性,使得提取到的特征更符合人类的语音感知。MFCC在语音识别、说话人识别、情感识别等领域中有广泛应用。由于其良好的性能和较低的计算复杂度,使得MFCC成为了这些领域中的基本特征。许多研究工作都是基于MFCC特征进行的,如自动语音识别、说话人验证等。

本实训将基于实训15预处理后的语音数据,提取MFCC特征,其流程如REF_Ref133091330\h图31所示。

图STYLEREF2\s3SEQ图\*ARABIC\s21提取MFCC特征流程

实训步骤

MFCC特征提取

在Python中,可以使用librosa库提取MFCC特征,如REF_Ref133091367\h代码41所示。

代码STYLEREF2\s4SEQ代码\*ARABIC\s21提取MFCC特征

#定义参数

n_mfcc=20#提取的MFCC特征数量

n_fft=2048#FFT窗口大小

hop_length=512#帧移

#提取MFCC特征

mfccs=librosa.feature.mfcc(y=audio_data_louder,

sr=sampling_rate,

n_mfcc=n_mfcc,

n_fft=n_fft,

hop_length=hop_length)

在REF_Ref133091367\h代码41中,使用到librosa.feature中的mfcc函数提取MFCC特征数量,其中mfcc函数的常用参数说明如REF_Ref133091390\h表41所示。

表STYLEREF2\s4SEQ表\*ARABIC\s21mfcc函数的常用参数说明

参数名称

参数说明

y

接收数组,表示原始音频信号。默认为None

sr

接收int,表示音频采样率。默认为22050

n_mfcc

接收int,表示返回的MFCC数量。默认为20

n_fft

接收int,表示计算STFT时的FFT窗口大小,以音频样本数为单位。默认为2048

hop_length

接收int,表示当计算音频信号时,帧之间的跳

您可能关注的文档

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档