- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
《自然语言处理技术》
PAGE2
《自然语言处理技术》
PAGE2
初识语音数据加工处理
——提取MFCC特征
实训目标
掌握librosa库提取MFCC特征的流程。
掌握通过librosa.feature中的mfcc函数实现MFCC特征提取。
熟练掌握使用Matplotlib库对MFCC特征进行可视化展示。
实训环境
环境
版本
说明
Windows10
64
电脑操作系统
Python
3.8.5
Python语言版本
pandas
1.3.0
主要用于数据读取、清洗等操作
NumPy
1.21.6
主要用于Python中的数值计算
jieba
0.42.1
主要用于文本分词
Gensim
4.2.0
主要用于检索文本、计算文本相似度、训练词向量、建模主题等
Matplotlib
3.3.0
主要用于数据可视化
PaddlePaddle
2.4.2
是一个深度学习框架,提供了高效的计算框架和优化算法
PaddleSpeech
1.2.0
主要用于语音和音频中的各种关键任务的开发
scikit-learn
1.0.2
广泛地用于统计分析和机器学习建模等数据科学领域
Librosa
0.8.1
主要用于分析一般的音频信号,是一个非常强大的Python语音信号处理的第三方库
NLTK
3.5
是一个常用的自然语言处理工具包,可用于文本处理、语义分析、词性标注等
SciPy
1.7.3
是一个科学计算工具包,可用于数学、科学、工程学等领域
pyttsx3
2.9.0
主要用于将文本转换成语音
实训说明
在语音信号中,包含着非常丰富的特征参数,各种不同的特征向量代表了不同的物理和声学属性。选择什么特征参数对说话人识别系统的成败意义重大。如果选择了好的特征参数,那么将有助于提高识别率。特征提取就是要尽量取出或削减语音信号中与识别无关的信息的影响,减少后续识别阶段需处理的数据量,生成表征语音信号中携带的说话人信息的特征参数。根据语音特征的不同用途,需要提取不同的特征参数,从而保证识别的准确率。
梅尔频率倒谱系数(MelFrequencyCepstralCoefficients,MFCC)是一种常用的语音特征,模拟了人耳对声音的感知特性。梅尔频率倒谱系数考虑了人类听觉系统的非线性特性,使得提取到的特征更符合人类的语音感知。MFCC在语音识别、说话人识别、情感识别等领域中有广泛应用。由于其良好的性能和较低的计算复杂度,使得MFCC成为了这些领域中的基本特征。许多研究工作都是基于MFCC特征进行的,如自动语音识别、说话人验证等。
本实训将基于实训15预处理后的语音数据,提取MFCC特征,其流程如REF_Ref133091330\h图31所示。
图STYLEREF2\s3SEQ图\*ARABIC\s21提取MFCC特征流程
实训步骤
MFCC特征提取
在Python中,可以使用librosa库提取MFCC特征,如REF_Ref133091367\h代码41所示。
代码STYLEREF2\s4SEQ代码\*ARABIC\s21提取MFCC特征
#定义参数
n_mfcc=20#提取的MFCC特征数量
n_fft=2048#FFT窗口大小
hop_length=512#帧移
#提取MFCC特征
mfccs=librosa.feature.mfcc(y=audio_data_louder,
sr=sampling_rate,
n_mfcc=n_mfcc,
n_fft=n_fft,
hop_length=hop_length)
在REF_Ref133091367\h代码41中,使用到librosa.feature中的mfcc函数提取MFCC特征数量,其中mfcc函数的常用参数说明如REF_Ref133091390\h表41所示。
表STYLEREF2\s4SEQ表\*ARABIC\s21mfcc函数的常用参数说明
参数名称
参数说明
y
接收数组,表示原始音频信号。默认为None
sr
接收int,表示音频采样率。默认为22050
n_mfcc
接收int,表示返回的MFCC数量。默认为20
n_fft
接收int,表示计算STFT时的FFT窗口大小,以音频样本数为单位。默认为2048
hop_length
接收int,表示当计算音频信号时,帧之间的跳
您可能关注的文档
- 自然语言及语音处理项目式教程 课件1.3.1-1部署Python开发环境.pptx
- 自然语言及语音处理项目式教程 课件1.3.1-2安装NLP常用的库.pptx
- 自然语言及语音处理项目式教程 课件2.2.2 中文分词.pptx
- 自然语言及语音处理项目式教程 课件2.2.2-3中文文本分词实例.pptx
- 自然语言及语音处理项目式教程 课件2.2.3-1词性标注.pptx
- 自然语言及语音处理项目式教程 课件2.2.3-1词性标注和命名实体识别.pptx
- 自然语言及语音处理项目式教程 课件2.2.4-1初识关键词提取.pptx
- 自然语言及语音处理项目式教程 课件2.2.5-1命名实体识别.pptx
- 自然语言及语音处理项目式教程 课件3.2.2-2文本向量化之Word2Vec.pptx
- 自然语言及语音处理项目式教程 课件3.2.2-4文本相似度计算.pptx
- 自然语言及语音处理项目式教程 实训指导 实训17 单句语音内容识别.docx
- 自然语言及语音处理项目式教程 实训指导 实训18 语音合成.docx
- 自然语言及语音处理项目式教程 实训指导 实训19 基于PaddleSpeech实现智能安防系统环境音识别.docx
- 自然语言及语音处理项目式教程 课件6.2.1-1语音识别.pptx
- 自然语言及语音处理项目式教程 实训指导 实训20 基于PaddleSpeech实现新闻自动播报.docx
- 自然语言及语音处理项目式教程 课件6.3.2-1复杂环境音识别实战.pptx
- 自然语言及语音处理项目式教程 课件7.2.2-1基于规则的语音合成算法.pptx
- 自然语言及语音处理项目式教程 课件7.3.2-1数据预处理.pptx
- 自然语言及语音处理项目式教程 课件7.3.3-1构建声学模型.pptx
- 自然语言及语音处理项目式教程 课件7.3-1新闻文本语音播报实战.pptx
最近下载
- 人教版二年级数学下册各单元教材分析(全册共十个单元) .pdf VIP
- Power Up3精品教学课件-U2文学.pptx VIP
- 新生儿科抢救应急预案及流程.docx VIP
- 第2单元第2课《花鸟为伴》第一课时课件-2025-2026学年人美版(2024)美术新教材八年级上册.pptx VIP
- 哈弗H7随车手册.pdf
- 2024版年度部编版小学语文三年级上册全册完整教案 .pdf VIP
- SY∕T 7413-2018 报废油气长输管道处置技术规范.pdf
- 刀具联盟(www.viptool.cn).doc VIP
- 质量管理体系文件.doc VIP
- 江苏开放大学现代管理理论与实务大作业.pdf VIP
文档评论(0)