- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
人工神经网络与深度学习;(2)BP网络模型
BP网络模型,属于前馈神经网络的一种。其结构特点是整个网络由输入层、一个或多个隐层,以及输出层构成。所以,网络的总层数等于“隐层数+2”,每一层的变量(或向量)数,就是该层的神经元数量(如图9-2所示)。;图9-3三层BP网络模型;第三步:定义残差(如图9-6所示):
残差又称损失函数,它反映网络的实际输出Y与预期结果Y_pred之间的偏差程度。残差是BP网络通过“反向传播”优化W、b时的重要依据。;9.1.2深度学习;卷积层的作用通过不断改变卷积核,从而选择、确定能表征图像特征的有效卷积核,达到初步提取图像特征的目的。;Tensorflow是一个谷歌开发的用于多维矩阵(张量)流式运算的计算库,通过这些基本的矩阵运算可以制作出一个神经网络。Tensorflow支持GPU模式和CPU模式。
可以在Anaconda环境下安装Tensorflow。首先需安装完成CUDA与CuDNN(CUDA与CuDNN的运行条件与显卡的能力相关,具体安装过程参考9.3.2)。然后,选择Anaconda菜单中的“PowershellPrompt”选项,并在出现的提示符后输入:pipinstalltensorflow==2.3.0即可安装Tensorflow。
在使用过程中要注意的是,尽管在本书推荐的实验设备上集成了tensorflow,但由于ARM平台性能的原因,在板子上训练一个模型是相当不明智的选择。建议在安装了NVIDIACUDA和CUDNN的计算机上通过pip3installtensorflow-gpu来安装支持GPU加速的版本。;创建常量,其中start_val是这个张量的初始值,shape即每个维度的尺寸用元祖表示。如上例shape=(3,3):;filter:相当于CNN中的卷积核,它要求是一个Tensor,具有[filter_height,filter_width,in_channels,out_channels]这样的shape,具体含义是[卷积核的高度,卷积核的宽度,图像通道数,卷积核个数],要求类型与参数input相同,有一个地方需要注意,第三维in_channels,就是参数input的第四维。
strides:卷积时在图像每一维的步长,这是一个一维的向量,长度4。
padding:string类型的量,只能是“SAME”或“VALID”其中之一,这个值决定了不同的卷积方式;参数padding的值为“VALID”时不进行任何处理,只使用原始图像,不允许卷积核超出原始图像边界;padding取值“SAME”时,表示卷积核可以停??在图像边缘,图9-8为两种参数输出5×5的featuremap(卷积核可停留位置用x表示):;9.2.2基于Tensorflow的语音训练与识别
1.语音端点检测
(1)概念与意义
语音活动检测(VoiceActivityDetection,简称VAD),又被称为语音端点检测。它的任务是区分噪声和语音,进而从一段声音波形数据中,检测出语音的起点和终点。;#导入模块
importwebrtcvad
#创建分类器实例
vad=webrtcvad.Vad(mode=1)
#判断是否归类为语音,是返回1,否返回0
vad.is_speech(buf=frames,sample_rate=16000)
要点:①mode代表激进程度,取值0、1、2、3。mode数值越大,对语音质量的要求越低(也越容易将噪声归类为语音);②buf须传入声音片段,类型为bytes字符串。只支持单声道16位样本,且在各种采样率下,片段长度只能是10ms、20ms或30ms,例如,16000采样率下,传入buf的字节长度只能是:16000*0.01*2、16000*0.02*2或16000*0.03*2;③sample_rate为采样率,支持8000,16000,32000,48000。;实验证明,人耳对频率的敏感度呈现非线性变化,而在梅尔频率尺度上是均匀变化的。所以,先将对数谱log(X)转换到梅尔尺度,再求倒谱系数得到MFCC,往往有更好的实用性能。
MFCC特征提取实现
1)两种模块:目前至少有2种模块提供MFCC的计算方法。python_speech_features和librosa。
2)安装模块:以下二选一,在终端执行:pip3installpython_speech_features、pip3installlibrosa。
建议人工智能开发板只安装python_speech_features模块。因为librosa还包含对音乐的分析,相对而言比较庞大。;代码二:librosa
fromlibrosa.feature
文档评论(0)