Python人工智能应用与实践课件：人工神经网络与深度学习.pptx

下载文档

0
0
约3.14千字
约 18页
2025-02-24 发布于山东
举报
版权申诉
保障服务

Python人工智能应用与实践课件：人工神经网络与深度学习.pptx

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

人工神经网络与深度学习;（2）BP网络模型

BP网络模型，属于前馈神经网络的一种。其结构特点是整个网络由输入层、一个或多个隐层，以及输出层构成。所以，网络的总层数等于“隐层数+2”，每一层的变量（或向量）数，就是该层的神经元数量（如图9-2所示）。;图9-3三层BP网络模型;第三步：定义残差（如图9-6所示）：

残差又称损失函数，它反映网络的实际输出Y与预期结果Y_pred之间的偏差程度。残差是BP网络通过“反向传播”优化W、b时的重要依据。;9.1.2深度学习;卷积层的作用通过不断改变卷积核，从而选择、确定能表征图像特征的有效卷积核，达到初步提取图像特征的目的。;Tensorflow是一个谷歌开发的用于多维矩阵（张量）流式运算的计算库，通过这些基本的矩阵运算可以制作出一个神经网络。Tensorflow支持GPU模式和CPU模式。

可以在Anaconda环境下安装Tensorflow。首先需安装完成CUDA与CuDNN（CUDA与CuDNN的运行条件与显卡的能力相关，具体安装过程参考9.3.2）。然后，选择Anaconda菜单中的“PowershellPrompt”选项，并在出现的提示符后输入：pipinstalltensorflow==2.3.0即可安装Tensorflow。

在使用过程中要注意的是，尽管在本书推荐的实验设备上集成了tensorflow，但由于ARM平台性能的原因，在板子上训练一个模型是相当不明智的选择。建议在安装了NVIDIACUDA和CUDNN的计算机上通过pip3installtensorflow-gpu来安装支持GPU加速的版本。;创建常量，其中start_val是这个张量的初始值，shape即每个维度的尺寸用元祖表示。如上例shape=(3,3)：;filter：相当于CNN中的卷积核，它要求是一个Tensor，具有[filter_height,filter_width,in_channels,out_channels]这样的shape，具体含义是[卷积核的高度，卷积核的宽度，图像通道数，卷积核个数]，要求类型与参数input相同，有一个地方需要注意，第三维in_channels，就是参数input的第四维。

strides：卷积时在图像每一维的步长，这是一个一维的向量，长度4。

padding：string类型的量，只能是“SAME”或“VALID”其中之一，这个值决定了不同的卷积方式；参数padding的值为“VALID”时不进行任何处理，只使用原始图像，不允许卷积核超出原始图像边界；padding取值“SAME”时，表示卷积核可以停??在图像边缘，图9-8为两种参数输出5×5的featuremap（卷积核可停留位置用x表示）：;9.2.2基于Tensorflow的语音训练与识别

1.语音端点检测

（1）概念与意义

语音活动检测（VoiceActivityDetection，简称VAD），又被称为语音端点检测。它的任务是区分噪声和语音，进而从一段声音波形数据中，检测出语音的起点和终点。;#导入模块

importwebrtcvad

#创建分类器实例

vad=webrtcvad.Vad(mode=1)

#判断是否归类为语音，是返回1，否返回0

vad.is_speech(buf=frames,sample_rate=16000)

要点：①mode代表激进程度，取值0、1、2、3。mode数值越大，对语音质量的要求越低（也越容易将噪声归类为语音）；②buf须传入声音片段，类型为bytes字符串。只支持单声道16位样本，且在各种采样率下，片段长度只能是10ms、20ms或30ms，例如，16000采样率下，传入buf的字节长度只能是：16000*0.01*2、16000*0.02*2或16000*0.03*2；③sample_rate为采样率，支持8000,16000,32000,48000。;实验证明，人耳对频率的敏感度呈现非线性变化，而在梅尔频率尺度上是均匀变化的。所以，先将对数谱log(X)转换到梅尔尺度，再求倒谱系数得到MFCC，往往有更好的实用性能。

MFCC特征提取实现

1）两种模块：目前至少有2种模块提供MFCC的计算方法。python_speech_features和librosa。

2）安装模块：以下二选一，在终端执行：pip3installpython_speech_features、pip3installlibrosa。

建议人工智能开发板只安装python_speech_features模块。因为librosa还包含对音乐的分析，相对而言比较庞大。;代码二：librosa

fromlibrosa.feature

您可能关注的文档

文档评论（0）

ning2021 + 关注: 实名认证

内容提供者

中医资格证持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

更多 >

Python人工智能应用与实践课件：人工神经网络与深度学习.pptx