6.2.2 基于Confomer模型的语音识别 (1).pptx

下载文档

6
0
约1.29千字
约 18页
2024-09-07 发布于陕西
举报
版权申诉
保障服务

6.2.2 基于Confomer模型的语音识别 (1).pptx

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

熟悉常见语音识别算法?熟悉常见语音处理技术

基于高斯混合模型（GMM）的语音识别基于隐马尔可夫模型（HMM）的语音识别基于Confomer模型的语音识别

基于Confomer模型的语音识别Conformer模型：深度学习算法。是PaddlePaddleAutomaticSpeechRecognition（PP-ASR）系统中的一种声学模型。PP-ASR：基于PaddlePaddle框架的开源自动语音识别系统，提供了丰富的语音识别模型和易于使用的API。基于Transformer和CNN的深度神经网络模型，具有较好的语音识别性能和计算效率。

基于Confomer模型的语音识别与传统声学模型相比优势：更好地处理长时间的语音信号；具有一定的语言模型能力（能够在不依赖外部语言模型的情况下实现更好的语音识别性能）。

基于Confomer模型的语音识别Confomer模型：使用MFCC或其它声学特征作为输入；经过一系列预处理之后输入到模型；训练过程：模型将声学特征映射到词汇表中的单词或拼音；预测过程：模型根据输入的声学特征序列预测输出的单词或拼音序列。

基于Confomer模型的语音识别Conformer层：自注意力模块；卷积模块；前馈模块；基于位置的前馈网络。

自注意力模块自注意力机制允许模型在不同位置上聚焦于输入序列中的不同部分，并在这些位置上计算加权和，以生成针对该位置的上下文向量表示。输入是一个向量序列，其中每个向量都代表输入序列中的一个时间步。

自注意力模块对于输入序列X，自注意力模块计算：Q、K、V分别为查询（Query）、键（Key）、值（Value）矩阵；线性变换：

以单向量为例，计算自注意力。自注意力模块

在实际使用中，通常采用矩阵的形式进行计算自注意力。自注意力模块

卷积模块卷积模块：使用深度可分离卷积处理输入序列。捕捉输入序列中的局部信息和上下文关系；深度可分离卷积步骤：深度卷积（DepthwiseConvolution）；逐点卷积。在Conformer模型中的深度可分离卷积，在深度卷积之前增加了一个逐点卷积。

卷积模块深度卷积阶段：深度可分离卷积模型首先对输入数据的每个通道进行独立的卷积操作。通过逐点卷积将各通道的卷积结果组合在一起，形成输出结果。输入：计算公式：（DWConv表示深度卷积操作，PWConv表示逐点卷积操作。）

卷积模块示例。卷积模块

卷积模块优势：减少模型的参数数量和计算量，提高模型的效率。应用：语音识别；图像分类；目标检测。

前馈模块前馈模块：采用了类似Transformer的结构，用于对时间序列特征进行非线性变换Conformer模型前馈模块：采用基于位置的前馈神经网络（PositionalFeedforwardNetworks，PFFN）进行实现。PFFN网络：由两个全连接层组成，中间加入一个激活函数和残差连接。输入和输出：时间序列特征。输入：计算公式：

基于Confomer模型的语音识别流程基于Confomer模型的语音识别基本流程：