2025《基于深度学习语音识别中语言模型的分析与实现案例报告》2500字.docxVIP

下载本文档

0
0
约4.64千字
约 10页
2026-01-14 发布于湖北
举报
版权申诉

2025《基于深度学习语音识别中语言模型的分析与实现案例报告》2500字.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE51

基于深度学习语音识别中语言模型的分析与实现案例报告

TOC\o1-3\h\u8078基于深度学习语音识别中语言模型的分析与实现案例报告 1

27614一、语言模型建模技术 1

24408二、构建语言模型 1

22492（一）CBHG模型 2

8419（二）Transformer模型 3

27588三、优化算法——Adam优化器 5

8242四、实验设计 5

28390（一）模型框架与数据集介绍 6

32068（二）算法实现调试与分析 6

26476（三）实验测试结果 8

一、语言模型建模技术

语言模型是一种基于语言客观事实的对应关系。语言模型与语言客观事实之间的关系就像数学中抽象直线与具体直线之间的关系，在进行语言模型的建立时，必须对语言模型与语言客观事实之间的关系进行确认，从而才能够更好的辅助语言模型的建立。

语言模型本身具有一定的抽象性，同时该种模型也是一种非常简单且统一的模型，再进行语音模型的构建时，需要对语音的特征以及语音的描述进行细致的分析。了解电子计算机进行语音识别的过程，以及学需要进行识别的重要要素。然后针对语音模型进行建立，对于自然语言的信息进行处理，能够更好地提高与模型建立的意义。

语言模型主要有三种类型：①生成性模型，②分析性模型，③辨识性模型。

二、构建语言模型

本次设计的实验是基于zh.tsv数据集的语音模型构建，输入一段测试拼音，如“yu3yan2mo2xing4”，最终能够输出“语音模型”的结果。

本次实验构建的语言模型主要采用了CBHG、Transformer两种方法，其中利用self-attention来对语音模型进行建模效果更佳。

CBHG模块善于提取序列特征，因此常被用在语音合成、语音识别上。

Transformer是Google的团队在2017年提出的一种NLP经典模型，现在比较火热的Bert也是基于Transformer。Transformer模型使用了Self-Attention机制，不采用RNN的顺序结构，使得模型可以并行化训练，而且能够拥有全局信息。

（一）CBHG模型

CBHG模型最开始提出即为一种用来从序列中提取高层次特征的模块，图4-1为CBHG模块示意图。

图4-1GBHG模块示意图

CBHG模块使用了卷积+highway+残差链接+双向GRU的组合，输入序列并输出序列。图中，卷积部分使用了K个1-D卷积核集合，卷积的宽度从1到K都存在，因此可以建模上下文信息。CBHG模块的步骤如下：

·输入序列首先通过K1-D卷积来处理，输入序列的K卷积核通道为k，这些卷积核可以有效地建模当前信息和上下文信息。

·卷积输出堆叠在一起，沿时间轴池最大，以增加当前信息不变性。stride取为1维持时间分辨率。

·输入多个固定宽度的一维卷积，以将输出增加到起始输入序列，使用批量标准化的所有卷积。

·请输入一个highway网络。来提取更高级别的特征。

·在顶部添加一个双向GRU，以提取序列的上下文特征。

（二）Transformer模型

与大多数seq2seq模型一样，transformer的结构也是由encoder和decoder组成，但其结构相比于Attention更加复杂，总体结构图见图4-2。

Encoder

Encoder由N个相同的layer组成，layer指的是图4-2中左侧的单元，由“Nx”表示。在论文《AttentionIsAllYouNeed》中由六层构成。每个layer层由两个sub-layer组成，因此可以将sub-layer的输出表示为：

(4-1)

·Multi-headself-attention

attention可由以下形式表示：

(4-2)

将不同的attention结果拼接起来：

(4-3)

(4-4)

在针对attention的计算中，采用了scaleddot-product，即：

(4-5)

图4-2Encoder和Decoder结构图

Decoder

Decoder和Encoder几乎具有相同的结构，而不同的是，由于二者之间存在一定输出输入编码的差异：

·输出：对应i位置的输出词的概率分布

·输入：encoder的输出以及其对应i-1位置decoder的输出。

·解码：训练时，解码为一次性解码，用上一步的ground-truth预测。预测时，由于没有ground-truth，需要一个个预测。

PositionalEncoding

除了主要的Encoder和Decoder，还有数据预处理的部分。Transformer抛弃了RNN，而RNN最大的优点就是在

您可能关注的文档

文档评论（0）

02127123006 + 关注: 实名认证

文档贡献者

关注原创力文档

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025《基于深度学习语音识别中语言模型的分析与实现案例报告》2500字.docxVIP