领域自适应与新词处理.PDFVIP

下载本文档

4
0
约6.11千字
约 8页
2019-12-28 发布于天津
举报

领域自适应与新词处理.PDF

领域自适应与新词处理吖杜目录声学模型优化区分性训练迁移学习语言模型优化热词表语言模型的构建基于相似词（）的热词表语言模型构建基于类别（）信息的热词表语言模型构建基于文本后处理的热词语音识别基于的可定义热词识别小结声学模型优化在说话人自适应章节种谈到领域自适应（），当已有模型与使用场景不一致的时候，我们需要对特定的领域做自适应。如果有相应的语音数据我们可以对声学模型做调整。区分性训练区分性训练通过定义某一目标函数，通常称准则，来近似一个与分类代价相关的度量，例如可以定义一个与分类错误相关的量并最小化它，或是定义一个与识别正确率相关的量，并最大化它。通过区分性训练，我们可以从一定程度上弱化模型假设错误所带来的影响。同时，由于区分性训练致力于优化与识别效果好坏相关的度量，因此也就为提高识别器性能提供了更直接的途径。区分性训练更重视模型之间的分类面，以更好的根据设定的目标函数对训练数据进行分类。目前常用的区分性训练准则主要包括：最大互信息量准则（，），最小因素错误准则（，），最小状态化错误（，）。我们使用区分训练来对特定领域做自适应，通常会把新数据集的特征作为区分性训练的输入，用大模型对新数据做和生成，然后将生成的对齐文件、解码网络以及数据的特征文件归档为新的数据格式（），然后做区分性训练，如下图所示（为了清晰，删除了一部分参数设置）：图中的提供的区分性训练的脚本我们在实际的使用区分性训练做自适应过程中发现存在一些现象，一个是模型的推广问题，区分性训练对新数据学习的过于精细，在未知测试集上难以到达到与在训练集上一样的提升效果，有时甚至还会变的更差，还有一个问题就是模型收敛过快，在前几个的时候就已经收敛了，继续训练，测试效果并没有提升反而是下降。所以在训练的时候，我们可以调小学习率、及时测试和查看，发现模型表现效果变差或不再下降，就可以及时停止。迁移学习在文中提到两种迁移学习的方法。一个是跨语种的迁移学习，如图二左图所示，由于荷兰语的缺失（），使用英语的大模型的前几层作为小模型初始化的前几层，然后进行

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

领域自适应与新词处理.PDFVIP