领域自适应与新词处理.PDFVIP

  • 4
  • 0
  • 约6.11千字
  • 约 8页
  • 2019-12-28 发布于天津
  • 举报
领域 自适应与新词处理 吖杜 目录 声学模型优化 区分性训练 迁移学习 语言模型优化 热词表语言模型的构建 基于相似词 ( )的热词表语言模型构建 基于类别 ( )信息的热词表语言模型构建 基于文本后处理的热词语音识别 基于 的可定义热词识别 小结 声学模型优化 在说话人自适应章节种谈到领域 自适应 ( ),当已 有模型与使用场景不一致的时候,我们 需要对特定的领域做自适应 。如果 有相应的语音数据我们可 以对声学模型做调整。 区分性训练 区分性训练通过定义某一目标函数,通常称准则,来近似一个与分类 代价相关的度量,例如可 以定义一个与分类错误相关的量并最小化它,或 是定义一个与识别正确率相关的量,并最大化它。通过区分性训练,我们可 以从一定程度上弱化模型假设错误所带来 的影响。同时, 由于区分性训练 致力于优化与识别效果好坏相关的度量,因此也就为提高识别器性能提供 了更直接的途径。区分性训练更重视模型之间的分类面,以更好的根据设 定的目标函数对训练数据进行分类 。 目前常用 的区分性训练准则主要包括 : 最大互信息量准则 ( , ),最小因素错 误准则 ( , ),最小状态化错误 ( , )。我们使用 区分训练来对特定领域做自适 应,通常会把新数据集 的特征作为区分性训练 的输入,用大模型对新数据 做和生成 ,然后将生成的对齐文件、解码网络以及数据的 特征文件归档为新的数据格式 ( ),然后做区分性训练,如下图所示 (为 了清晰,删除了一部分参数设置): 图 中的 提供的区分性训练的脚本 我们在实际的使用 区分性训练做自适应过程中发现存在一些现象,一 个是模型的推广问题,区分性训练对新数据学习的过于精细,在未知测试集 上难以到达到与在训练集上一样的提升效果,有时甚至还会变的更差,还 有一个 问题就是模型收敛过快, 在前几个 的时候就已经收敛 了, 继续训练,测试效果并没有提升反而是下降。所 以在训练的时候,我们可 以 调小学习率、及时测试和查看 ,发现模型表现效果变差或不再下降, 就可 以及时停止。 迁移学习 在文中提到两种迁移学习的方法。一个是跨语种的迁移学习,如图 二左 图所示,由于荷兰语的缺失 ( ),使用英语的大模型的前几层作为小 模型初始化的前几层,然后进行

文档评论(0)

1亿VIP精品文档

相关文档