- 4
- 0
- 约6.11千字
- 约 8页
- 2019-12-28 发布于天津
- 举报
领域 自适应与新词处理
吖杜
目录
声学模型优化
区分性训练
迁移学习
语言模型优化
热词表语言模型的构建
基于相似词 ( )的热词表语言模型构建
基于类别 ( )信息的热词表语言模型构建
基于文本后处理的热词语音识别
基于 的可定义热词识别
小结
声学模型优化
在说话人自适应章节种谈到领域 自适应 ( ),当已
有模型与使用场景不一致的时候,我们 需要对特定的领域做自适应 。如果
有相应的语音数据我们可 以对声学模型做调整。
区分性训练
区分性训练通过定义某一目标函数,通常称准则,来近似一个与分类
代价相关的度量,例如可 以定义一个与分类错误相关的量并最小化它,或
是定义一个与识别正确率相关的量,并最大化它。通过区分性训练,我们可
以从一定程度上弱化模型假设错误所带来 的影响。同时, 由于区分性训练
致力于优化与识别效果好坏相关的度量,因此也就为提高识别器性能提供
了更直接的途径。区分性训练更重视模型之间的分类面,以更好的根据设
定的目标函数对训练数据进行分类 。 目前常用 的区分性训练准则主要包括 :
最大互信息量准则 ( , ),最小因素错
误准则 ( , ),最小状态化错误 (
, )。我们使用 区分训练来对特定领域做自适
应,通常会把新数据集 的特征作为区分性训练 的输入,用大模型对新数据
做和生成 ,然后将生成的对齐文件、解码网络以及数据的
特征文件归档为新的数据格式 ( ),然后做区分性训练,如下图所示 (为
了清晰,删除了一部分参数设置):
图 中的 提供的区分性训练的脚本
我们在实际的使用 区分性训练做自适应过程中发现存在一些现象,一
个是模型的推广问题,区分性训练对新数据学习的过于精细,在未知测试集
上难以到达到与在训练集上一样的提升效果,有时甚至还会变的更差,还
有一个 问题就是模型收敛过快, 在前几个 的时候就已经收敛 了,
继续训练,测试效果并没有提升反而是下降。所 以在训练的时候,我们可 以
调小学习率、及时测试和查看 ,发现模型表现效果变差或不再下降,
就可 以及时停止。
迁移学习
在文中提到两种迁移学习的方法。一个是跨语种的迁移学习,如图
二左 图所示,由于荷兰语的缺失 ( ),使用英语的大模型的前几层作为小
模型初始化的前几层,然后进行
您可能关注的文档
最近下载
- 2025至2030中国有机冷冻蔬菜业行业项目调研及市场前景预测评估报告.docx
- 光宝ISA-7X标准泛用型伺服系统技术手册.pdf
- 大型羊场及配套沼气建设项目可行性研究报告书.doc VIP
- 2022-2023学年八年级英语下学期期末考点大串讲(牛津译林版):八年级英语下学期期末考试02(宿迁卷).pdf VIP
- 高中英语必背3500单词表(完整版).pdf VIP
- 催收评分技术及其在个人信贷催收管理中的应用.pdf VIP
- 土木工程测量-岳建平第1章绪论资料.ppt VIP
- 电磁场仿真软件:CST Microwave Studio二次开发_(6).材料属性设置.docx VIP
- 浙江省金华市十校联考2025-2026学年第一学期期末质量检测高一英语试题含答案.pdf
- 电磁仿真软件:CST Microwave Studio二次开发_(8).高级脚本应用:电磁建模与求解.docx VIP
原创力文档

文档评论(0)