- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第六届全国人机语音通讯学术会议,51-54 页,2001 年 11 月 20-22 日,深圳 (大会优秀青年论文三等奖大会优秀青年论文三等奖)
大会优秀青年论文三等奖大会优秀青年论文三等奖
一种在线递增式语言模型自适应方法一种在线递增式语言模型自适应方法
一种在线递增式语言模型自适应方法一种在线递增式语言模型自适应方法
吴根清、郑方、金凌、吴文虎
清华大学计算机科学与技术系
智能技术与系统国家重点实验室 语音技术中心
100084 北京
[wgq, fzheng, jinl]@sp.cs.tsinghua.edu.cn
摘要摘要 应能力的最大熵(Maximum Entropy, ME )语言模型
摘要摘要
等。
该文针对传统统计语言模型的离线自适应方法,提出 最大后验概率方法首先要有一个对整个模型所有
了一种在线实时的递增式自适应方法。该自适应方法 参数分布情况的先验估计函数,在来了新的观测数据
需要解决几个 问题。第一是要设计一种语言模型结构 X 后 ,根据先验的参数分布确定这些模型参数,并使
以适应在线的 自适应;第二是如何利用在线收集到的 得在这些模型参数下产生该观测结果的概率最大。这
语料对语言模型进行实时的参数修改;在我们设计的 种方法能取得较好的结果[5]。
中文音转字平台中,将语言模型分成两个部分,分别 而 MDI 方法的基本思想则是在满足从少量特定领
是通用模型和用户模型。对于通用模型,采用高效的 域新语料中归纳出来的限制条件的情况下,使得 目标
存储结构结合参数预取技术,提高了模型的速度;对 模型和原始模型尽可能的 “接近” 。 目前有一些方法
于用户模型,使用动态的加权方法结合 MAP 动态调整 用于衡量原始通用模型和适应后特定领域模型之 间
参数。该文所做的实验证明使用该方法能较大程度的 “接近” 的程度,Kullback-Leibler 距离是用的最多的
降低中文音转字的错误率。 方法之一。一般使用插值方法获得适应后模型,也有
人使用指数模型,并认为指数模型性能 比插值模型要
1. 引言引言 好[6]。但是指数模型需要进行参数重新归一,这个过
引言引言
程相当耗费时间。
基于 N-gram 的统计语言模型是当前语音识别技术的 以上 的方法不管 自适应的性能的好坏 ,都有一个
基石之一。但是 N-gram 模型要解决两个重大的问 共同 的特点,那就是这些方法都是在该特定领域是 已
题,即数据稀疏性[1]和对训练语料的强依赖性。一般 知 的情况下,预先收集好该领域的适应语料,然后 以
来说,要训练的 N-gram 模型必须针对特定的应用系 离线
文档评论(0)