- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
连续语音识别中的搜索策略.PDF
第五届全国人机语音通讯学术会议第五届全国人机语音通讯学术会议(NCMMSC’98),,138-143,,98 年年 7 月月 26~31 日,哈尔滨日,哈尔滨
第五届全国人机语音通讯学术会议第五届全国人机语音通讯学术会议 ,, ,, 年年 月月 日,哈尔滨日,哈尔滨
本文获本文获 NCMMSC’98 优秀论文一等奖优秀论文一等奖
本文获本文获 优秀论文一等奖优秀论文一等奖
连续语音识别中的搜索策略连续语音识别中的搜索策略
连续语音识别中的搜索策略连续语音识别中的搜索策略
郑 方 徐明星 吴文虎
(清华大学 计算机科学与技术系 语音实验室 100084)
(fzheng@sp.cs.tsinghua.edu.cn )
摘摘 要:要:本文从声学和语言处理两个层面对连续语音识别中的搜索策略进行了分析和研究,
摘摘 要:要:
在此基础上提出了行之有效的新算法。新算法利用了声学层面的差分状态驻留信息以及语言
处理层面的词搜索树等知识。专门的实验和汉语语音听写机系统测试的结果都表明,基于知
识的搜索策略使连续语音识别的性能有很大的提高,仅声学层面的知识就使性能提高了
36.6%。
关键词:关键词:连续语音识别,搜索策略,差分状态驻留,词搜索树, 基于知识的搜索策略
关键词:关键词:
一、引言一、引言
一、引言一、引言
在连续语音识别中,搜索策略是一个非常重要的研究课题。
对传统的或修改的 HMM ,著名的 Viterbi 解码算法[Viterbi 1967]和帧同步算法[Lee 1989]及其修
改版本是基本搜索策略,其基本思路是以帧为搜索单位,任一时刻对每一条路径,都假定当
前帧可能是该路径的后续,即每一时刻都在当前所有路径后发展所有可能的路径,以进行一
个完备的搜索。
这种基本的搜索策略简单易行,但是并不适合直接用作大词表的识别,因为搜索路径随
着时间的增长会急剧膨胀。这时必须确定一定的阈值以确定该保留哪些路径,但阈值过严会
丢失正确的路径,过宽又对增加搜索空间的负担。
另一方面,连续语音听写机的基本词汇是确定的,因此每个词对应的语音模型的搭配关
系也就确定了,仿照搜索的次序,我们可以建立一棵反映词表全体模型搭配关系的词搜索树,
树中的每一条根节点到叶子节点的路径是一个合法词的相应语音模型的串接。搜索过程中扩
展每一条路径时都要检查是否符合该词法树的约束,不符合要求的路径就不再扩展,从而保
证搜索只沿着满足词法要求的路径前进。
因此可以看出,解决搜索问题可以从两个方面着手,声学层面和语言处理层面。本文将
对上述两个方面进行更深的研究,并给出一些行之有效的新算法。
本文的实验是在国家 863 专家组委托中国科技大学、中国科学院声学所、社科院语言所
等构建的连续语音数据库上进行的。数据采集是 PC 上利用 16 位标准声卡完成的,采样率
为 16KHz,采样精度是 16bits。
二、传统的帧同步算法二、传统的帧同步算法
二、传统的帧同步算法二、传统的帧同步算法
Viterbi 算法可以适用于任何一种拓扑结构的 HMM,它允许状态从一个状态跳转到任意
一个状态 。如果把 HMM 限制为从左向右结构,也就是说,系统只能从当前状态跳转到其右
边 的状态或在本状态驻 留,则利用帧同步算法就足以解决状态序列的解码过程。对语音识别
来说,不管是孤立词识别还是连续语音识别,从左向右结构的 HMM 更符合实际的情况,因
而成为首选的 HMM 结构。本文讨论的基础也是从左向右的拓扑结构 。
但是,在实际中我们发现传统的 HMM 存在许多不足,因此本文作者曾提出了 CDCPM
[Zhen g199610],该模型不但降低了时空复杂度,还有效地保证了性能。CDCPM 是去掉了 A 矩
阵的从左向右 HMM 。由于没有 A 矩阵,因此训练和识别均需设计不同于传统 HMM 的算法。
在训练时,CDCPM 采用有效的、高鲁棒性的非线性分
文档评论(0)