文本无关自动评分系统中声学模型的若干研究和改进.pdfVIP

文本无关自动评分系统中声学模型的若干研究和改进.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文本无关自动评分系统中声学模型的若干研究和改进 齐耀辉 葛凤培 潘复平颜永红 语言声学与内容理解重点实验室 摘要:针对真实评测数据中噪声、方言口音、信道噪声、说话随意性等不利因素,本文对声学 模型进行了深入地研究:在训练数据中加入背景噪声以增强模型的抗噪声能力;采用基于说话 人的倒谱均值方差规整,来降低信道及说话人个体特性的影响;用与待测语音相同地域的朗读 和自然口语数据做最大后验概率(MAP)自适应,使模型带有当地方言口音的发音特点并较 好地描述自然口语中比较随意的发音现象。实验结果表明,使用这些措施后,待测语音的识别 正确率相对提高了44.1%,从而使机器评分和专家评分的相关系数相对提高了6.3%。 关键词:文本无关自动评分;声学模型;MAP;基于说话人的倒谱均值方差规整 中国科学院声学研究所第四届青年学术会议论文集 H,JWllL 输入语音 淆网络 大词表连续语音 特征计算模 SdA评分模块 识别引擎 块 图1评分系统架构 2.2大词表连续语音识别引擎 评分系统中使用的大词表连续语音识别引擎系统架构如图2所示。包含前端处 理、解码器、后处理三个主要模块。首先,输入语音在前端处理模块中做端点检 测提取声学特征,得到随时间变化的语音特征序列;然后,在解码器模块中,语 音特征序列在发音词典构成的搜索空间里,加载声学模型和语言模型,通过维特 比(viterbi)搜索得到最佳词串或包含多候选识别结果的词图;最后,词图在后处 理模块中通过节点的分裂与合并得到识别结果混淆网络。 果混 络 图2大词表连续语音识别引擎 3针对数据特点的声学建模及特征处理 3.1训练数据加噪 本文用于识别的声学模型是用干净语音训练得到的,而测试语音中会夹杂着旁 边学生的声音以及各种环境噪声。为了匹配测试数据的带噪特性,本文采用了在 声学模型的训练数据中加入从测试数据中提取的背景噪声的方法。具体步骤如下, 首先从多个测试语音中截取背景噪声;接着将它们归一化使其具有相同的幅度, 并合并成为一整段长度约为45分钟的背景噪声数据;然后在训练数据中按说话人 随机抽取总人数的一半加入从该背景噪声中随机选取的一段噪声数据,加噪的信 噪比从5dB到25dB随机选取:最后将加噪数据和原训练数据中另一半没有加噪的 数据合在一起作为新的训练数据训练声学模型。 3.2声学模型MAP自适应 本文研究的数据来自江苏省某中学期中考试的真实数据,发音带有南方口音特 点,而声学模型是用标准发音的数据训练的,一些音素的模型分布与测试数据不 匹配。另外待测语音是比较随意化的口语,而声学模型是用朗读语音数据训练得 到的,与朗读语音相比,口语有更多的连读、拼读、弱读等现象,还有发音迟疑 造成的语音拖长现象,这也造成了声学模型与待测数据不匹配。 MAP算法是一种有监督的模型自适应方法,该方法在自适应数据较多时效果 很好40MAP自适应算法采用最大后验概率准则,认为模型参数入是一个具有先验 分布P(”的随机变量,当有新的观测数据O时,可以计算出参数九的后验分布: ——270—- 音频声学 P(Xl I I)P(1) (1) o):—P(—OilA_)P(2)芘P(O P(D) 通过最大化这个后验概率, 就可以得到模型的MAP估计。 P(旯IO)oCargmax[P(O

文档评论(0)

july77 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档