- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
近年的一些语音识别新技术简介john2014SpeechGroup
提纲语音分割技术音频内容检索语音训练技术说话人识别技术
语音分割技术问题的提出:实验室语音识别-〉复杂环境语音识别。新闻语音/广播语音/歌曲语音/会议语音/多说话人语音
技术实现基于距离度量的分割聚类算法基于模型搜索的分割聚类算法 前者是利用一定的距离度量准则来判断两段语音是属于同一个说话人还是属于不同的说话人;后者是利用得到的说话人模型来对原始多人语音按窗进行搜索,以便找出该话者发音的时间信息。
基于距离度量的分割(BIC)BIC距离方法:BIC是一种基于模型复杂度(也就是模型参数)惩罚的最大似然准则。
基于距离度量的分割(KL距离)KL距离高斯分布
基于距离度量的分割(GLR距离)
DISTBIC如果多人语音中属于每个说话人的语音段都较长,那么BIC能够有较好的分割效果,但是对于每个说话人的语音段较短的情况(如对话交谈语音),其分割效果不是很好。考虑到GLR、KL距离等度量方法能够较好的处理短语音段,因此法国研究人员P.Delacourt等人提出了一种综合这些度量方法的分割算法:DISTBIC
DISTBIC由初始分割和BIC细化两步组成。初始分割使用的是GLR、KL距离,按照这些度量准则计算出语音段的距离序列,并对序列中的极值进行判断,来确定该极值对应的时间点是否为一个说话人切换点;BIC细化则是在初始分割的基础上,用BIC来判断初始分割中相邻的两个语音段是否应该合并
关键词检测(小词表)
语音文档内容检索(大词表关键词检测)音频分割聚类算法
-音节识别器搜索空间
关键词置信度计算-基于网格的置信度计算候选关键词:市场shi4chang3
候选关键词生成器-候选关键词生成算法候选关键词匹配(例子)1-best音节序列VS.关键词音节序列
音频检索的研究重点通过wordlattice真正实现了元数据的分离,真正适合网络音频检索。前端:音频分割算法。识别基元的细化以及背景模型的建模后端lattice的处理及置信度的研究
语音训练技术MaximumLikelihoodEstimation(MLE) TheBaum-Welchalgorithm:theEMalgorithmforHMMDiscriminativeTraining(DT)MaximumMutualInformationEstimation(MMIE):MPE,MWE,etc.MinimumClassificationError(MCE):DiscriminativetrainingcanimproveoverthestandardMLtraining.
LME(ByJiangHui)
说话人识别/说话人跟踪 GMM-UBM成为主流的技术。UBM是一个说话人无关、高阶的高斯混合型。用于表示说话人的统计平均发音特性。基于GMM-UBM的优点:1、说话人模型是在UBM上根据说话人的训练语音自适应得到的。这样,对于说话人训练语音覆盖到的发音,可以用该说话人自身的语音建模;对于未覆盖到的发音,可以用UBM里的发音分布近似,从而减少测试语音与训练语音在声学空间上由于分布不同所带来的影响;2、UBM可以被看作是一个“标准参考者”的模型,这样在进行身份确认的时候,可以用测试语音在UBM上的得分和UBM得分进行似然比
总结---技术总结在大规模连续语音迟迟打不开局面的情况下。STD和说话人识别技术得到了迅速发展,在某些限领域场合,这些技术已接近实用水平。可以说,STD和说话人识别技术将是连续语音识别技术掘到的第一桶金。下一步研究热点:鲁棒语音识别技术(自适应+降噪+说话方式自适应)/置信度计算/口语语言模型/语音识别中的语义分析/对话系统/语音后处理技术/混合语言的语音识别。
讨论问题?谢谢!
您可能关注的文档
- 主题Microsoft-PowerPoint-演示文稿.ppt
- 一(11)常州传统美食研究.ppt
- 数字信号处理.ppt
- 七根火柴复习.ppt
- 第46讲-新文化运动及马克思主义在中国的传播.ppt
- 小班数学给一样多的发花.ppt
- 根对水分的吸收.ppt
- 运动和力复习.ppt
- 地震Microsoft-PowerPoint-演示文稿.ppt
- 现代交换技术第4章-电路交换和数字程控交换.ppt
- 《GB/T 46383.302-2025电气运输设备 第3-2部分:载物电气运输设备移动性能测试方法》.pdf
- GB/T 46383.302-2025电气运输设备 第3-2部分:载物电气运输设备移动性能测试方法.pdf
- 中国国家标准 GB/T 46383.302-2025电气运输设备 第3-2部分:载物电气运输设备移动性能测试方法.pdf
- 《GB/T 31270.7-2025化学农药环境安全评价试验准则 第7部分:生物富集试验》.pdf
- GB/T 31270.7-2025化学农药环境安全评价试验准则 第7部分:生物富集试验.pdf
- 《GB 5135.2-2025自动喷水灭火系统 第2部分:湿式报警阀、延迟器、水力警铃》.pdf
- GB/T 19412-2025蓄冷(热)空调系统的测试和评价方法.pdf
- 《GB/T 19412-2025蓄冷(热)空调系统的测试和评价方法》.pdf
- 中国国家标准 GB/T 19412-2025蓄冷(热)空调系统的测试和评价方法.pdf
- GB/T 46611-2025电光调制器用铌酸锂单晶薄膜.pdf
原创力文档


文档评论(0)