- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
语音识别分析的关键技术分析综述
1.1语音前端信号处理
所谓的语音前端信号处理就是对原始的语言数据进行相关的处理,其目的就在于将源头的前端语音信号进行更加清晰的细化和相关特征的提取。其核心处理关键点有:
语音活动的检测:语音活动的检测它们的作用是通过一个特定的模块、检测到语音信号在一起点位置、把自身需要的语音添加到那里,而不必对这些添加到那里进行删减和去除。所谓非语音是指静态或者噪音。
降噪:降噪就是将生活中一些提取目标之外的声音通过降噪比的手段方式,让目标声音更加的清晰明了,从而提高识别效率。常用的降噪为自适应LMS和维纳滤波等。
消除回声:一些空旷或山涧等地方,声音的传播会受到物体的碰撞,从而造成回声,因此要考虑回声对其影响。自适应算法是一种可以调节滤波器的参数,来模拟由于这种滤波而产生的信道环境。计算得到回波信号的形态和其路线是否被去掉。
混响抵消:一般混响抵消方法主要有:逆滤波法、以及声波的波束的进一步深度研究等。
声音定位:这是关键点的重要核心部分,麦克风阵列用于犯罪嫌疑人对话的大致的位置,并为其下一识别阶段做准备。
1.2声学模型的建立
所谓的声学模型就是把语音信号进行简单的语音特征与之相关的句子相关联起来。例如有一段音频数据,需要识别出该音频数据对应的文字一样,这里的音频数据就是观测变量,而文字就是隐藏变量。这就是我们通常所说的隐马尔可夫模型,用来解决发音和文本之间的关系。我们常用到的声学模型就是隐马尔可夫模型,如图1所示。其作用就是为公安识别声音的精准度打好了铺垫。
图1隐马尔科夫模型
HMM声学模型一般被应用于语音识别系统,如图3:
图3GMM-HMM的声学模型
换句话说,GMHMM语音识别只是停留在语音学习浅层的一面,而无法深入其本质特征。它也不能获得其它信息之间的高阶算法的关联性。DNNHMM运用DNN强大的学习能力以改善识别度。如图4:
图4DNN-HMM
GMMHMM模型的优点是具有较强的计算能力和处理能力。DNNHMM模型大大提高了识别率,但它需要更高的硬件计算能力。因此,选型时可结合实际情况进行相关处理和应用调整。
1.3语音识别特征提取方法
在语音识别中其特征的相关参数有其自身的要求在里面,其具体的要求有:可以将语音信号转换成语音特征向量,并由计算机处理。同时,语音识别特征提取的结果能够满足听觉感知的要求范围和相应的特性,它可以增强语音信号,在一定程度上减少噪声等因素的干扰常用的特征提取方法如下:
1.3.1线性预测分析(LPC)
它的基本原理就是利用说话者的声音发声特点,再通过其它的参考模型进行自身信号的检测与分析从而进一步推导出下一步。说白了就是用一个模型来表示被分析的信号,也就是把信号看成一个模型的输出,这样就可以用模型参数来描述信号。通常模型只包含有限不为零的极点。
1.3.2感知线性预测系数(PLP)
所谓的感知线性预测系数的特征提取方法就是通过电脑的计算从而运用到频谱分析当中去,将原有的地信息语音信号经过处理之后可以用人耳听觉模型从而利于抗噪语音相应的特征提取等,其可以带入到公安业务中,运用到相应环境中的抗噪处理后可以大大的缩短了犯罪语音证据的提取。从而推动侦查破案率的提升。
1.3.3Tandem特征和Bottleneck特征
序列性和全局性特征是利用神经网络提取手段来获得特征值的两种途径。特征提取以点对点输出模式模型为基础,及对神经网络对输出层中所有相应类型节点之间的后概率矢量进行降阶,并与MFCC或PLP功能拼接。后者通过一种独立的神经网络结构来实现,它们可以被称为特异性提取器。但是一个隐藏层中的节点数量比其他隐藏层中的节点数量少得多。因此称为瓶颈层,输出特征是其主要特征之一。对神经网络提取的输出节点和相应的隐含层分析进行了进一步的分析和应用。
1.3.4基于滤波器组的FBANK特征(MFSC)
它也被称为MFSC。FBANK特征提取法,这类似于MFCC去除离散余弦变换的操作。与MFCC特征相比,FBANK特性保留了较为多元化的原始语音信号。MFCC是基于FBANK的,因此MFCC的计算量比较大。FBANK特征它具有很高的关联性,MFCC特征具有很好的识别能力,其被广泛的使用在语音的相关的学术期刊或论文当中。MFCC代替FBANK被广泛使用的原因
1.3.5梅尔频率倒谱系数(MFCC)
它是由DAVISMERMELSTEIN在1980年开发的。人类听觉感知的各类实验数据表明,一个人的听觉感知只会关注自己所感兴趣的声音,对于其自己觉得不重要的声音会自动过滤消除。但Mel频点分析则基于对人的听觉实验。换言之,它只能允许某些特殊频率信号流经,而忽视了一些它不希望被接收的频率信号。然而,这些滤波器在频率轴上分布并不均衡不,而是在低频区域许多滤波器都是是密集分布的。
您可能关注的文档
- 《材料对阻变存储器性能的影响分析综述》4200字.docx
- 《财务管理存在的问题及对策—以张掖张掖巨龙铁合金公司为例》9300字.doc
- 《彩虹的光照原理与模拟实验探究》8000字.docx
- 《沧州华北石化公司企业社会责任履行现状问题及对策》7700字.doc
- 《承德露露企业基层员工的激励机制研究》12000字.docx
- 《承德露露企业基层员工激励制度问题与优化策略》8400字.doc
- 《承德露露饮料公司采购管理优化研究开题报告》6100字.doc
- 《城郊旅游发展研究的相关概念及理论基础综述》4200字.docx
- 《城市地下避难场所内设施使用效果评估及优化建议》17000字.doc
- 《城市交通拥堵综合治理策略——以呼和浩特市为样本》11000字.doc
最近下载
- 最新台球室合伙经营合同范本(标准版).doc
- 量子力学基础(西安交通大学)中国大学MOOC慕课章节测验答案.pdf
- 健康管理职业导论情境五 任务十五 社区卫生服务中心参访.pptx VIP
- 教学能力比赛-教学实施报告(基础会计).pdf
- 2022年云南中烟工业公司招聘考试试题真题及答案.docx VIP
- 健康管理职业导论情境四 任务十四 健康随访及相关工具的应用.pptx VIP
- 健康管理职业导论情境四 任务十三 心理指导.pptx VIP
- 新疆达坂城抽水蓄能电站环境影响报告书.pdf VIP
- 健康管理职业导论情境四 任务十二 戒烟限酒指导.pptx VIP
- 清华大学104页《DeepSeek:从入门到精通》.pdf
文档评论(0)