基于听觉的多声源语音分离模型.docxVIP

下载本文档

34
0
约7.18千字
约 7页
2023-08-15 发布于广东
举报
版权申诉

基于听觉的多声源语音分离模型.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于听觉的多声源语音分离模型在多音源下，通用听觉中枢系统的声音分离研究已有20多年的历史，通常有三个分类模型。第一个模型是由bhadkamkar提出的。该方法是创建一个coms电路来处理两个耳时间差（itd）。该方法简单易用，但精度不高。第二个模型是魏塞尔提出的。该方法是创建概率模型来估计源方向，并将内侧橄榄树（mso）、外侧橄榄树（lso）和大脑中的丘（voys理论）的内插槽模型与外部橄榄树（voys）和大脑中的丘进行了比较，并使用了贝叶斯理论来计算它们之间的联系，但实际上并不利用生物电阻器神经网络特征来模拟真实元音的声音分离。第三个模型是由vbots等人提出的。建立了一个基于端点神经网络多延迟的模型，并使用itd。低频语音信号的分离效果良好，但仅考虑itd，影响大于1.5hz的语音信号。在过去的25年里,对于听觉中枢系统的结构和功能的研究已经有了长足的进步,脑下丘在听觉信息的获取过程中起到了非常关键的作用. 脑下丘是提取声音特征的一个枢纽和处理中心.在这里,声音中双耳时间差和水平差都被提取出来.听觉学研究表明,双耳的辨别功能比单耳好.根据从声源到两耳距离的不同及传声途径中屏蔽条件的不同,从某一方位发出的声音到达双耳时,便出现双耳时间差和双耳水平差,在听觉中枢系统对输入语音信息进行分离时,双耳时间差和水平差便是声源定位的重要依据. 脑下丘会控制内耳神经的听觉纤毛响应阈值,低频段(小于1.5 kHz)的语音信号(在这个频段范围内ITD对语音离位更有效率)会经过MSO的中区传递给脑下丘;高频段(大于1.5 kHz)的语音信号(在这个频段范围内ILD对语音分离更有效率)则可以同时经过MSO和LSO的中区传递给脑下丘,最后不同区域的信号分别输入给脑下丘.脑下丘的神经组织还有一个重要的特点:在物理上使用多层解剖结构对声音信号依照频率进行分解,每一层的神经细胞只对特定的频率分量进行响应,这种解剖特征被称为频率解剖特征,这种特征使得多频段语音输入在脑下丘中进行了空间隔离.这样,来自同一声源或者具有同样频率特征的声音就很容易被重合和提取出来,于是在嘈杂的多声源环境中,语音信号就分别被分离出来,重新生成信号流. 综上所述,听觉中枢系统对多声源噪声输入能够有效地进行分离,建立一个完整的模拟听觉中枢系统的语音分离模型,就可能解决目前动态复杂环境下的语音识别问题. 1 多路语音信号图1是本文提出的多声源环境下基于听觉中枢系统的语音分离原理结构图,是一个完整的模拟听觉中枢系统的计算模型.多路语音信号先经过听觉外周模型,根据频率的不同而被划分为不同的频率通道,然后经过上橄榄复合体(SOC,包括MSO和LSO)进行语音信息提取,最后利用脑下丘细胞模型将多声源分离成单个的语音信号. 1.1 ammawell函数声学研究表明,位于耳蜗内部的基底膜具有频率分解的作用,不同频率的信号将激发基底膜的不同位置具有不同振动.基于基底膜的特性,音频外围处理时,本文选择用24个二阶离散的Gammatone(GT)滤波器组,取代常用的三角滤波器来进行多频率分析.Gammatone函数的时域如式(1)所示: g(t)=tn-1cos(2πf0+θ)E2πbtu(t).(1) 式中:n表示滤波器的阶数,选取n=4;参数θ为Gammatone滤波器的初始相位;u(t)为阶跃函数;参数b=b1ERB(f0),b1=1.019,ERB(f0)是Gammatone滤波器的等效矩阵带宽,并且它和Gammatone滤波器中心频率f0有如下关系: ERB(f0)=-2.47+0.108f0. 图2是一组利用听觉外周模型的Gammatone滤波器组的频率响应图,是24个Gammatone滤波器组成的滤波器组,它的频率范围是80～4 000 kHz.对于输入的语音信号,经过听觉外周模型的多频率分析之后,根据频率的不同,分别在听觉中枢系统中的24个不同的频率通道内传递,便于语音信号在系统模型中的分离. 1.2 基于通用突变函数的子学模型重合神经元模型模拟突触和细胞体的响应,完成对语音信息的提取与融合.本文分别选取了Meddis的通用突触函数模型和已经成熟应用的Leaky integrate-and-fire(LIF)模型来模拟突触和细胞体对语音信息的提取,然后又根据听觉神经中枢对ITD和ILD的信息整合的特点,提出了本文核心重合神经元模型,完成对语音信息的融合. 1.2.1 stimt 语音信号在基底膜上引起的振动会造成递质通过可渗透膜向突触间隙释放,引起了听神经的发放.渗透膜的渗透率h(t)是变化的,决定于输入信号的振幅,每个GT滤波器输出要经过半波整流. h(t)={A+stim(t)A+B+stim(t)g,A+stim(t)≥0;0,A+stim(t)＜0. 式中:stim(t