- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语音信号的考试部分知识点
语音信号处理复习资料
名词解释:
1、基音周期:声带开合一次的时间为基音周期(pitch period)。它的倒数称为基频。
2 、音色 :也叫音质;由混入基音中的倍音决定。
3 、音高:声音的高低;主要用基频反映。基频值越大,反映出的音高越高。
音强:发音的轻重;可以用声压或声强来表示声音的强度,一般用相对声压或相对声强表示。
音长:声音的长短,取决于发音持续时间的长短。
响度:是一种主观心理量,主观感觉到的声音强弱的一种衡量标准,它与频率有关。一样的音强,不一样的频率,则响度也会有所不同。
听觉掩蔽效应:一个更响的音调可以将其频率附近的较低的音调掩蔽。可以分为同时掩蔽和异外时掩蔽。
临界频带:一个纯音可以被以它为中心频率,且具有一定带宽的连续噪声所掩蔽,如果在这一频带内噪声功率等于该纯音的功率,这时该纯音处于刚好能被听到的临界状态,即称这一带宽为临界带宽。
临界带宽有许多近似表示,一般在低于500 Hz的频带内,临界带宽约为100Hz,在高于500Hz时,临界带宽约为中心频率的20% 。
人耳的基底膜具有与频谱分析仪相似的作用。频率群的划分相应地将基底膜分成许多小的部分,每一部分对应一个频率群。掩蔽效应就是在这些频率群内发生,这是因为对应的那一频率群的基底膜部分的声音,在大脑中似乎是叠加在一起来评价的,如果这时同时发声,可以互相掩蔽。
9、采样的基础知识:对于一个有限带宽的模拟信号,其频谱的最高频率为F0,在对其进行采样时,其采样频率在Fs2F0时,采样后的信号才能保证信息不丢失。
语音信号中人耳可以感知的最大频率在3.4KHz左右
采样频率在8KHz~16KHz之间
短时分析:内平稳语音信号是一种随时间而变化的信号,可能是浊音激励也可能是清音激励,浊音的基音周期以及信号幅度等语音特性也都随时间变化,但这种变化是缓慢的,在一小段短时间内10~30ms,语音信号近似不变。于是,我们把变化的语音信号分成一些相继的短时间段来处理。而每一段时间段具有固定的特性,这种方法称为“短时”处理方法。二·短时能量分析
端点检测:由于从背景噪声中准确地找出待分析的有用语音信号是进行语音识别的前提,因此一般采用短时能量和短时过零率两个参数。图3为一幅经端点检测选出的语音信号图,图4是其中一段语音信号的放大图,可以看出基音周期大致为8ms
简答题
全极点模型:)采用全极点模型分析语音信号的理论依据。全极点模型最易于计算,对全极点模型作参数估计是对线性方程组的求解过程;有时无法知道输入序列;人的听觉对于那种只能用零点来表示的频谱陡峭谷点是迟钝的;如果不考虑鼻音和摩擦音,那么语音的声道传递函数就是一个全极点模型。?
LPC:LPC是通过分析语音波形来产生声道激励和转移函数的参数,对声音波形的编码实际就转化为对这些参数的编码,这就使声音的数据量大大减少。在接收端使用LPC分析得到的参数,通过语音合成器重构语音。合成器实际上是一个离散的随时间变化的时变线性滤波器,它代表人的语音生成系统模型。时变线性滤波器既当作预测器使用,又当作合成器使用。分析语音波形时,主要是当作预测器使用,合成语音时当作语音生成模型使用。随着语音波形的变化,周期性地使模型的参数和激励条件适合新的要求
简述如何利用听觉掩蔽效应。?
一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。?人耳的掩蔽效应?一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。实验表明,3kHz—5kHz绝对闻阈值最小,即人耳对它的微弱声音最敏感;而在低频和高频区绝对闻阈值要大得多。在800Hz--1500Hz范围内闻阈随频率变化最不显著,即在这个范围内语言可储度最高。在掩蔽情况下,提高被掩蔽弱音的强度,使人耳能够听见时的闻阈称为掩蔽闻阈(或称掩蔽门限),被掩蔽弱音必须提高的分贝值称为掩蔽量(或称阈移)。
3量化编码:(1)均匀量化编码:整个量化范围的量化间隔是均匀的
非均匀量化编码:整个量化范围的间隔是不均匀的。
PCM编码,分为3步:
采样。在某瞬间测量模拟信号的值。采样速率8kHz/s。
量化。用256个不同的具体量化电平来表示对应的模拟信号瞬间抽样值。
编码。每个量化值用8个比特的二进制代码表示,组成一串具有离散特性的数字信号流。
用这种编码方式,数字链路上的数字信号比特速率为64kbit/s 。
固定电话采用的就是这种数字化的方法,因此每个话音信道的速率是64kbit/s。
4k-means算法:
k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类
原创力文档


文档评论(0)