常用的音频特征,并给出具体的理论分析.docxVIP

常用的音频特征,并给出具体的理论分析.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
常用的音频特征,并给出具体的理论分析

一、过零率过零率的表达式为:其中N为一帧的长度,n为对应的帧数,按帧处理。理论分析:过零率体现的是信号过零点的次数,体现的是频率特性。因为需要过零点,所以信号处理之前需要中心化处理。code(zcr1即为过零率)or?i=1:fn????z=X(:,i);?????????????????????%?取得一帧数据????for?j=1: (wlen-?1) ;??????????%?在一帧内寻找过零点?????????if?z(j)*?z(j+1)?0???????%?判断是否为过零点?????????????zcr1(i)=zcr1(i)+1;???%?是过零点,记录1次?????????end????endend二、短时能量短时能量的表达式为:理论分析:短时能量体现的是信号在不同时刻的强弱程度。code:12345for?i=1?: fn????u=X(:,i);??????????????%?取出一帧????u2=u.*u;???????????????%?求出能量????En(i)=sum(u2);?????????%?对一帧累加求和end三、短时自相关函数短时自相关函数定义式为:理论分析:学过信号处理的都应该知道,信号A与信号B翻转的卷积,就是二者的相关函数。其中是因为分帧的时候,加了窗函数截断,w代表窗函数。code:假设一帧截断的信号1r?=?xcorr(signal);?  这与直接利用卷积的方式等价:给出卷积的实现:12345678910111213function output_signal=my_direct_convolution(input_signal,impulse_response)%?Input:%????input_signal: the?input?signal%????impulse_response: the impulse response%?Output:%????output_signal:the convolution resultN=length(input_signal);%define length of signalK=length(impulse_response);%define length of impulse responseoutput_signal=zeros(N+K-1,1);%initializing the output vectorxp=[zeros(K-1,1);input_signal;zeros(K-1,1)];for?i=1:N+K-1????output_signal(i)=xp(i+K-1:-1:i)*impulse_response;end  卷积也可以借助FFT快速实现。调用卷积的函数:1r1?=?my_direct_convolution(signal,signal(end:-1:1));  图中可以看出r与r1完全等价:四、短时平均幅度差假设x是加窗截断后的信号,短时平均幅度差定义:理论分析:音频具有周期特性,平稳噪声情况下利用短时平均幅度差可以更好地观察周期特性。code:取一帧信号,计算短时平均幅度差:1234u?=?X(:,i)?%取一帧信号for?k?=?1:wlen????amdvec(k)?=?sum(abs(u(k:end)-u(1:end-k+1)));%求每个样点的幅度差再累加end 前面四个都是信号的时域分析,音频信号更多是在时频域分析(可借助tftb-0.2工具包分析)。常用的有STFT(短时傅里叶变换)、小波变换、ST、W-V变换,以线性调频信号为例:左图最下面为合成信号,右图为四种变换对合成信号进行的时频分析。这里只分析利用短时傅里叶变换(Short time fourier transform, STFT)的情形。又因为实数的傅里叶变换共轭对称,有时也仅仅分析频域的一半信息即可。为什么要进行STFT呢,原因按我的理解可能有两点:传统FFT只能看到信号频率的特性,时域信号只能观察时域特性,都是一维的情况,如果二维联合观察?这个时候STFT就可以实现;语音是非平稳信号,比如求相关矩阵,理论上是E{.}求取均值的形式,通常无法得出概率密度,往往有数据近似:这个式子能够近似相关矩阵,有两个前提条件:a)信号平稳,这样才能保证统计特性一致;b)遍历性,这个时候才能保证统计没有以偏概全。但语音信号是非平稳信号,直接求取相关矩阵理论上没有意义,其他统计信息也有类似的特性。但语音变化缓慢,可以认为是短时平稳,即在短的时间内(如20~30ms)是平稳的,这个时候平稳+遍历性的假设,就可以让我们借助观测数据估计统计信息。这个短时平稳的划分就是信号分帧。进一步:分帧信号分别FFT,就是STFT。信号分帧

文档评论(0)

561190792 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档