常用的音频特征,并给出具体的理论分析.docxVIP

下载本文档

7
0
约8.15千字
约 17页
2018-03-22 发布于浙江
举报
版权申诉

常用的音频特征,并给出具体的理论分析.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

常用的音频特征,并给出具体的理论分析

一、过零率过零率的表达式为：其中N为一帧的长度，n为对应的帧数，按帧处理。理论分析：过零率体现的是信号过零点的次数，体现的是频率特性。因为需要过零点，所以信号处理之前需要中心化处理。code(zcr1即为过零率)or?i=1:fn????z=X(:,i);?????????????????????%?取得一帧数据????for?j=1: (wlen-?1) ;??????????%?在一帧内寻找过零点?????????if?z(j)*?z(j+1)?0???????%?判断是否为过零点?????????????zcr1(i)=zcr1(i)+1;???%?是过零点，记录1次?????????end????endend二、短时能量短时能量的表达式为：理论分析：短时能量体现的是信号在不同时刻的强弱程度。code:12345for?i=1?: fn????u=X(:,i);??????????????%?取出一帧????u2=u.*u;???????????????%?求出能量????En(i)=sum(u2);?????????%?对一帧累加求和end三、短时自相关函数短时自相关函数定义式为：理论分析：学过信号处理的都应该知道，信号A与信号B翻转的卷积，就是二者的相关函数。其中是因为分帧的时候，加了窗函数截断，w代表窗函数。code:假设一帧截断的信号1r?=?xcorr(signal);?　　这与直接利用卷积的方式等价：给出卷积的实现：12345678910111213function output_signal=my_direct_convolution(input_signal,impulse_response)%?Input:%????input_signal: the?input?signal%????impulse_response: the impulse response%?Output:%????output_signal:the convolution resultN=length(input_signal);%define length of signalK=length(impulse_response);%define length of impulse responseoutput_signal=zeros(N+K-1,1);%initializing the output vectorxp=[zeros(K-1,1);input_signal;zeros(K-1,1)];for?i=1:N+K-1????output_signal(i)=xp(i+K-1:-1:i)*impulse_response;end　　卷积也可以借助FFT快速实现。调用卷积的函数：1r1?=?my_direct_convolution(signal,signal(end:-1:1));　　图中可以看出r与r1完全等价：四、短时平均幅度差假设x是加窗截断后的信号，短时平均幅度差定义：理论分析：音频具有周期特性，平稳噪声情况下利用短时平均幅度差可以更好地观察周期特性。code:取一帧信号，计算短时平均幅度差：1234u?=?X(:,i)?%取一帧信号for?k?=?1:wlen????amdvec(k)?=?sum(abs(u(k:end)-u(1:end-k+1)));%求每个样点的幅度差再累加end　前面四个都是信号的时域分析，音频信号更多是在时频域分析(可借助tftb-0.2工具包分析)。常用的有STFT（短时傅里叶变换）、小波变换、ST、W-V变换，以线性调频信号为例：左图最下面为合成信号，右图为四种变换对合成信号进行的时频分析。这里只分析利用短时傅里叶变换（Short time fourier transform, STFT）的情形。又因为实数的傅里叶变换共轭对称，有时也仅仅分析频域的一半信息即可。为什么要进行STFT呢，原因按我的理解可能有两点：传统FFT只能看到信号频率的特性，时域信号只能观察时域特性，都是一维的情况，如果二维联合观察？这个时候STFT就可以实现;语音是非平稳信号，比如求相关矩阵，理论上是E{.}求取均值的形式，通常无法得出概率密度，往往有数据近似：这个式子能够近似相关矩阵，有两个前提条件：a)信号平稳，这样才能保证统计特性一致；b)遍历性，这个时候才能保证统计没有以偏概全。但语音信号是非平稳信号，直接求取相关矩阵理论上没有意义，其他统计信息也有类似的特性。但语音变化缓慢，可以认为是短时平稳，即在短的时间内（如20~30ms）是平稳的，这个时候平稳+遍历性的假设，就可以让我们借助观测数据估计统计信息。这个短时平稳的划分就是信号分帧。进一步：分帧信号分别FFT，就是STFT。信号分帧