- 50
- 0
- 约1.08万字
- 约 13页
- 2021-01-28 发布于北京
- 举报
智能语音识别技术
PAGE 13
特征提取方法
基础知识
基本概念:
频率:一个声源每秒钟可产生成百上千个波,我们把每秒钟波峰所发生的数目称之为信号的频率,用单位赫兹(Hz)或千赫兹(kHz)表示。
幅度:信号的幅度表示信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。对音频信号,声音的强度用分贝(dB)表示,分贝的幅度就是音量。
1.1 声音的A/D转换
A/D转换就是把模拟信号转换为数字信号的过程,模拟电信号变为了由0,1组成的bit信号。
A/D转换关键步骤是声音的采样和量化和编码。
1.2.1 采样
为实现A/D转换,需要把模拟音频信号波形进行分割,这种方法称为采样(Sampling)。 采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值,把时间上的连续信号变成时间上的离散信号。 该时间间隔称为采样周期, 其倒数为采样频率,表示计算机每秒中采集多少声音样本。
奈奎斯特(Nyquist)理论
采样频率与声音频率之间有着一定的关系,根据奈奎斯特理论,只有采样频率高于声音信号最高频率的两倍时,才能把数字信号表示的声音还原为原来的声音。
????=2??
1.2.2 量化
采样只解决了音频波形信号在时间坐标上(横轴) 把一个波形切成若干个等分的数字化问题,但是还需要用某种数字化的方法来反映某一瞬间声波幅度的电压值大小,该值的大小影响音量的高低。把对声波波形幅度的数字化表示称之为量化。
量化的过程是将采样后的信号按照整个声波的幅度划分为有限个区段的集合,把落入某个区段内的样值归为一类,并赋予相同的量化值。
采取二进制的方式,以8bit或16bit的方式划分纵轴。也就是说在一个以8位为记录模式的音效中,其纵轴将会被划分为28=256个量化等级,用以记录其幅值大小。也即为若每个量化级用长度为b比特的二进制表示,那么量化级n的个数为 ??=2??
如下图所示,b = 3时的量化方式,其前三个采样值可以用二进制序列”100 110 111“表示。
所以可以简单理解:采样是横轴对时间分段,量化是纵轴对振幅分段。
1.2.3 编码
模拟信号量经过采样和量化后,形成一系列的离散信号——脉冲数字信号。这些脉冲数字信号可以以一定的方式进行编码,形成计算机内部运行的数据。
编码就是按照一定的格式把经过采样和量化得到的离散数据记录下来,并在有用的数据中加入一些用于纠错、同步和控制的数据。 在数据回放时,可以根据所记录的纠错数据判别读出的声音数据是否有错,如在一定范围内有错,可以加以纠正。
编码的形式有很多,常用的编码方式是脉冲编码调制(PCM).在wav中也有采用ADPCM的编码方式,这里主要对这两种进行介绍。
(1)PCM
如果我们对一个声音信号进行采样,采用16位量化,比如采集53个点.如果我们直接存储每一个点的16位的采样值,这样就需要53X16=848位,大约是106字节。如下图:
(2)DPCM
但我们换个思路,我们不存储采样值,而存储采样点两两之间的差值(采样值可能会很大,需要更多的位数来表达,比如16个位,但是两点之间一般来说是比较连续的,差值不会太大,所以这个差值只需要很少的几个位即可表达,比如4个位)。这样,我们只需要知道前一个点的值,又知道它与下一个点的差值,就可以计算得到下一个点了。这个差值就是所谓的“差分”。DPCM即为差分脉冲编码调制。 这样对于中用16位表示53个点,DPCM只需要4位,这样存储大小减为原来的 1/4。
(3)ADPCM
ADPCM为自适应差分脉冲编码调制。
考虑DPCM存储的是两点之差,但对于有的差值大,有的差值小;如果差值大过有限位数可表示的范围,那么数据就会丢失,造成失真。如何更好的保存原始音频的信息呢?
如果有一种方法,可以把两点之间的差值变换到固定的几个位即可表达的范围内,那就好了。而且这种变换是实时的,并且具有自适应性和预测能力的。这就是ADPCM的基本思想。它定义了一些因子,这种算法如果发现两点之间差值变大之后,就会用差值去和相应的因子作除法,从而减小了差值,让它可以减少到几个位可表达的数值范围内。而选择哪一个因子来除它,这就是ADPCM编码。
ADPCM算法巧妙的利用了音频信号的特点,也就是音频信号上的点与它前面的若干个点是有一定的相关性的,从而可以对下一个点进行预测,从而预先估计这个差值,从而选取相应的除数因子,去把差值归化到数值范围内.
2. V3 转 wav
114的电话录音数据是.V3格式的,一般播放器是不支持的,并且也没有见到直接用该数据格式进行音频处理的。音频处理常用是转换为.wav格式。在转格式时,注意几个点,编码格式、采样率、编码位数、通道数、文件头。
本实验中采用的ADPCM编码,单通道,对于采样率和编码位数则需要看V3文件中是如何
您可能关注的文档
- 行企信息库 知名企业 诺安检测简介.docx
- 行业动态 社会热点 【行业热点】德国公司voxeljet将PP和TPU添加到3D打印材料组合中.docx
- 行业动态 市场动态 【行业资讯】C5产能将爆发,开拓应用瞄哪里.docx
- 行业动态 学习培训 【行业知识】透明塑料注塑成型时应该注意哪些事项?.docx
- 行业动态、校企合作 精细化工专业职业联盟、校企合作、校企同盟 江苏华大新材料有限公司.docx
- 行业企业中心(分库) 机构养老组织 养老福利机构-南京市祖堂山社会福利院简介.docx
- 行业认知 案例素材 恒大集团企业宗旨.docx
- 行业信息动态 行业信息动态 社会发展,电力先行-发电-201812.docx
- 行业信息库 宠物用品 InnoPet宠物背心(两脚衣).doc
- 行业信息库 宠物用品 波波BOBO 洁耳粉.doc
- 2025-2026学年科普版七年级下册英语Unit7 Being a Smart Shopper素养测评卷(含答案).docx
- 2025-2026学年科普版七年级下册英语Unit10 Lending a Helping Hand素养测评卷(含答案).docx
- 2025-2026学年科普版七年级下册英语Unit11 Rules Matter素养测评卷(含答案).docx
- 2025-2026学年科普版七年级下册英语Unit12 Better Together素养测评卷(含答案).docx
- 2026年中考英语语法选择专题训练(含答案).docx
- 2026中考语文二轮学思并重,涵养君子之德论语十二章、虽有佳肴、大道之行也.docx
- 中考文言文常见文化常识梳理.docx
- 中考语文二轮:内修君子德外尽忠臣心诚子书出师表修身立德主题学习.docx
- 中考语文二轮:不一样的求学路一样的成长梦送东阳马生序劝学主题学习.docx
- 中考语文二轮:《陋室铭》《爱莲说》托物寓意主题学习.docx
最近下载
- 专升本高等数学真题试卷答案.docx VIP
- 2025年重庆巴蜀中学中考自主招生保送生物理考试题 .pdf VIP
- 外研版(三起)(2024)四年级下册英语Unit 1 People at work 教案.docx
- 城镇排水管道非开挖修复更新工程技术规程.docx VIP
- 2015年 建筑标准设计图集目录.pdf VIP
- 人教 精通版 六年级下册 小学英语 知识点思维导图挂图(1-6单元).pdf
- 2026年伊春职业学院单招职业技能考试题库及答案详解(全国通用).docx VIP
- 徐州工业单招真题及答案2025.doc VIP
- 《融资租赁风险管理》课件.ppt VIP
- 长春工业大学《高等数学(D)》2025 - 2026学年第一学期期末试卷.docx VIP
原创力文档

文档评论(0)