基于Matlab的语音图像视频基础知识.docVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Matlab的语音图像视频基础知识.doc

基于Matlab环境下的语音、图像、 频信号的基础知识 班级:信1104 学号 姓名:吕微彪 语音信号的表示: 语音既是人得发音器官发出来的一种声波,它就是其他各种声音一样,也具有声音的物理属性。它具有以下一些特性: (一)音质。它是一种声音区别其他声音的基本特性。 (二)音调,就是声音的高低。音调取决于声波的频率:频率快则音调高,频率慢音调低 (三)声音的强弱。音强及音量,又称响度,它是由声波震动幅度决定的。 (四)声音的长短,也称音长,它取决于发音持续时间的长短。 语音信号最主要的特性是随时间而变化的,是一个非常平稳的随机过程。但是,从另一方面看,虽然语音信号具有时变特性,但在短时间范围内其个性基本保持不变。在没有完成状态转变时,可近似认为它不变。因而我们可以采用平稳过程的分析处理方法处理语音。语音信号分析可分为时域,频域,倒频域等方法。时域分析具有简单,运算量小物理意义明确等优点;更为有效的分析多是围绕频域进行的,因为语音中最重要的感知特性反映在其功率谱中而相位变化只起很小作用。语音信号的短时谱分析是以傅里叶变换为核心的,其特征是频谱包络与频谱细微结构以乘积的方法混合在一起,另一方面是可用FFT进行高速处理。语音信号处理基本分两种分析方法:数字信号处理和模拟信号处理 语音信号的格式: 音频格式是指要在计算机内播放或是处理音频文件,是对声音文件进行数、模转换的过程。音频格式最大带宽是20KHZ,速率介于40~50KHZ之间,采用线性脉冲编码调制PCM,每一量化步长都具有相等的长度 音频文件格式常见的特点有:要在计算机内播放或是处理音频文件,也就是要对声音文件进行数、模转换,这个过程同样由采样和量化构成,人耳所能听到的声音,最低的频率是从20Hz起一直到最高频率20KHZ,20KHz以上人耳是听不到的,因此音频文件格式的最大带宽是20KHZ,故而采样速率需要介于40~50KHZ之间,而且对每个样本需要更多的量化比特数。音频数字化的标准是每个样本16位-96dB的信噪比,采用线性脉冲编码调制PCM,每一量化步长都具有相等的长度。在音频文件的制作中,正是采用这一标准。 音频格式包括:CD WAVE AIFF AU MPEG MP3 MPEG-4 MIDI WMA RealAudio VQF OggVorbis AMR 。其中最常用的有MP3,CD,WMA , APE。 吧,WAV格式的声音文件质量和CD相差无几,也是目前PC机上广为流行的声音文件格式,几乎所有的音频编辑软件都“认识”WAV格式。比较 作为数字音乐文件格式的标准,WAV格式容量过大,因而使用起来很不方便。因此,一般情况下我们把它压缩为MP3或WMA格式。压缩方法有无损压缩,有损压缩,以及混成压缩。MPEG,JPEG就属于混成压缩,如果把压缩的数据还原回去,数据其实是不一样的。当然,人耳是无法分辨的。因此,如果把MP3,OGG格式从压缩的状态还原回去的话,就会产生损失。然而,APE格式即使还原,也能毫无损失地保留原有音质。所以,APE可以无损失高音质地压缩和还原。在完全保持音质的前提下,APE的压缩容量有了适当的减小。拿一个最为常见的38MBWAV文件为例,压缩为APE格式后为25MB左右,比开始足足少了13MB。而且MP3容量越来越大的今天,25M的歌曲已经算不上什么庞然大物了。以1GB的mp3来说可以放入4张CD,那就是40多首歌曲,已经足够了! MP3支持格式有MP3和WMA。MP3由于是有损压缩,因此讲求采样率,一般是44.1KHZ。另外,还有比特率,即数据流,一般为8---320KBPS。在MP3编码时,还看看它是否支持可变比特率(VBR),现在出的MP3机大部分都支持,这样可以减小有效文件的体积。WMA则是微软力推的一种音频格式,相对来说要比MP3体积更小。?[每个图像的像素通常对应于二维空间中一个特定的位置,并且有一个或者多个与那个点相关的采样值组成数值。根据这些采样数目及特性的不同数字图像可以划分为: 二值图像?(Binary Image): 图像中每个像素的亮度值(Intensity)仅可以取自0到1的图像。 灰度图像 (Gray Scale Image),也称为灰阶图像: 图像中每个像素可以由0(黑)到255(白)的亮度值表示。0-255之间表示不同的灰度级。 彩色图像 (Color Image):每幅彩色图像是由三幅不同颜色的灰度图像组合而成,一个为红色,一个为绿色,另一个为蓝色。 伪彩色图像(false-color) multi-spectral thematic?立体图像?(Stereo Image):立体图像是一物体由不同角度拍摄的一对图像,通常情况下我们可以用立

文档评论(0)

docinpfd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5212202040000002

1亿VIP精品文档

相关文档