- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
语音信号处理与识别 发展 声纹识别的起源,贝尔实验室开发的Audrey语言识别系统 60年代,线性预测编码技术(LPC)和动态规划技术(DP) 70年代,LPC和DTW的发展,提出了矢量量化(VQ)和隐马尔科夫模型(HMM)理论。 80年代,卡耐基梅隆大学突破了大量词汇、连续语音和非特定人三大障碍,实现了基于隐马尔客服模型的语言识别Sphinx系统。 90年代,语音发展相对缓慢,并没有多大创新,许多公司斥巨资将语音识别系统实用化。如:IBM的Via Voice等等。 我国在语音识别方面起步相对较晚,但经过几十年的努力也取得了很大成就。 “863计划”,大量词汇非特定人连续语音识别演示系统,多项核心技术和创新性方法 21世纪,移动互动网的兴语音识别系统的发展起到了很大的推动作用,有安卓系统内嵌语音识别系统、Google语音翻译、科大讯飞推出的讯飞口讯和语音云识别等相关产品也得到了很大的应用。 优缺点: 声纹识别具有很多优点: 纯天然,识别的特征是声音,不用接触 测试设备成本低,不需要特殊设备,对采样和量化的的芯片要求不高。 在远程应用和移动互联网环境中,可以通过电话和移动设备进行身份确认和辨认。 但同时也有一些缺点: 一个人的声音具有易变性,易受身体状况、年龄、情绪等的影响; 不同的麦克风和信道对识别性能有影响; 环境噪音对识别有干扰;混合说话人的情形下人的声纹特征不易提取 声纹识别唯一性 声纹识别: 声纹识别(Voiceprint Recognition, VPR),也称为说话人识别(Speaker Recognition),是从说话人发出的语音信号中提取声纹信息。具有排他性,因为每个人的自然特征不同,所以声纹和指纹一样都各具特色,声纹识别技术可以作为鉴别身份的一种重要手段 。通过声纹识别技术和位置服务技术(卫星定位等)相结合,实现远程身份确认,从而可达到被监管对象真实的地理位置或活动轨迹。 相关概念 声纹识别按任务有两类,即说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)。 ①说话人辨认:用以判断某段语音是若干人中的哪一个所说的,是“多选一”问题。 ②说话人确认:用以确认某段语音是否是指定的某个人所说的,是“一对一判别”问题。 声纹识别按类型有文本相关的(Text-Dependent)和文本无关的(Text-Independent)两种。 ①文本相关:因此可以达到较好的识别效果,但系统需要系统要求用户按照规定的内容发音,而识别时也必须按规定的内容发音用户配合。 ②文本无关:系统则不规定说话人的发音内容,模型建立相对困难,但用户使用方便,可应用范围较宽。 总框图 采样量化 首先对语音进行采样量化和预处理,预处理包括预加重处理、加窗、分帧和端点检测。 采样量化 预滤波是为了防混叠和阻止工频信号的干扰,预滤波器是带通滤波器。 自动增益为了放大信号的倍数,以便于后续计算控制。 A/D转换是为了把模拟信号转换为数字信号, 以便计算机进行相关处理,但在转换中要对信号进行量化这个阶段会产生量化噪声。A/D转换器分为线性和非线性两类。 预处理 采样后需要对信号进行预处理,可提高信噪比,以便后续操作。 预加重可以提升高频段;在整个频段中保持频谱平坦;方便进行频谱分析,预加重之后,开始进行分帧加窗处理,我们把10ms-30ms内语音信号看成是平稳的,为得到短时的语音信号,要对其进行加窗操作,窗函数平滑地滑动,将语音信号分成帧。 在选择窗函数时,窗函数必须在时域时减小两端时间窗的坡度,使得窗口边缘缓慢平滑降为零;在频域,带宽要在3db以上。常用的窗函数有:矩形窗和汉明窗。通常情况下,选择汉明窗。 通过分桢加窗后,语音信号就被分割成短时语音信号,利用数字信号处理技术,对这些信号进行处理,提取语音信号的特征参数。 语音信号时域分析 时域分析简单直观,直接分析语音信号时域波形提取特征参数,一般用于最基本信号处理。主要方法有短时平均能量、短时平均幅度、端点检测和短时平均过零率。 短时平均能量:语音信号的能量随时间发生变化,清音和浊音间的能量差别很大,浊音能量大,可以分辨清音和浊音,也可以界定有声段和无声段、声母及韵母。 短时平均过零率:表示每帧内信号过零的次数,可初步判断清浊音,清音过零率高,可以很好反映信号频率变化。适合背景噪声较大的情况。 端点检测:是将短时平均能量和短时平均过零率结合起来,进行端点检测,可以很好的检测语音是否开始和结束;目的就是为了确定语音信号的起始点和结束点位置,避免无声段的干扰。 频域分析方法有:带通滤波器组法、傅里叶变换法和线性预测法。 短时傅里叶分析:语音信号非平稳,
文档评论(0)