- 1、本文档共33页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
混合高斯分布模型 图10-12是一个具有三个混 合函数的混合高斯分布模型和 三状态各态历经连续HMM的 例子。 语种辨别的应用领域 语种辨别在信息检索及军事领域都有很重要的应用。主要包括 多语种信息服务:很多信息查询中可提供多语种的服务,但一开始必须用多语种语言提示用户选择用户所需语言。 机器自动翻译的前端处理。 军事上对说话人身份和国籍进行判别或监听等。 完! 10.1概述 10.2说话人识别方法和系统结构 10.3应用DTW的说话人确认系统 10.4应用VQ的说话人识别系统 10.5应用HMM的说话人识别系统 10.6应用GMM的说话人识别系统 10.7说话人识别中尚需进一步探索的研究课题 10.8语种辨别的原理和应用 在线教务辅导网: 教材其余课件及动画素材请查阅在线教务辅导网 QQ:349134187 或者直接输入下面地址: 10.1 概述 自动说话人识别(Automatic Speaker Recognition 简称ASR)是一种自动识别说话人的过程。说话人识别和语音识别的区别在于,它不注重包含在语音信号内的文字符号以及语意内容信息,而是着眼于包含在语音信号中的个人特征,提取说话人的这些个人信息特征,以达到识别说别说话人的目的。 按其最终完成的任务可以分为两类: * 自动说话人确认(简称ASV):确认一个人的身份,只涉及一个特定的参考模型和待识别模式之间的比较,只做“是”和“不是”的判决。 * 自动说话人辨认(简称ASI):必须辨认出待识别的语音是来自待考察认中的哪一个,有时还要对这个人以外的语音做出拒绝的判决。 10.2 说话人识别方法和系统结构 说话人识别就是从说话人的一段语音中提取出说话人的个性特征,通过对这些个人特征的分析和识别,从而达到对说话人进行辨认或者确认的目的。图10-1是说话人识别系统的结构框图,它由预处理、特征提取、模式匹配和判决等几大部分组成。 10.2.1预处理 包括对输入计算机的语音数据进行端点检测、预加重、加窗、分针等。 10.2.2说话人识别特征的选取 在说话人识别系统中特征提取是最重要的一环,特征提取就是从说话人的语音信号中提取出表示说话人个性的基本特征。 在理想情况下,选取的特征应当满足下述准则: 能够有效地区分不同的说话人,但又能在同一说话人的语音发生变化时相对保持稳定。 易于从语音信号中提取 不易被模仿 尽量不随时间和空间变化 如果把说话人识别中常用的参数加以简要归类,可划分为以下几类: 线性预测参数及其派生参数 语音频谱直接导出的参数 混合参数 其他鲁棒性参数 上表是日本人Matui和Furui在1990年针对倒谱特征和基音特征所作的比较实验结果 所用特征 误识率/(%) 倒谱 差值倒谱 基音 差值基音 倒谱与差值倒谱 倒谱、差值倒谱与基音、差值基音 9.43 11.81 74.42 85.88 7.93 2.89 10.2.3特征参量评估方法 在给定一种识别方法后,识别的效果主要取决于特征参数的选取。对于某一维单个的参数而言,可以用F来表征他在说话人识别中的有效性。可以选取两种分布的方差之比(F比)作为有效性准则。 10.2.4模式匹配方法 概率统计方法 动态时间规整方法(DWT) 矢量量化方法(VQ) 隐马尔科夫模型方法(HMM) 人工神经网络方法(ANN) 10.2.5说话人识别中判别方法和阈值的选择 10.2.6说话人识别系统的评价 一个说话人识别系统的好坏是由 许多因素决定的。其中主要有正确 识别率(或出错率)、训练时间的 长短、识别时间、对参考参量存储 量的要求、使用者适用的方便程度 等,实用中还有价格因素。图10.3 表示了说话人辨别与说话人确认系 统性能与用户数的关系。 10.3应用DWT的说话人确认系统 一个应用DWT说话人识别系统如图10-4所示。它采用的识别特征是BPFG(附听觉特征处理),匹配时采用DWT技术。 10.4应用VQ的说话人识别系统 目前自动说话人识别的方法主要是基于参数模型的HMM的方法和基于非参数模型的VQ的方法。应用VQ的说话人识别系统如图10-5所示。 应用VQ的说话人识别过程的步骤如下: 训练过程 从训练语音提取特征矢量,得到特征矢量集; 通过LBG算法生成码本; 重复训练修正优化码本; 存储码本 识别过程 从测试语音提取特征矢量序列 由每个模板依次对特征矢量序列进行矢量量化,计算各自的平均量化误差: 式中 是第i个码本中第l个码本矢量,而 是待测矢量
您可能关注的文档
- 线性代数第3版 作者 陈建华 22特殊、分块.ppt
- 线性代数第3版 作者 陈建华 23逆矩阵.ppt
- 线性代数第3版 作者 陈建华 25矩阵的秩.ppt
- 线性代数第3版 作者 陈建华 31解的存在.ppt
- 线性代数第3版 作者 陈建华 44实对称对角化.ppt
- 线性代数第3版 作者 陈建华 51二次型、正交替换法.ppt
- 线性代数第3版 作者 陈建华 52配方规范.ppt
- 线性代数第3版 作者 陈建华 53正定.ppt
- 项目成本管理 第2版 作者 孙慧 第1章.ppt
- 项目管理 作者 陆红 项目管理(开始).ppt
- 中国国家标准 GB/T 12357.1-2024通信用多模光纤 第1部分:A1类多模光纤特性.pdf
- 中国国家标准 GB/T 18851.2-2024无损检测 渗透检测 第2部分:渗透材料的检验.pdf
- 《GB/T 18851.2-2024无损检测 渗透检测 第2部分:渗透材料的检验》.pdf
- GB/T 18851.2-2024无损检测 渗透检测 第2部分:渗透材料的检验.pdf
- GB/T 44927-2024知识管理体系 要求.pdf
- 中国国家标准 GB/T 44927-2024知识管理体系 要求.pdf
- 《GB/T 44927-2024知识管理体系 要求》.pdf
- GB/T 44937.4-2024集成电路 电磁发射测量 第4部分:传导发射测量1 Ω/150 Ω直接耦合法.pdf
- 《GB/T 44937.4-2024集成电路 电磁发射测量 第4部分:传导发射测量1 Ω/150 Ω直接耦合法》.pdf
- 中国国家标准 GB/T 44937.4-2024集成电路 电磁发射测量 第4部分:传导发射测量1 Ω/150 Ω直接耦合法.pdf
最近下载
- 2023年项目融资经理年终总结及年后展望.pptx VIP
- (完整word版)环评报告表资料清单--一般项目.doc
- 保安服务售后服务委托协议2024年.docx VIP
- 2023年投融资业务经理年终总结及下一年计划.pptx VIP
- 企业支付委托书.docx VIP
- 耀华XK3190-DS10技术说明书(1.00版).pdf
- 四方伟业数据治理软件V3.0.5操作手册.pdf
- T GDEIIA 56—2024 垂直起降低空航空器起降场基础设施配置技术要求.pdf VIP
- 老师教学课件-第二组 理念论、实在论与教育.pptx
- 2025湖北随州市公安局招聘警务辅助人员48名笔试模拟试题及答案解析.docx VIP
文档评论(0)