- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
thematlabnotebookv1数学
芝麻开门
数学科学院 02级(1)班
林汉兴 2004-6-8
摘要:
本文意在处理“说话人识别”中的一个分支“说话人确认”的问题。解决问题的想法是从语音中提取出足以区别于其他人的声音的个人特征,将这些特征参量化。以某一个特定人的声音的特征参量为标准模板,定义其他人与该特定人的声音之间的距离测度,规定一个阈值,这样,标准模板、距离和域值就组成了一个说话人确认系统。对一个待测的声音,系统将它与标准模板匹配,计算距离并根据此距离是否在规定阈值之内来判断待测的说话人就是特定的说话者。解决问题的关键是声音的个人特征的提取。本文采用的方法是对声音信号作短时傅里叶变换,从它的功率谱图中找出具有代表性的一些波峰所对应的频率,用这些特征频率值作成一个特征向量。用某个特定人声音的特征向量为标准向量F,定义待测声音的特征向量G与F之间的距离函数D,给定一个阈值P。由F,D和P构成说话人确认系统。方法比较粗略,但“说话人确认”在许多方面仍有待于完善,笔者仅仅是做一些初步的摸索。
一、问题的提出和背景知识
笔者有感于阿里巴巴和四十大盗的故事,对那道能够识别开门秘语的石门赞叹不已。实际上,那已经是一道具有语音识别功能的智能门。如今,这样的智能门已不再是一种幻想,我们在语音识别技术方面已经取得了很多成果。而且,我们还能对说话者进行识别。这是那道神奇的石门未能做到的。不过, “说话人识别”技术并未成熟,笔者想在这方面作一些尝试。
语音中包含的第一意义的信息是与语言意义内容相关的音韵性信息;第二意义主要是讲话人的个人信息。提取个人信息并判断出是谁的声音称为“说话人识别”。“说话人识别”包括“说话人鉴别”和“说话人确认”。前者是把待测说话人的语音判定为多个参考说话人之中的某一个;后者则是根据待测说话人的语音,确定为是否与其所声称的参考说话人相符。
“说话人识别”的基本原理主要包括两阶段,即训练和识别。在训练阶段,系统的每个使用者说出若干个训练语句,系统据此建立每个使用者的模板和模板参数。在识别阶段,待识人的语音特征提取后与系统训练时产生的模板或模板参数进行比较。在说话人确认中,通过判断测试音与所生成的说活人的模型的匹配距离是否小于一定阈值做出判断。其原理图如下:
输入语音
识别结果
说话人识别可以分为两种:一种是预先确定识别用语的方法(发音内容依存型);另一种是无论讲什么话都可进行识别的方法(发音内容独立型)。从声音中准确地提取和分离个人信息是相当困难的。至今还没有建立起准确分离和提取个人特征的技术。当前的状况是说话人识别多采用固定声音内容的方法来提高识别率。
多年来,人们对于特征参数在说话人识别系统中的有效性进行大量的验证和研究,得到许多有意义的结果,例如:线性预测系数或其派生系数,由语音频谱直接导出的参数,其他鲁棒性系数包括Mel频率倒谱系数,以及经过信道谱减或噪声谱减的倒谱,混合参数等。当然没有一种是十全十美的。
二、模型假设
模型中处理的对象是数字声音信号。一个原始的声音信号,经过取样、量化、编码等处理变成了数字信号。取样既是把时间上的连续波形,用时间上离散的各时点值的序列来表示。根据奎斯特取样定理。一个连续的带限信号能被一个离散取样序列所代替而不会有任何信息的丢失。量化将模拟信号波形表示成一系列脉冲,这会造成一定程度的量化失真。我们是通过Windows自带的录音机获得这种数字声音信号的。而录音设备和外界环境都会对声音信号造成一定的影响。
声音可以理解成由振幅和相位随时间缓慢变化的正弦波构成。人的听觉对声音的感觉特征主要包含在振幅信息中,相位信息一般不起作用。在研究声音的性质时,往往把时域信息(波形图)变换得到它的频域信息(频谱),通过研究频谱和与频谱相关联的特征获得声音的特性。
语音信号是一种典型的非平稳信号,但是由于语音的形成过程是与语音器官的运动密切相关的。这种物理运动比起声音
您可能关注的文档
- 博士班学生申请资格考请注意.doc
- 玻璃基板的上浮搬运模组-ckd.pdf
- 不饱和脂肪酸及神经生长因子对神经细胞之影响.ppt
- 不用湿手触摸电器和开关!好好保护电器绝缘体.ppt
- 玻尔的量子理论-oriyao.ppt
- 波动或信息观.ppt
- 波的图像课件宋春毅.ppt
- 波的反射与终端匹配的均匀传输线.ppt
- 并行计算机与互连网络拓扑结构-北京大学微处理器研究开发中心.pdf
- 并联谐振回路阻抗特性比较-read.ppt
- 2025贵州罗甸县第一医共体平岩分院招聘合同制专业技术人员笔试参考题库附答案解析.docx
- 2025上半年重庆市区县事业单位考核招聘269人笔试参考题库附答案解析(1).docx
- 2025内蒙古鄂尔多斯生态环境职业学院人才引进38人笔试参考题库附答案解析.docx
- 2025年文化和旅游部直属事业单位招聘应届生(100人)笔试参考题库附答案解析.docx
- 2025上半年重庆市区县事业单位考核招聘269人笔试参考题库附答案解析.docx
- 2025内蒙古鄂尔多斯生态环境职业学院专业技术人员招聘18人笔试参考题库附答案解析.docx
- 2025年浙能武威能源有限公司招聘笔试参考题库附答案解析.docx
- 2025文化和旅游部直属事业单位公开招聘应届毕业生(京外生源25人)笔试参考题库附答案解析.docx
- 2025文化和旅游部直属事业单位2025年度公开招聘应届毕业生(一)笔试参考题库附答案解析.docx
- 2025贵州第十三届贵州人才博览会黔东南州事业单位人才引进213人笔试参考题库附答案解析.docx
最近下载
- 2025年湖北省襄阳市襄阳四中学初三下学期四月调考化学试题含解析.doc VIP
- GBT 42706.1-2023 电子元器件 半导体器件长期贮存 第1部分:总则.doc
- 2018人教版七年级数学下册练习:期末达标检测卷.docx VIP
- AC-25厂拌热再生沥青混凝土试验段施工方案.doc
- 行业联盟与竞争格局演变-深度研究.pptx
- 2024-2025学年北京西城区九年级初三(上)期末道德与法治试卷(含答案).pdf
- 2025年山东省枣庄市滕州市高三二模物理试卷及答案.docx
- 第九章 压强和浮力(知识清单)【教师版】.docx VIP
- 2025保安员理论考试100题(附答案) .pdf VIP
- 2022年三级教育测试题.docx
文档评论(0)