基于子空间和模糊支持向量机的说话人识别.pdfVIP

下载本文档

1
0
约9.41千字
约 5页
2017-11-19 发布于浙江
举报
版权申诉

基于子空间和模糊支持向量机的说话人识别.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于子空间和模糊支持向量机的说话人识别

基于子空间和模糊支持向量机的说话人识别吴峰燕河海大学电气工程学院，南京（210098 ） E-mail ：shjzhliuyan@ 摘要：文中给出了一种新的文本相关的说话人识别方法，它将语音声学空间进行划分，采用模糊支持向量机进行说话人识别，并提出了负隶属度概念进行类别标识。实验表明，该方法分类效果好，有较高的识别率。关键词：子空间；模糊支持向量机；说话人识别中图分类号 TP391.42 文献标识码 A 1. 引言说话人识别（speaker recognition ）是继人脸，指纹识别以后的又一生物识别技术，主要是通过对说话人语音特征参数的分析和研究，鉴定说话人的身份。目前主要的识别方法有高斯混合模型、隐马尔可夫、矢量量化等识别模型。基于结构风险最小化原则的支持向量机模式识别和非线性分类领域[1] 中表现出了很多的优势，越来越得到广泛的重视和应用，有研究表明[2,3]基于支持向量机的说话人识别也取得了比较好的效果，但是只能硬性的将每个样本点归属到某一类里，对于某些奇异点或边缘点往往无法做出正确的判决，从而出现错误分类或者某样本点同时属于多类的情况。本文基于支持向量机的说话人识别研究基础上，提出了基于子空间划分和模糊支持向量机的说话人识别算法。该算法对语音声学空间进行划分后，在每个子空间内建立模糊支持向量机进行分类识别，引入负隶属度概念，克服传统支持向量机硬分类的缺点。实验表明，相比于传统支持向量机说话人识别，该方法表征能力强，具有更好的识别率。 2. 语音声学空间划分说话人的语音由不同的音素构成，音素是语音的基本单位。不同的音素在语音声学空间中的分布不同，语音声学空间具有更精细的结构。本文主要采用无监督聚类方式对语音声学空间进行划分，将近似的信息归到同一空间，有利于增强表征说话人的某一特征的个人信息。设语音特征参数序列为x , n 1,..., N ， N 为帧数，并设子空间数为M ，则相应的聚类数 n 为M 。子空间划分的具体步骤为：（1）从 x , n 1,..., N 中随机选取 M 个语音帧参数作为初始聚类中心，即得到 n Cm , m 1,..., M ；（2 ）计算各语音帧参数到各类中心的加权欧氏距离 I D ∑w (x =−c )2 nm i ni mi i 1 其中 D 为第n 帧参数到第m 类中心的距离， w 为语音特征参数维的权重,采用 i nm i sigmod 函数确定权重; （3 ）根据各帧参数到各类中心的距离，重新将数据归类；（4 ）根据以下公式重新计算类中心 - 1 - N 1 m Cm ∑xn N m n 1 其中x , n 1,..., N 为所有归类于第m 类的参数帧； n m （5 ）根据以下条件进行判断，若满足则结束，否则转到步骤2 继续循环： ① 新旧