- 26
- 0
- 约8.78千字
- 约 5页
- 2016-01-24 发布于天津
- 举报
基于fpga的说话人识别系统设计
基于FPGA 的说话人识别系统设计
陈勇,李晶皎,石鑫,张莉佳
摘要:说话人识别作为一种生物识别技术,能够根据测试语音来辨别说话者的身份。本
文针对实时性问题提出了一种以FPGA(Field Programmable Gate Array)为硬件平台的解决方
案。该方案以MFCC 为语音特征,采用了基于矢量量化的说话人识别算法。系统主要包括语
音信号采集、端点检测、特征提取和识别判断4 个部分。
经测试证明,该系统完成了文本相关的说话人识别系统的基本功能。在实验室条件下,
当系统时钟为50MHz 时,完成一次4 码本系统的识别耗时15.932ms;12 码本系统的识别率
为93.3% 。
关键词:说话人识别;端点检测;MFCC;矢量量化;FPGA
Design of Speaker Recognition System Based on FPGA
Abstract :As a biometric identification technology, speaker recognition can verify the
identity according to the test voices. For real-time problem, this paper presents a solution that
makes the FPGA as the hardware platform. The system consists of four parts: Signal Acquisition,
Endpoint Detection, Feature Extraction and Identification.
The experiment results show that the time-consuming is 15.932ms on the 4 codebooks and
50MHz-clock system, the identification rate is 93.3% on the 12 codebooks system. This kind of
design improves the system’s recognition speed, which is an effective program to solve the
real-time problem.
Keywords: Speaker Recognition; VAD; MFCC; Vector Quantization; FPGA
1. 说话人识别理论基础
说话人识别的过程可以分为:语音信号预处理、特征提取和识别判断三个部分。其
中,识别判断由码本训练和识别两部分组成,原理如图1.1 所示。
训练
码本
语音信号
预处理 特征提取
计算失
识别判决
识别 真测度
图1.1 说话人识别原理图
语音信号的预处理包括采样和量化、预加重、分帧、加窗、端点检测等。预处理的目的
是去除噪声,加强有用的信息,并对输入应测量仪器或其他因素造成的退化现象进行复原。
特征提取是系统关键部分。近年来,一种能够比较充分利用人耳非线性系统感知特性的
参数得到了广泛的应用,这就是Mel 频率倒谱系数[1] 。临界频率带宽随着频率的变化而变化,
并与Mel 频率增长一致[2] 。在1000Hz 以下,大致呈线性分布,带宽为100Hz 左右;在1000Hz
以上呈对数增长,具体如式(1.1)所示。
Mel
您可能关注的文档
最近下载
- 重庆市各地方周氏支族源流(1-170支族).doc VIP
- (高清版)B-T 6003.1-2022 试验筛 技术要求和检验 第1部分:金属丝编织网试验筛.pdf VIP
- (已压缩)TUCST007-2020房屋建筑与市政基础设施工程施工安全风险评估技术标准.docx VIP
- 2026年国家公务员考试申论真题及参考答案(考生回忆版).docx VIP
- 部编版语文二年级上册期中常考七大重点题型专项训练.docx VIP
- 机器人操作系统(ROS)及仿真应用 课件全套 第1--9章 Linux Ubuntu入门基础--- 基于ROS的服务机器人应用实例.ppt
- 压疮的预防及护理技术操作考核评分标准编辑.docx VIP
- 高温超导材料在量子计算中的应用前景.docx VIP
- 铺床术操作评分标准.doc VIP
- 2025年陕西高中学业水平合格性考试历史试卷真题(含答案) .pdf VIP
原创力文档

文档评论(0)