- 0
- 0
- 约9.93千字
- 约 4页
- 2021-01-27 发布于河北
- 举报
ISSN 1000-0054
清华大学学报 ( 自然科学版) 2000 年第 40 卷第 1 期
10/ 34
CN 11-2223/ N
J T singh ua Un iv ( Sci Tech ) , 2000, V o l. 40, N o . 1
32
34
高性能汉语数码语音识别算法*
李虎生, 刘 加, 刘润生
清华大学电子工程系, 北京 100084)
文 摘: 提出了一个高性能的汉语数码语音识别( M D SR ) 系统。M DSR 系统使用 M el 频标倒谱系数( M F CC) 作为主要的语音特征参数, 同时提取共振峰轨迹和鼻音特征以区分一些易混语音对, 并提出一个基于语音特征的实时端点检测算法, 以减少系统资源需求, 提高抗干扰能力。采用了两级识别框架来提高语音的区分能力, 其中第一级识别用于确定识别候选结果, 第二级识别用于区分易混语音对。由于采用了以上改进, M DSR 系统识别率达到了 98. 8% .
关键词: 汉语; 数码语音识别
中图分类号: T N 912. 34 文献标码: A
文章编号: 1000-0054( 2000) 01-0032-03
构成的识别系统框图如图 1 所示。
语音前端处理模块
原
始
采样特
端点检测
语
征提取
音
识
第 二级
第 一级
别
结
识 别
识 别
果
语音识别模块
图 1
MDSR系统框图
汉语数码语音识别 ( mandarin digit speech
MDSR 系统[ 1] 提取的语音特征参数包括用于
recog nition, M DSR) 是语音识别领域中一个具有
识别的参数和用于端点检测的参数。
广泛应用背景的分支, 它的任务是识别“0”到“9”等
1 语音前端处理
10 个非特定人汉语数码语音, 在电话语音拨号、工
语音前端处理包括语音特征提取和端点检测两
业监控、家电遥控等领域有着极大的应用价值[ 1] 。但
与英语数码语音识别相比, M DSR 的性能尚未达到
部分。
成熟应用水平, 这是因为 1) 汉语数码语音的混淆
1. 1 语音特征提取
程度较高; 2) 汉语是一个多方言语种, 说话人会带
1. 1. 1 基本识别参数
有或多或少的地方口音; 3) 在许多应用背景中,
目前常用的语音识别参数有基于线性预测编码
M DSR 需要在运算和存储资源都较为紧张的数字
( LPC) 的线性预测倒谱系数( LPCC) 和基于 M el 频
信号处理器( digital signal pro cessor, DSP ) 系统上
标的倒谱系数( M FCC )
[ 2]
。实验证明, 采用 M FCC
实现, 这为 M DSR 算法的设计带来了很大的限制。
参数时系统识别率高于采用 LPCC 参数。因此本文
由于以上原因, M DSR 是一项相当困难的任务。
的基本识别参数采用 M FCC 参数及一阶差分
针对汉语数码语音识别提出了一系列高性能的
M FCC 参数。
算法, 使 M DSR 识别率达到了 98. 8% 。由这些算法
1. 1. 2 共振峰轨迹
收稿日期: 1998-11-20
在M DSR 中, 易混淆语音“2”和“8”可以由其第
作者简介: 李虎生 ( 1975-) , 男 ( 汉) , 四川, 硕士研
2, 3 共振峰的变化趋势区分开[ 3] 。因此可将共振峰
究生
轨迹作为识别参数之一, 并选用峰值选取算法来提
* 基金项目: 国家自然科学基金项目( 和国家
取共振峰轨迹[ 3] 。
“八六三”高技术项目( 863- 512- 9805 -
1. 1. 3 鼻音特征参数
10)
汉语数码语音中, “0”的元音具有鼻音的特征,
李虎生, 等: 高性能汉语数码语音识别算法 33
而“0”容易与具有非鼻化元音的“6”混淆, 因此鼻音特征可用于提高“0”的识别率。鼻音的特征包括[ 4] :
鼻音在频谱低端( 约 0. 25 kHz 左右) 有 1 个较强的共振峰。
鼻音在中频段( 约 0. 8~2. 3 kHz) 的能量分布较为均匀, 没有明显的峰或谷。
采用以下 2 个参数表征鼻音的特征:
1) 低频能量比:
f n+ B
f 2
- 1 ,
R n=
∑ Fk
?
∑Fk
( 1)
k= f n- B
k= f
1
其中 f n 为鼻音低频共振峰频率, B 为鼻音低频共振峰带宽。F k 为对语音作快速 Fourior 变换( FFT ) 后第 k 个频率点的能量, [ f 1, f 2] 则为语音“6”能量集中的频带。
2) 频谱质心:
f H
f H
- 1,
Fc =
∑f k?k
?
∑f k
( 2)
k= f L
k= f
L
其中[ f L ,
您可能关注的文档
- 静态数据成员&静态函数成员.doc
- 静态路由和默认路由的配置-20080430-0-xb.doc
- 霍尼韦尔vista-120报警主机编程指南.ppt
- 风险价值var模型与算法.docx
- 频谱大数据摘要20151228.doc
- 飞利浦 philips 电话设置 手册.doc
- 飞凌嵌入式ok6410扩展口引脚定义说明.docx
- 飞电10_429数字数据总线.ppt
- 食堂工作人员配置表.doc
- 飞塔防火墙os4.0最新配置手册.ppt
- 最新人教部编版七年级下册数学3.3第2课时《折线型图象》精品课件.ppt
- 最新人教部编版五年级上册语文《“精彩极了”和“糟糕透了”》精品课件.ppt
- 最新部编人教版五年级上册语文《习作:缩写故事》精品课件.ppt
- 最新部编人教版小学一年级语文下册《一分钟》精品课件 (1).pptx
- 人教部编版七年级下册数学2.2第1课时《利用同位角判定两条直线平行》课件.ppt
- 个人商品房租赁合同.docx
- 精选房屋租赁合同集锦.docx
- ASTA证与测试报告:Fused Plug A12-0136-AC2,A12-0137-AC2技术.pdf
- 船舶设计软件SPD系统概述与优势.pdf
- 战争运营艺术–百年战争.pdf
原创力文档

文档评论(0)