- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于dsp的汉语数码语音识别系统
1 汉语数码语音识别技术mds
人们发出的声音实际上是具有一定能量的机器的振动波。通过某种装置把人的语音声波转换成电信号, 再将这种电信号送入计算机, 经过计算机软件的一系列处理, 就可以成为能使机器“听懂”的一串串指令, 从而让机器来完成人交给它们的各种任务。这就是语音识别技术的基本原理。汉语数码语音识别 (Mandarin Digit Speech Recognition, MDSR) 是识别“0”到“9”等10个非特定人汉语数码语音, 在电话语音拨号、工业监控、家电遥控和移动通信等领域有着极大的应用价值。
DSP即数字信号处理器, 是一种适合于进行实时数字信号处理运算的微处理器, 其主要应用是实时快速地实现各种数字信号处理, 以数字形式对信号进行采集、变换、滤波、估值、增强、压缩、识别等处理, 以得到满足不同应用需要的信号形式。
2 语音识别的实现过程
语音识别系统通常由语音输入、语音分析、识别处理和识别输出四个部分组成。其中, 语音输入部分包括前置放大器、控制放大器和模数转换器等器件, 它将语音信号变换成数字电信号;语音分析部分则通过滤波器、芯片等将数字电信号进行频率分析或动态分析, 并提取出其特征, 将语音信息转化为文字信息;识别处理部分通过计算机软件与硬件将文字信息按语法、逻辑及上下文关系生成可表达准确意思的句子;识别输出部分通过不同的器件将识别结果用各种方式输出, 以便执行各种任务, 如语音、文字或指令等。
语音识别的步骤分为两步:一是根据识别系统类型选择能满足要求的一种识别方法, 采用语音分析技术提取出语音特征参数, 称为“学习”或“训练”;二是“识别”过程, 如图1所示。
前处理技术可以提高语音高频部分的抗干扰能力, 通常情况可以采用预加重技术或自动增益控制 (AGC) 来实现。经过前处理后的语音信号要对其进行语音特征参数分析, 选择何种特征参数与采用何种识别方法有关。有关实验证明在汉语数码语音识别中MFCC参数的性能明显优于LPCC参数, 因此本文采用MFCC参数作为语音特征参数。虚线部分的功能是完成模式匹配, 即根据一定准则使未知模式与模型库中某一模型获得最佳匹配。
3 ti表现
HMM (隐马尔可夫模型) 算法自20世纪80年代被引入语音识别以来, 得到了广泛的应用, 目前已成为大多数识别系统的基本框架, 其特点是能够有效地提取时序特征。一个HMM模型可由初始概率分布π、状态转移概率矩阵A及输出概率矩阵B决定。
在HMM算法中, 可以用式 (1) 所示的前向—后向算法递推计算输出概率。定义前向变量αt(i) 和后向变量βt(i) :
at(i)=P(o1o2Lot,qt=si|λ)βt(i)=P(ot+1ot+2LOT|qt=si?λ)a1(i)=πibi(o1)1≤i≤Nαt+1(j)=[∑t=1Nαt(i)?aij]*bj(ot+1)1≤t≤T?1≤j≤NP(O|λ)=∑i=1NαT(i)βT(i)=1βt(i)=∑j=1Naijbj(ot+1)βt+1(j)t=T?1,T?2???1?1≤i≤N???????????????????????????????????????????????????????????(1)at(i)=Ρ(o1o2Lot,qt=si|λ)βt(i)=Ρ(ot+1ot+2LΟΤ|qt=si?λ)a1(i)=πibi(o1)1≤i≤Ναt+1(j)=[∑t=1Ναt(i)?aij]*bj(ot+1)1≤t≤Τ?1≤j≤ΝΡ(Ο|λ)=∑i=1ΝαΤ(i)βΤ(i)=1βt(i)=∑j=1Νaijbj(ot+1)βt+1(j)t=Τ-1,Τ-2???1?1≤i≤Ν}(1)
其中N为HMM状态数, T为语音帧数, O= (O1O2…OT) 为给定的一个观察序列, P (O|λ) 为在给定型λ条件下产生观察序列O的概率。
4 系统的基本工作流程
整个硬件系统包括三个部分:一是TMS320C5X DSP处理系统, 包括TMS320C50、程序存储器、数据存储器、模数转换电路等;二是FLASHROM及其与TMS320C50接口部分;三是MCU部分, 如图2所示。
各模块功能如下:
(1) TMS320C50采用哈佛总线结构, 通过两个独立的数据总线和程序总线, 最大限度地提高运算速度。其主要功能是接收MCU发送来的命令, 并根据其命令完成语音训练及语音识别。
(2) A/D转换器是用来完成语音信号的模/数转换。本文选用Motorola公司的PCM编解码器MC14LC5480, 此芯片集语音A/D、D/A及抗混叠滤波于一体, 性能价格比较高。
(3) EPROM是用来存放DSP程序和初始化所需的数据;RAM用于程序执行和数据的暂存。
(4) FLASH
原创力文档


文档评论(0)