网站大量收购闲置独家精品文档,联系QQ:2885784924

基于SPCE061的语音乐音辨识研究-Read.DOC

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于SPCE061的语音乐音辨识研究-Read

基于SPCE061的语音(乐音)辨识研究 语音识别技术的基础及SPCE061简介 语音识别是机器通过识别和理解过程把语音信号转变为相应的文本文件或命令的高技术。作为专门的研究领域,语音识别又是一门交叉学科,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。语音识别经过四十多年的发展,已经显示出巨大的应用前景。 图1、语音识别系统的处理流图 在语音识别系统中, 模拟的语音信号在完成A/D转换后成为数字信号, 但时域上的语音信号很难直接用于识别, 因此我们需要从语音信号中提取语音的特征,一方面可以获得语音的本质特征, 另一方面也起到数据压缩的作用。输入的模拟语音信号首先要进行预处理,包括预滤波、采样和量化、加窗、端点检测、预加重等。语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到半音节概率的计算和半音节到字概率的计算。 目前通用的特征提取方法是基于语音帧的,即将语音信号分为有重叠的若干帧,对每一帧提取语音特征。由于语音信号频率通常不超过3400Hz,所以根据奈奎斯特定理,采用的语音库采样率为8kHz,即可满足不失真的要求。   声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大的影响。    凌阳科技公司的最新产品SPCE061,不但具有微控制器的功能,还具有DSP运算功能,可以用来进行数字语音(音乐)信号处理。SPCE061A性能 16位μ’nSP?微处理器; 工作电压:VDD为2.6~3.6V(cpu), VDDH为VDD~5.5V(I/O); CPU时钟:0.32MHz~49.152MHz ; 内置2K字SRAM; 内置32K FLASH; 可编程音频处理; 晶体振荡器; 系统处于备用状态下(时钟处于停止状态),耗电小于2μA@3.6V; 2个16位可编程定时器/计数器(可自动预置初始计数值); 2个10位DAC(数-模转换)输出通道; 32位通用可编程输入/输出端口; 14个中断源可来自定时器A / B,时基,2个外部时钟源输入,键唤醒; 具备触键唤醒的功能; 使用凌阳音频编码SACM_S240方式(2.4K位/秒),能容纳210秒的语音数据; 锁相环PLL振荡器提供系统时钟信号; 32768Hz实时时钟; 7通道10位电压模-数转换器(ADC)和单通道声音模-数转换器; 声音模-数转换器输入通道内置麦克风放大器和自动增益控制(AGC)功能; 具备串行设备接口; 具有低电压复位(LVR)功能和低电压监测(LVD)功能; 内置在线仿真电路ICE(In- Circuit Emulator)接口; 具有保密能力; 具有WatchDog功能(由具体型号决定)。 SPCE061A的结构如图1.2所示: SPCE061除了一般的微处理器功能,还有数字信号处理的功能,这是一般MCU所不具备的,它可以用于以下各个方面: 数字滤波器 (Digital Filter) 数字滤波器是一种计算处理或算法。借助于此,可以将输入的一种数字信号或序列变换为另一种序列输出。数字滤波器已被广泛地应用于数字语音、数字图像处理以及模式识别和频谱分析。 数字信号处理器(DSP,Digital Signal Processor)的作用是通过一系列数字来表示信号及其信息,并借助数字计算方法变换和处理这些信号。为了构成DSP,必须有一种部件能够快速地完成两个数值的乘法运算并将乘积累加于寄存器。“快速”意味着乘和累加(MAC,Multiply ACcumulate)较高的运算速度。若以16位数值进行乘和累加,其结果应为32位。 显然,μ’nSP?的硬件结构与其指令系统的结合足以构成DSP应用的硬件MAC单元,因而很适用于一些DSP方面的应用。 2. 数字信号的压缩编码与解码 通常,用于存储语音、图像等多种媒体信息的数字信号量非常巨大。这无论对于存储还是对于传输都是很不利的。为了节省存储空间或增强传输效率,自然使人想到将那些暂不运行的数字信号文件用某种算法进行压缩编码,待要运行时再释放还原,即解码。 3. 数字语音(音乐)信号处理 数字语音(音乐)信号处理是建立在DSP硬件基础上。通常DSP按运算的复杂程度分为定点和浮点两类,其根本区别在于数值的格式。定点DSP采用整数运算,对于大容量、低功耗的应用场合较合适;浮点DSP用于实数运算,最适宜于高性能且复杂场合的运算。μ’nSP?可用于定点DSP运算,且其成本较低,在语音处

文档评论(0)

laolao123 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档