第2章--数-字-声-音.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
与一些用预先录制的声音文件实现发声的应用程序相比,TTS的发声引擎只有几MB大小,不需要大量的声音文件支持,因此可以节省很大的存储空间,并且可以朗读预先未知的任何语句。现在已经有许多应用软件应用TTS技术实现语音功能。 【例2.2】 Microsoft Office TTS功能。 Microsoft Office 2003中提供了TTS功能,可以对文本进行朗读。在Microsoft Excel 2003中,可选择菜单“工具”→“语音”→“显示语音到文本工具栏”,出现文本到语音工具栏,如图2.30所示。 图2.30 Microsoft Excel 2003中 的文本到语音工具栏 语音识别系统可分为连续的与不连续的,如果语音识别系统是连续的,用户就能正常地与系统对话;如果不是连续的,用户就需要字字停顿。显然,连续语音识别(Continuous Speech Recognition)比不连续语音识别更受欢迎,但它需要更强的处理能力。一个典型语音识别系统的实现过程如图2.31所示。 图2.31 典型语音识别系统的实现过程 预处理:包括语音信号采样,反混叠带通滤波,去除个体发音差异和设备、环境引起的噪声影响等,并涉及语音识别基元的选取和端点检测问题。 特征提取:用于提取语音中反映本质特征的声学参数,如平均能量、平均跨零率、共振峰等。 训练:在识别之前通过让讲话者多次重复语音,从原始语音样本中去除冗余信息,保留关键数据,再按照一定规则对数据加以聚类,形成模式库。 模式识别(匹配):是整个语音识别系统的核心,它根据一定规则(如某种距离测度)及专家知识(如构词规则、语法规则、语义规则等)、计算输入特征与库存模式之间的相似度(如匹配距离、似然概率),判断出输入语音的语意信息。 【例2.3】 微软公司在Microsoft Office中的语音识别技术应用。 微软公司在Microsoft Office 2003中集成了语音识别技术,安装的时候可选择语音输入功能,如图2.32所示。 图2.32 Microsoft Office 2003中的语音输入 1997年9月,IBM公司推出了ViaVoice中文连续语音识别软件系统(如图2.33所示),引起人们的极大关注。 图2.33 IBM ViaVoice语音识别软件系统 Microsoft Speech SDK是微软提供的软件开发包,提供的Speech API(SAPI)主要包含两大方面:微软的连续语音识别引擎(MCSR)及微软的语音合成(TTS)引擎等。目前的5.1版本一共可以支持3种语言的识别(英语、汉语和日语)及2种语言的合成(英语和汉语)。SAPI中还包括对于低层控制和高度适应性的直接语音管理、训练向导、事件、语法编译、资源、语音识别(SR)管理,以及TTS管理等强大的设计接口,其结构如图2.34所示。 图2.34 SAPI结构 其实CD唱片(CD-DA)上的一首首歌曲,并非我们通常理解的一个个的文件。要知道,CD唱片格式标准的确定之时,比计算机上用的CD-ROM格式(从CD-ROM开始光盘上才有文件系统)还要早,所以当初制定标准的时候当然不会考虑要让CD-ROM驱动器也能认出CD唱片。到后来,为了在计算机上更方便地使用CD音轨,就在计算机上规定:一个CD音轨为一个.cda文件,如图2.35所示。这只是一个索引信息,并不是真正包含声音的信息,所以不论CD音乐的长短,在计算机上看到的.cda文件大小都是44字节。 图2.35 CD-DA格式 (3)输出声道数 声卡所支持的声道数的增加也是声卡技术发展的重要标志之一,它决定了声卡的基本功能。通常有2声道(即立体声)、2.1声道、5.1声道等。多通道声卡是营造逼真音效环境的先决条件。 (4)合成技术 现在的声卡都支持MIDI(Musical Instrument Digital Interface)标准。MIDI是电子乐器的统一标准。声卡中一般采用两种不同的方法来还原MIDI声音。FM是一种用计算机合成音调模拟乐器曲调的技术,这种技术已经基本过时了。波表技术要比FM合成出色,因为声卡不是用计算机的声调去合成音乐,而是在一个波表(一种内部固有的实际录音选择表)中找到它需要的乐器声音。波表技术能比FM合成创作出更好、更自然的声音。 (5)兼容性 开发、生产声卡的公司很多,其中最有影响的公司是新加坡创新科技有限公司(Creative Labs. Inc.),它开发了Sound Blaster系列声卡,它是集语音与音乐于一体的多媒体音频卡,它不但具有优良稳定的硬件特性,而且还有丰富的软件。尽管目前世界各国开发了很多品牌的声卡,但大多都声明与Sound Blaster兼容,因此它已成为多媒体计算机公认的音频接口标准。当然,还有其他一些

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档