第2章--数-字-声-音.pptVIP

下载本文档

3
0
约1.77万字
约 68页
2019-02-23 发布于北京
举报
版权申诉

第2章--数-字-声-音.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

与一些用预先录制的声音文件实现发声的应用程序相比，TTS的发声引擎只有几MB大小，不需要大量的声音文件支持，因此可以节省很大的存储空间，并且可以朗读预先未知的任何语句。现在已经有许多应用软件应用TTS技术实现语音功能。【例2.2】 Microsoft Office TTS功能。 Microsoft Office 2003中提供了TTS功能，可以对文本进行朗读。在Microsoft Excel 2003中，可选择菜单“工具”→“语音”→“显示语音到文本工具栏”，出现文本到语音工具栏，如图2.30所示。图2.30 Microsoft Excel 2003中的文本到语音工具栏语音识别系统可分为连续的与不连续的，如果语音识别系统是连续的，用户就能正常地与系统对话；如果不是连续的，用户就需要字字停顿。显然，连续语音识别（Continuous Speech Recognition）比不连续语音识别更受欢迎，但它需要更强的处理能力。一个典型语音识别系统的实现过程如图2.31所示。图2.31 典型语音识别系统的实现过程预处理：包括语音信号采样，反混叠带通滤波，去除个体发音差异和设备、环境引起的噪声影响等，并涉及语音识别基元的选取和端点检测问题。特征提取：用于提取语音中反映本质特征的声学参数，如平均能量、平均跨零率、共振峰等。训练：在识别之前通过让讲话者多次重复语音，从原始语音样本中去除冗余信息，保留关键数据，再按照一定规则对数据加以聚类，形成模式库。模式识别（匹配）：是整个语音识别系统的核心，它根据一定规则（如某种距离测度）及专家知识（如构词规则、语法规则、语义规则等）、计算输入特征与库存模式之间的相似度（如匹配距离、似然概率），判断出输入语音的语意信息。【例2.3】微软公司在Microsoft Office中的语音识别技术应用。微软公司在Microsoft Office 2003中集成了语音识别技术，安装的时候可选择语音输入功能，如图2.32所示。图2.32 Microsoft Office 2003中的语音输入 1997年9月，IBM公司推出了ViaVoice中文连续语音识别软件系统（如图2.33所示），引起人们的极大关注。图2.33 IBM ViaVoice语音识别软件系统 Microsoft Speech SDK是微软提供的软件开发包，提供的Speech API（SAPI）主要包含两大方面：微软的连续语音识别引擎（MCSR）及微软的语音合成（TTS）引擎等。目前的5.1版本一共可以支持3种语言的识别（英语、汉语和日语）及2种语言的合成（英语和汉语）。SAPI中还包括对于低层控制和高度适应性的直接语音管理、训练向导、事件、语法编译、资源、语音识别（SR）管理，以及TTS管理等强大的设计接口，其结构如图2.34所示。图2.34 SAPI结构其实CD唱片（CD-DA）上的一首首歌曲，并非我们通常理解的一个个的文件。要知道，CD唱片格式标准的确定之时，比计算机上用的CD-ROM格式（从CD-ROM开始光盘上才有文件系统）还要早，所以当初制定标准的时候当然不会考虑要让CD-ROM驱动器也能认出CD唱片。到后来，为了在计算机上更方便地使用CD音轨，就在计算机上规定：一个CD音轨为一个.cda文件，如图2.35所示。这只是一个索引信息，并不是真正包含声音的信息，所以不论CD音乐的长短，在计算机上看到的.cda文件大小都是44字节。图2.35 CD-DA格式（3）输出声道数声卡所支持的声道数的增加也是声卡技术发展的重要标志之一，它决定了声卡的基本功能。通常有2声道（即立体声）、2.1声道、5.1声道等。多通道声卡是营造逼真音效环境的先决条件。（4）合成技术现在的声卡都支持MIDI（Musical Instrument Digital Interface）标准。MIDI是电子乐器的统一标准。声卡中一般采用两种不同的方法来还原MIDI声音。FM是一种用计算机合成音调模拟乐器曲调的技术，这种技术已经基本过时了。波表技术要比FM合成出色，因为声卡不是用计算机的声调去合成音乐，而是在一个波表（一种内部固有的实际录音选择表）中找到它需要的乐器声音。波表技术能比FM合成创作出更好、更自然的声音。（5）兼容性开发、生产声卡的公司很多，其中最有影响的公司是新加坡创新科技有限公司（Creative Labs. Inc.），它开发了Sound Blaster系列声卡，它是集语音与音乐于一体的多媒体音频卡，它不但具有优良稳定的硬件特性，而且还有丰富的软件。尽管目前世界各国开发了很多品牌的声卡，但大多都声明与Sound Blaster兼容，因此它已成为多媒体计算机公认的音频接口标准。当然，还有其他一些