语音形态观测.docVIP

下载本文档

37
0
约2.85千字
约 7页
2017-09-23 发布于天津
举报
版权申诉

语音形态观测.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语音形态观测.doc

语音形态观测语音是人类思想交流的重要方式之一，现代语音分析和处理技术是现代科技的重要领域之一。语音由人体的肺及腹部提供能量（气流）引起声带或某些器官震动发出声音，发声的同时，人的喉咙、口、鼻、唇及舌参与音调的形成。中枢神经控制着以上各个器官协调运动以表达语音发出人的思想及情绪。语音信息包括了发音人思想、自身身体结构及情绪信息，了解和掌握这些信息是现代语音分析的目的。实验原理人体器官震动发出声音，由于人类个体的差异，每个人的声带和其它器官的物理结构不完全相同，所以每个人的声音都有自身的特异性。面部肌肉受中枢神经支配在发音时参与运动，所以在人在说话时不可避免的受到心理活动影响。这使得即使同一个人在不同时刻不同环境下说的同一个字其声音也不完全相同。语音观测表明，人类的语音的时域图象总体上呈现复杂的脉冲状，如图一所示。如果显示语音结构的细节，则出现在短时间内重复的类周期变化（图三曲线为汉语元音“a”的局部时域图形）。一般把这种短暂的类周期过程称为一帧，汉语的一个字和拼音文字的一个词可以由多个帧组成。一般来讲，一句话由若干词语组成，所以一句话的时域图象是许多不同形态的帧集合形成的阶段性脉冲。现代语音分析有多种方法，语音的能量和频率分析是最简单和普遍的方法之一。快速傅立叶（FFT）变换为实现这种方法提供了技术工具。但人在话语过程中，语音内容及音调都会随时间变化。从物理学上讲，这意味着语音的强度及频率随时间变化。这样，语音的频率分析就必须随时间分段进行，这在信号分析领域称为时-频分析。由前段介绍可知，人类语音一般由暂短的类周期过程集合组成，每个类周期（即每帧）的时间长度大约在20-50ms。本实验由话筒采集语音信号，信号经电子放大器放大后送入计算机由数/模转换器转换为数字信号。该数字信号经软件处理后显示在监视器上，实验中学生可选择适当的帧进行傅立叶变换。变换后得到的频谱图即为实验采集到的某个语音的频率特征谱。实验仪器实验仪器由前置放大器及数据处理用计算机组成。前置放大器面板各组件功能如图二所示。实验时将话筒插入话筒插口，用专用电缆将语音信号从输出插口引入到计算机背后的专用数/模转换插口。计算机软件操作界面如图三所示。双击桌面上“speacha”图标后即进入该画面。操作界面分为功能相似的两部分，分别对应A、B通道。其中可将A通道测量做为标准信号，将B通道信号做为与A通道的对比信号。每个通道有两个图形窗口以显示实验内容，左边图形窗口称为时域窗口，显示时域信号，右边窗口称为功能窗口，在程序进行语音采样时显示实时信号，在傅立叶变换后显示信号的频谱。处理软件最下方按钮为提示窗口，即时提供鼠标所在位置的功能或程序进行的结果各窗口及按钮功能简述如下：窗口：可分为五部分，1，左上窗口为一时域图形窗口。显示A通道采集的时域信号。2，右上窗口为称为A通道功能窗口，在采集信号时它检视A通道信号强度，在傅立叶变换后它显示信号频谱。3、4为通道B图形窗口，其功能与窗口1、2相同。5，下方为提示窗口，当鼠标在一些按钮上停留时，该窗口给出必要的操作提示。长时语音观察-开始：按下该按钮，处理软件将按一定速度等间隔采集来自话筒的信号并在A通道时域窗口显示。长时语音观察可以从整体上了解声音振动的形态，为学生提供一个感性了解语音形态的手段。语音观察-停止：按下该按钮，处理软件停止采集话筒信号，实验者可静态观察语音信号的整体特征。音频采样（A或B通道）：此按钮为帧采集命令按钮。按下此按钮后，软件监测来自话筒的信息，采集到的信号显示在对应通道的功能窗口中。但此时处理软件并没有真正记录信号，只有当输入的语音达到一定强度后，处理软件以较高速度（约10000点/S）对输入信息进行采集、记录并显示在相应通道的时域窗口。周期选择（A或B通道）：当数据采集到有效数据后采集自动停止，此时该按钮有效。按下该按钮后将鼠标在时域图上移动，可看到一条指示线显示，适时点击左键可选择分析周期，确认一帧语音。采样门限调整：在A（B）通道检视语音信号时一般会有现场杂音进入采集系统，而这些杂音并不是我们所需要的。为了防止杂音触发采集，设置了采样门限。只有当进入话筒的信息足够大，系统才会认定信息有效并开始采集。该门限的大小可以由“门限提高”“门限降低”调整。门限越高，系统认定的有效强度就越大，需要实验者发出的声音越大，抗干扰的能力也越强。门限位置已由教师事先设置好，一般不需要学生自己调整。相似性识别：软件对A、B存在的两组信号进行频率比对。在A、B两通道均有有效信息时该按钮生效。频率校准：此按钮用于对系统采样基准频率的校准。一般只允许指定教师使用，不对学生开放。存储参数：操作界面提供了图形及文档存储功能，如果学生准备将图形存储需填写相关信息。这些信息包括：