基于SOLA的PitchScaling算法概要1.docxVIP

下载本文档

10
0
约1.08万字
约 16页
2017-07-09 发布于湖北
举报
版权申诉

基于SOLA的PitchScaling算法概要1.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于SOLA的PitchScaling算法概要1

基于SOLA的Pitch Scaling算法范钰华（上海交通大学）[摘要：]变调是音效处理的一种。变调的实现方法有很多种。本文采用一种时域处理的方法对声音实现变调处理，并将这种算法在微机上以高级语言进行实现。同时以减小时空复杂度为目的，对于原算法进行了改进。[关键字：]变调，SOLA—FS，变采样率，DFT绪论声效处理有着广泛的内容，它包括：TSM、FSM、回声处理、均衡……等等。TSM主要是改变语音的播放速度，而FSM主要是改变语音的频谱从而使音调发生变化。在将近80年的历史中，这两项技术都得到了极大的发展，这在后面的介绍中可以看到。均衡器可以用于增强或是减弱某一频段上的信号，以达到改变音色的目的。通过均衡可以把某一种令人讨厌的谐波成分减低，同时还可以避免最终的混音中各种声音之间发生冲突。回声，回旋，合唱等效果则可以通过时间延时处理来实现。这些声音处理方法将在后面的章节中一一介绍。本文的主要工作是研究如何实现对声音进行变调处理，它主要涉及到两方面的内容：time scaling和resample，time scaling部分采用了商业上运用广泛的SOLA—FS算法，resample则要借助于经典的DFT理论。此外，本文对于这一算法的时空复杂度进行了详细的讨论，并通过实验的方法对文章中的一些结论进行了检验。各种声效处理这一部分主要介绍各种声效处理的实现方法。本章的最后部分将对于历史上的各种变调算法进行回顾。首先介绍均衡处理。均衡器中使用的是滤波器电路。这种电路可以对信号中的某些部分不予理睬，而对另外的一部分进行提升或是降低。通常的滤波器主要有四种：低通滤波器，高通滤波器，带通滤波器，带阻滤波器。这里的截止频率可以是固定的，也可以是变化的。在具体应用中还有一种叫做图形均衡器的滤波器，它是将大量的带通滤波器将音频信号的频谱分成许多段，这样就可以对各个频段分别进行调整。另一种叫做参量滤波器的均衡器则可以对全频段上的每一个频率进行操作。对于均衡器，它的几个重要的参数是：频率（即对那些频段进行操作）、提升和衰减参数、此外还要考虑带宽和Q值以决定提升或衰减曲线的是陡峭还是平缓。回声处理主要运用延时的方法，具体的工作原理是这样的：首先将输入信号录制到数字化的内存中，然后经过一段短暂的时间后将其读出来，将输出信号的一部分反馈回输入端，使之再进入延时的循环中去，于是得到了一种重复的回声效果。混响（reverberation）是声音在房间中经过多次反射所产生的效果。在一个房间中，声音其实可以通过多条路径进入我们的耳朵。比如，声音可以通过天花板反射进我们的耳朵，当然，反射波本身还可以继续反射。这一系列的反射和衰减的信号就是我们所说的回响，这种音效给人以一种房间很空旷的感觉。值得一提的是，混响与通常所说的回声是不同的。回声是原始声音的一个延迟，而混响中每一个反射声音只是在很短的一段时间内到达以至于我们人耳并不察觉到这种反射是对原始声音的一种重复，但是我们仍然感觉到有反射的存在。混响的实现并不是分简单。诚然，混响是由反射波的叠加所造成的，但是简单的延时并不能够产生混响所要求的效果。因为，混响中的反射波回到发声点的所用的时间是变化的，而延时只是模拟了其中反射时间固定的一种情况。在混响中，起先会有一系列的反射波，这些反射波与房间的形状和大小，听者的位置都有关系，它们被称为早期反射（early reflections），在早期反射之后，会有大量的反射波到达，这些反射波与第一阶段的反射波相比随机性更显著，而且难以将它们和房间的物理特性相联系。这些被称为扩散回响（diffuse reverberation 或 late reflections）。有人认为这种分量反映了房间的大小。下图是对于混响效果的表示：其中竖线代表某一个反射波。混响的另一个重要的特性就是信号的自相关特性。为了使听者有一种空旷的感觉，同时到达两个耳朵的声音信号应当有一些不一致。这是因为在大的房间中，声音最先从墙壁反射过来，而不同墙壁反射回的声音的间隔不同。这在立体声回响中是一项十分重要的特性。一般情况下，我们用混响时间（reverberation time）来表示一个房间的混响特性。它被定义为声压降为初始值的1 / 1000000时所经过的时间。这个时间与房间的大小有关。以上是对于几种常用的声效处理的方法。下面，着重介绍一下时间尺度变化这一处理技术的发展过程。许多时间尺度的变化（TSM）和频率的变换（FSM）都基于以下几种方法：时域技术：这方面的主要技术通常被称为：OLA方法（即Overlap-and-Add）。频域技术：这方面的技术主要基于短时傅立叶变换（STFT）参变量技术：这种技术主要基于对声音的建模从而得出声音的一些参数，通过调整这些参数来实现TSM和FSM。近八十年以来，人们在time