利用神经网音频超分辨率.docx

下载文档

101
0
约2.93千字
约 4页
2018-07-11 发布于福建
举报
版权申诉
保障服务

利用神经网音频超分辨率.docx

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

利用神经网的音频超分辨率摘要我们提出了一种基于神经网络的技术，通过将以低采样速率编码的输入转换为时域分辨率更高的高质量信号，从而提高音频信号（如语音或音乐）的质量。这相当于在类似于图像超分辨率的过程中在低分辨率信号内生成丢失的样本。在标准的语音和音乐数据集上，这种方法在2×，4×和6×放大比率的基础上优于基线。该方法在电话，压缩和文本到语音的生成中具有实际应用; 它也可以用来改善最近提出的音频生成模型的可伸缩性。1引言音频建模是信号处理和表示学习交叉的一个重要问题。近来，机器学习技术已经使音频生成（van den Oord等，2016; Mehri等，2016），语音识别（Zhang等，2017）和分类（Aytar等，2016）方面取得进展。这些近期的大部分工作都是对原始音频信号进行建模。虽然这给我们提供了最大的建模灵活性，但它也是计算上昂贵的，要求我们每秒处理> 10,000个音频样本。我们的工作为减轻这一困难迈出了一步，提出了一种从原始信号信号只包含一小部分（15 - 50%）的输入中重建高质量音频的技术。我们的技术在电话、压缩和文本到语音生成中有应用，并提出了音频生成模型的新架构。2设置和背景音频信号处理。我们将音频信号表示为函数s（t）：[0，T]→R，其中T是信号的持续时间（以秒为单位），s（t）是t的振幅。对s进行数字测量需要我们将连续函数s（t）离散化为一个向量x（t）：{1,2，...，RT}→R。我们称R为x的采样率（赫兹）。采样率可能从4 KHz（低质量电话语音）到44 Khz（高保真音乐）。在这项工作中，我们将R解释为x的分辨率; 我们的目标是通过从{1，2，...，RT}处取样的一小部分样本预测x来提高音频样本的分辨率。请注意，通过基本的信号处理理论，这相当于预测x的较高频率。带宽扩张。在音频处理领域已经研究了带宽扩展的音频上采样（Ekstrand，2002; Larsen＆Aarts，2005）。已经提出了几种基于学习的方法，包括高斯混合模型（Cheng等，1994; Park＆Kim，2000）和神经网络（Li等，2015）。这些方法通常涉及手工制作的特征，并使用相对简单的模型（例如，具有最多2-3层密集连接层的神经网络），这些模型通常是更大，更复杂系统的一部分。相比之下，我们的方法在概念上是简单的（直接对原始音频信号进行操作），可扩展的（我们的神经网络是完全卷积的并且完全前馈的），更准确，并且也是少数已经经过测试的非语音音频。3方法给定一个低分辨率信号x = {x1 / R1，... xR1 T1 / R1}，以R1的速率采样，我们的目标是重建一个具有采样频率R2的高分辨率的版本y = {y1 / R2，... yR2 T2 / R2}，且R2>R1. 例如，x可以是通过4KHz的标准电话连接发送的语音信号; y可能是一个高分辨率的16KHz重建的信号。我们使用r = R2 / R1来表示两个信号的上采样比率，在我们的工作中等于r = 2,4,6。因此，我们期望t = 1,2，...，yrt / R2≈xt/ R1。 ...，T1R1。我们通过参数为θ的神经网络参数化的函数fθ来计算y =fθ（x）。神经网络是完全卷积的，可以在任意长度的输入上运行。我们通过在例子xi，yi的大数据集上训练神经网络来确定θ。模型架构。我们在图1中给出了我们的体系结构的概述。类似于Dong等人。（2016年），我们使用立方体升采样将投入投影到高维空间。我们通过一系列B前馈下采样块传递结果。每个块执行卷积，批量归一化，并应用ReLU非线性。我们用两步来减少输入的维数，并且在每个阶段增加两个滤波器的数量。通过对称的B采样块序列从学习的特征重建图像。我们添加跳转连接，其将第i个下采样特征的张量与第（B-i）个上采样特征张量叠加;这使得我们可以在上采样过程中重新使用低分辨率特征（Isola et al。，2016）。我们还在立方上采样层和最终输出之间增加了一个加法残差连接;因此，该模型只需要改进三次近似。使用Shi等人的一维版本的子像素尺寸混洗层来执行放大。（2016）。我们训练模型是从一组较大的信号中抽取长度为6000的高分辨率和低分辨率音频片。最后，我们训练上述神经网络，以最大限度地减少高分辨率片之间的距离和重建。4实验设置。我们使用VCTK（一种流行的语音数据集）来评估我们的方法，该数据集包含来自109个不同演讲者的44小时数据 - （Mehri等人，2016）的钢琴数据集 - 包含32个公开可用的贝多芬奏鸣曲（总共约10小时） - 和MagnaTagATune，它由来自188个不同类型的大约200个小时的音乐组成。我们将每个数据集分成一个训练集和一个测试集。对于VC