2019年,MelGAN:条件波形合成的生成对抗网络,能实现吗?
摘要:论文地址:MelGAN:条件波形合成的生成对抗网络 代码地址:https:github.comdescriptincmelgan-neurips 音频实例:https:melgan-neurips.github.io 配有Me
论文地址:MelGAN:条件波形合成的生成对抗网络
代码地址:https://github.com/descriptinc/melgan-neurips
音频实例:https://melgan-neurips.github.io/
配有MelGAN解码器的音乐翻译网络:https://www.descript.com/overdub
摘要
以前的工作(Donahue等人,2018a;Engel等人,2019a)已经发现用GAN生成相干的原始音频波形是一个挑战。在本文中,我们证明了通过引入一系列结构变化和简单的训练技术,可以可靠地训练GANs以产生高质量的相干波形。主观评价指标(Mean-Opinion Score,简称MOS)表明了该方法对高质量mel谱图inversion(反推)的有效性。为了建立这些技术的通用性,我们展示了我们的模型在语音合成、音乐领域翻译和无条件音乐合成方面的定性结果。我们通过烧蚀研究来评估模型的各个组成部分,并提出一套指导方针来设计条件序列合成任务的通用鉴别器和生成器。我们的模型是非自回归的,完全卷积的,参数明显少于竞争模型,并且可以推广到看不见的说话者进行梅尔谱图反演。我们的Pytorch实现在GTX1080Ti GPU上的运行速度比实时快100倍以上,在CPU上比实时运行快2倍以上,而没有任何针对硬件的优化技巧。
1、引言
建模原始音频是一个特别具有挑战性的问题,因为数据时间分辨率很高(通常至少16000个样本每秒),并且在不同的时间尺度上存在短期和长期的依赖关系。因此,与其直接建模原始时间音频,大多数方法通常对原始时间信号更低分辨率音频建模来简化问题。通常选择这样的表示形式比原始音频更容易建模,同时保留足够的信息以允许准确地倒转回音频。在言语方面,对齐的语言特征(Van Den Oord等人,2016)和mel-spectograms (Shen等人,2018;Gibiansky等人,2017)是两种常用的中间表示。因此,音频建模通常被分解为两个阶段。
将文本转换成一种中间特征表示,然后对这种特征进行建模。
将中间表示法转换回音频。
在本研究中,我们关注的是后一阶段,并选择mel-spectogram作为中间表征。目前的mel-spectogram反演方法可以分为三类:
纯信号处理技术
自回归神经网络
非自回归神经网络
我们将在接下来的段落中描述这三种主要的研究方向。
纯信号处理方法
不同的信号处理方法已被探索,以找到一些方便的低分辨率音频表示,既可以容易地建模和有效地转换回时间音频。例如,Griffin-Lim(Griffin&Lim,1984)算法允许有效地将STFT序列解码回时域信号,代价是引入较强的机器人伪像,如Wang等人所述(2017)。目前已经研究了更复杂的表示和信号处理技术。例如,WORLD声码器(MORISE et al,2016)引入了一种中间类表示形式,专门针对基于类似于mel频谱图的特征的语音建模而设计。WORLD声码器与专用信号处理算法配对,以将中间表示映射回原始音频。 它已成功用于进行文本到语音的合成,例如在Char2Wav中,其中WORLD声码器功能通过基于注意力的递归神经网络进行建模(Sotelo等,2017; Shen等,2018; Ping 等人,2017)。 这些纯信号处理方法的主要问题在于,从中间特征到音频的映射通常会引入明显的伪像。
基于自回归神经网络的模型
WaveNet (Van Den Oord等人,2016)是一种全卷积自回归序列模型,可以根据与原始音频时间一致的语言特征生成高度真实的语音样本。它也能够产生高质量的无条件语音和音乐样本。SampleRNN (Mehri等人,2016)是一种实现无条件波形生成的替代架构,它使用多尺度递归神经网络在不同时间分辨率上显式地为原始音频建模。WaveRNN (Kalchbrenner et al., 2018)是一种基于简单的单层递归神经网络的更快的自回归模型。WaveRNN引入了各种技术,如稀疏化和子尺度生成,以进一步提高合成速度。这些方法已经在文本到语音合成(Sotelo et al., 2017; Shen et al., 2018; Ping et al., 2017)和其他音频生成任务(Engel et al., 2017)中取得了最先进的成果。不幸的是,由于音频样本必须按顺序生成,因此使用这些模型进行推理的速度天生就很慢且效率低下。因此,自回归模型通常不适合实时应用。
非自回归模型
近来,人们致力于开发非自回归模型以反转低分辨率音频表示。
