从说话人验证迁移学习至多说话人文本到语音合成,这一声音克隆技术可行吗?

摘要:论文:2019_Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis 翻译总结:只需5秒音源,这个
论文:2019_Transfer Learning from Speaker Verification toMultispeaker Text-To-Speech Synthesis 翻译总结:只需5秒音源,这个网络就能实时“克隆”你的声音 代码:Real-Time-Voice-Cloning|Real-Time-Voice-Cloning(中文) 样本:https://google.github.io/tacotron/publications/speaker_adaptation/ 摘要   我们描述了一个基于神经网络的文本到语音(TTS)合成系统,它能够以不同说话者的声音生成语音,包括那些在训练期间看不见的声音。我们的系统由三个独立训练的组件组成: 说话人编码器网络(提取说话人特征),使用独立的噪声语音数据集进行说话人验证任务的训练,从来自目标说话人几秒钟的参考语音中 生成固定维度的 嵌入向量(说话人语音特征); 基于Tacotron 2的序列到序列合成网络,其基于说话者嵌入从文本生成mel谱图; 基于自回归waveNet的声码器网络,其将mel频谱图转换成时域波形。   我们证明了所提出的模型能够将通过区分训练(discriminatively-trained)的说话人编码器学习到的说话人可变性的知识转移到多说话人TTS任务,并且能够从训练期间看不见的说话人合成自然语音。为了获得最佳的泛化性能,我们量化了在一个大而多样的说话人数据集上训练说话人编码器的重要性。最后,我们证明了随机采样的说话人嵌入可以用于合成不同于训练中使用的新说话人的语音,这表明该模型已经学习到了高质量的说话人表示。 1 引言 2多说话人语音合成模型 我们的系统由三个独立训练的神经网络组成,如图1所示: (1) 基于[22]的语音特征编码器,提取说话者的声音特征信息。将说话者的语音嵌入编码为固定维度的向量,该向量表示了说话者的声音潜在特征。 (2) 基于[15]的序列到序列的映射合成网络,基于Tacotron 2的映射网络,通过文本和语音特征编码器得到的向量来生成log mel spectrogram(梅尔谱图将谱图的频率标度Hz取对数,转换为梅尔标度,使得人耳对声音的敏感度与梅尔标度承线性正相关关系) (3) 自回归WaveNet [19]的自回归语音合成网络,将梅尔频谱图(谱域)转化为时间序列声音波形图(时域),完成语音的合成。   需要注意的是,这三部分网络都是独立训练的,声音编码器网络主要对序列映射网络起到条件监督作用,保证生成的语音具有说话者的独特声音特征。 图1 模型概述。三个部分都是独立训练的 2.1 声音特征编码器   编码器主要将 目标说话人的参考语音 嵌入编码到固定维度的向量空间,并以此为监督,使映射合成网络能生成具有相应特征的梅尔频谱。编码器的关键作用在于相似性度量,对于同一说话者的不同语音,其在嵌入向量空间中的向量距离(余弦夹角)应该尽可能小,而对不同说话者应该尽可能大。此外,编码器还应具有抗噪能力和鲁棒性,能够不受具体语音内容和背景噪声的影响,提取出说话者声音的潜在特征信息。我们发现 在与文本无关的说话人验证任务上训练的说话人辨别模型满足这些要求,因此可以进行迁移学习。   我们遵循[22],他们 提出了一个高度可扩展并且准确的说话人验证网络框架。该网络可以从任意长度的语音中计算出对数梅尔谱图帧序列,从而映射到固定维嵌入向量,称为d-vector[20,9]。该网络使用广义端到端说话人验证损失训练,使得来自同一说话人的话语的embedding具有高余弦相似性,而来自不同说话人的话语的嵌入在嵌入空间中相距很远。训练数据集由 分割成1.6秒的语音示例和相关的说话者身份标签 组成。   编码器的输入是40通道数的 log-mel spectrograms,网络结构主要由3层 256个单元的LSTM 构成。最后一层是全连接层,全连接层输出经过L2正则化处理后,即得到整个序列的嵌入向量表示。实际推理时,任意长度的输入语音信号都会被800ms的窗口分割为多段,重叠50%,每段得到一个输出,该网络在每个窗口上独立运行,输出被平均和归一化以创建最终的嵌入向量。   虽然网络没有直接优化以学习捕获与合成相关的说话人特征的表示,但我们发现 说话人辨别任务训练的模型 生成的embedding适用于根据说话人身份 调节合成网络。 2.2 序列到序列的映射合成网络   我们使用 注意力Tacotron 2架构[15]扩展了循环序列到序列,以支持类似于[8]方案的多说话人。目标说话人的嵌入向量在每个时间步长与合成器编码器输出连接。
阅读全文