想唱就唱!标贝科技高保真歌唱合成方案上线
随着AI技术的成熟,AI能力已慢慢渗透进音乐产业的诸多方面。特别是在ChatGPT爆火后,越来越多的生成式AI工具被快速推出,AI也全面展示了自身在作词、编曲、伴奏、演唱方面的创作能力。
例如,去年出现的开源AI翻唱项目Diffsvc和So-vits,从出现到发展至普通人难以辨别的地步,只用了几个月时间。今年初,谷歌也宣布开发了一款名为MusicLM的工具,可以实现从文本直接生成音乐。AI在音乐领域能发挥的作用越来越多。
歌唱合成
歌唱合成是将乐谱信息和歌词转换为歌唱语音的技术。由于音乐是流媒体,相较于语音合成,歌唱合成对作品的流畅度要求更高,需要保证作品的连续性和情感的起伏。
为了实现这一目标,歌唱合成技术需要输入更多维度的音乐标注信息,如音高、音符的时值等,同时还要求输出的歌声更有感情的变化,具有欣赏性。因此,技术实现上来说更为复杂。
随着目前AI语音技术的发展,歌唱合成技术也在不断进步,基于神经网络的歌唱合成模型已经可以按照乐谱信息合成完整的歌声。然而,合成歌声的表现力和真人演唱的录音相比仍有明显差距。
真人在唱歌时,可以根据歌词的语义,加入情绪和力度等各种细节变化,以增强歌声的感染力和表现力。而一般歌声合成软件虽然能够输出较为准确的歌声,但是因为无法理解歌词中所蕴含的语义信息,导致最终合成的歌声缺乏情感表现力。同时,由于歌曲相对于语音的变化范围更大,如何建模以合成更稳定的歌声,也是高表现力歌声合成的一大难题。
标贝科技歌唱合成方案
近日,标贝科技基于TTS4.0全新的高音质合成系统,上线高保真歌唱合成技术方案。依托于领先的深度学习技术和多情感风格大语言模型,让AI模型具备真人独特的音色、歌唱技巧和情感表现力,生成的歌声更加流畅、真实、细腻,达到媲美真人的演唱效果。
标贝科技的歌声合成模型是基于神经网络的声学模型和声码器两部分组成,二者均采用了生成对抗网络的结构,来增加对歌声信息的还原度。歌声声学模型除了预测mel谱以外,也会预测基频和清音/浊音符号,这些信息和mel谱一起送入声码器来辅助波形恢复。
为了保证生成的mel谱尽可能的还原歌声声音特点,我们的声学模型在采用生成对抗训练方式之外,还使用了多尺度判别器组合的结构,从不同粒度来优化频谱细节 。
得到mel频谱后,将其与基频和清音/浊音一起送入声码器来恢复音频。同时,由于歌声的音高和发音持续时间波动较大,我们通过增大生成器和判别器的感受野来捕获更多的信息,其次引入一个额外的基于多尺度STFT(短时傅里叶变换)损失函数来,来获得更稳定和精细的波形。
目前,标贝科技歌唱合成方案可以支持用户自由填词,然后选择喜欢的音色,和预置的旋律进行智能匹配,完成歌曲合成。将操作歌曲创作的输入过程尽可能简化,并在合成效率和效果方面有了显著改善,用户一键即可体验短视频填词成曲的玩梗乐趣,适用于短视频、广告配音、社交娱乐等各种场景,并已经商业化落地。
歌唱合成推动了语音技术和音乐的进一步融合,更是拓展了音乐创作形式的多元化。帮助音乐人提高创作效率,同时也让非专业人士通过简单的操作就能拥有自己的音乐作品,极大地推动音乐的普及化和大众化。未来,随着语音技术的迭代发展,标贝科技也将持续完善产品服务能力,为客户提供更多个性化语音解决方案。