这不仅仅是一项技术成果,还关乎人与人的沟通和联系。基尔默本人在一份声明中提到:
作为人类,沟通能力是我们生存的核心,喉癌的影响让其他人很难理解我。有机会以一种真实而熟悉的声音讲述我的故事,这是一份非常特别的礼物。
国内也有这样的例子。2021 年,喜马拉雅以语音合成技术让已故大师单田芳「再说」评书;2018 年,《创新中国》纪录片用 AI 复原配音大师李易的声音。
所以当你曾经在世界留下过痕迹,就无法轻易「事了拂衣去、深藏功与名」。
对于仍要谋生的名人,克隆语音倒可能是条「通天大道」。如果说 AI 换脸模型 Deepfake 让明星「出租」脸就可能赚得盆满钵满,语音模型也不相上下。
为基尔默「恢复」声音的 Sonantic 还有一项业务:为嗓子正常的演员创建声音模型。
平台先提供设置脚本,演员录制好这些脚本的表演,然后再将录制的音频输入语音引擎,用引擎训练 AI 模型。最终,当合成声音被商用,演员们躺着就能获得利润分成,无需亲力亲为,也不必担心分身乏术。
2021 年 5 月,美国 AI 技术公司 Veritone 也推出了类似的平台 Marvel.AI。这家公司认为,「对于运动员、演员和 KOL,声音是他们个人品牌的巨大资产」。
但这不免有偷懒之嫌,如果明星都不愿自己代言,消费者又凭什么为他们买单?Veritone 建议创建行业标准,比如提前告知听众是合成语音,那就是「一个愿打一个愿挨」了。
有技术和平台,名人克隆和出租声音完全可以是产业链,这也是技术跨越肉体与时空限制的一种体现。
诚然,语音克隆不是新鲜事,但它仍然需要一个越来越真实、简易的过程,远远没有抵达终点。
在我们看得到或看不到的角落,语音克隆的普及度越来越高,不只是名人、明星等少数人的游戏。
2017 年,加拿大 AI 初创公司 Lyrebird 开发了一种语音合成技术,声称他们的算法能用 1 分钟的样本音频克隆任何人的声音。
1 分钟是个了不起的数字。当年 Adobe 的 Project VoCo,至少需要 20 分钟的样本音频。
在 Lyrebird 给出的例子里,希拉里、克林顿、特朗普言笑晏晏,共同祝福 Lyrebird 有美好未来。他们的声音、语调还是和真人有些区别,机械感略重,但足够让人眼前一亮了。
Lyrebird 表示,生成声纹需要相当多的计算能力,但一旦完成这一步,制作语音很容易,创建一千个句子不到半秒。
这像是一则预言:越过真实和机械的门槛,之后便一马平川。
除了所需的样本音频更少,语音克隆也已经被内置在随手可及的创作工具中。
美国音视频编辑公司 Descript 开发了播客编辑功能「Overdu」,它可以克隆创作者的声音,创作者输入需要的单词,就能用原有声音生成新的音频,方便快速修改播客。
但它也远非完美。The Verge 记者体验后发现,一方面,为了训练 AI,需要预先录制很多音频;另一方面,生成的音频缺乏情感和抑扬顿挫,偏偏听起来确实是自己,令人心生怪异又莫名熟悉。
今年 6 月的 Amazon re:MARS 大会上,亚马逊首席科学家 Rohit Prasad 表示,亚马逊正在开发一种技术,允许智能助手 Alexa 通过不到 1 分钟的音频模仿任何人的声音。
任何人当然也包括已故亲人。亚马逊还做了一次相关演示:一个孩子对 Alexa 说要听睡前故事《绿野仙踪》,扬声器传出的声音不是常见的机械音,而是已故祖母的声音。
亚马逊没有透露 Alexa 新功能的更多细节,但底层技术已经存在了好几年。
Sonantic 曾说:「CGI(计算机生成图像)为视觉所做的,就是 Sonantic 为音频所做的。」人人拥有自己的「语音替身」,或许已经近在眼前。
毕竟,Deepfake 的政治谎言、色情内容造成了不少负面影响,也就不难想象,语音模型会被用来做些什么。如果不加防范,我们将有一个照片可以伪造、录音也并不可靠的未来。
几个月前,微软发布了新的 AI 道德规则,将严格限制谁可以创建合成声音,如何使用合成声音,并为人造声音覆盖防止滥用的「水印」。
为《星球大战》兢兢业业的 Respeecher,曾发布过一部「1969 年」的短片,片中总统宣布月球上发生大规模灾难,听起来十分「真实」,但一切都是假的。
短片在最后提醒道:「这个项目使用了一系列的技术,包括视频对话替换、语音转换系统以及更传统的视频编辑,展示了错误信息可能的样子。请核实你的信源。」