AI最前线：一张照片一段音频，完美生成头像演讲视频

来源：Venturebeat，编辑：大明

越来越多的研究表明，只要语料库足够大，几乎任何人的面部动作都可以与语音片段同步。

今年6月，来自三星的应用科学家详细描述了一种能够对人的头像中的眉毛，嘴巴，睫毛和脸颊进行动画处理的端到端模型。仅仅几周后，AI教育机构Udacity展示了一种系统，可以自动根据旁白音频生成讲者的演讲视频。而早在两年前，卡内基梅隆大学的研究人员就发表了一篇论文，文中描述了一种将面部动作从一个人移到另一个人头上的方法。

论文链接：

https://arxiv.org/pdf/1910.00726

在这篇（和其他一些）论文成果的基础上，本周，微软研究团队提出了一项技术，研究人员声称，这种技术可以提高由音频生成的有声谈话视频的逼真程度。

以前，类似的生成方法对音频质量的要求很高，一般需要使用中性、纯净、底噪相对很低的音频才能实现。微软研究人员表示，本次他们提供的方法可以将音频序列分解为语音内容和背景噪声，大大降低了对音频样本的质量要求，可以使用嘈杂的，甚至是“包含感情”的音频数据样本来生成视频。

“众所周知，语言一直充满变化。对于同样的话，不同的人会根据不同的上下文中使用不同的发音时间、幅度、语调等。使用语言的语音除了决定了说话的内容之外，还包含丰富的其他信息，从这些信息中可以看出说话者的情绪状态、身份（性别，年龄，种族）和性格。据我们所知，从音频表示学习的角度来看，我们提出的方法是首个提高语音表现的方法。”

这个方法技术基础是可学习隐性表示的可变自动编码器（VAE）。VAE能够将输入音频序列分解为不同的表示形式，用于编码内容、情感和其他变量因素。基于输入音频，从分布中采样一系列内容表示，这些内容表示与输入的面部图像一起被送到视频生成器中，对面部进行动画化处理。

输入图像和输出视频的截图比较

研究人员使用三个数据集来对VAE进行训练和测试，分别是：

GRID，一个视听语料库，包含来自34个讲者的1000条语音记录；
CREMA-D，由来自91个不同种族人士的7442个剪辑组成。
LRS3，包括取自TED视频中的超过10万口语句子的数据库。

研究人员将GRID和CREMA-D输入模型中，教模型如何对语音片段进行分解和情感表示，然后使用一对定量指标：峰信噪比（PSNR）和结构相似性指数（SSIM）来衡量VAE的表现。

与基线方法在不同数据集上的性能比较

结果显示，文中的方法在处理纯正、自然的语音片段时，表现出的性能不亚于与其他所有模型。而且能够在整个情感范围内保持一致的表现，并与当前所有最新的说话人生成方法实现兼容。

论文作者表示：“我们针对变体的可学习先验方法可扩展到其他言语因素，例如身份和性别，可以作为未来工作的一部分加以探讨。” “我们通过对嘈杂的和情感的音频样本进行测试来验证模型，并表明在存在这种音频变化的情况下，我们的方法明显优于当前的最新技术。”

参考链接：

https://venturebeat.com/2019/10/07/microsofts-ai-generates-high-quality-talking-heads-from-audio/

论文链接：

https://arxiv.org/pdf/1910.00726

声明：本文来自新智元，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

AI最前线：一张照片一段音频，完美生成头像演讲视频

德法院驳回针对Meta AI用户数据训练的禁令申请

网络安全大模型测试指标体系设计思路

沙特《AI智能体：技术及其国家应用》报告解读