来源:Venturebeat,编辑:大明

越来越多的研究表明,只要语料库足够大,几乎任何人的面部动作都可以与语音片段同步。

今年6月,来自三星的应用科学家详细描述了一种能够对人的头像中的眉毛,嘴巴,睫毛和脸颊进行动画处理的端到端模型。仅仅几周后,AI教育机构Udacity展示了一种系统,可以自动根据旁白音频生成讲者的演讲视频。而早在两年前,卡内基梅隆大学的研究人员就发表了一篇论文,文中描述了一种将面部动作从一个人移到另一个人头上的方法。

论文链接:

https://arxiv.org/pdf/1910.00726

在这篇(和其他一些)论文成果的基础上,本周,微软研究团队提出了一项技术,研究人员声称,这种技术可以提高由音频生成的有声谈话视频的逼真程度。

以前,类似的生成方法对音频质量的要求很高,一般需要使用中性、纯净、底噪相对很低的音频才能实现。微软研究人员表示,本次他们提供的方法可以将音频序列分解为语音内容和背景噪声,大大降低了对音频样本的质量要求,可以使用嘈杂的,甚至是“包含感情”的音频数据样本来生成视频。

“众所周知,语言一直充满变化。对于同样的话,不同的人会根据不同的上下文中使用不同的发音时间、幅度、语调等。使用语言的语音除了决定了说话的内容之外,还包含丰富的其他信息,从这些信息中可以看出说话者的情绪状态、身份(性别,年龄,种族)和性格。据我们所知,从音频表示学习的角度来看,我们提出的方法是首个提高语音表现的方法。

这个方法技术基础是可学习隐性表示的可变自动编码器(VAE)。VAE能够将输入音频序列分解为不同的表示形式,用于编码内容、情感和其他变量因素。基于输入音频,从分布中采样一系列内容表示,这些内容表示与输入的面部图像一起被送到视频生成器中,对面部进行动画化处理。

输入图像和输出视频的截图比较

研究人员使用三个数据集来对VAE进行训练和测试,分别是:

  • GRID,一个视听语料库,包含来自34个讲者的1000条语音记录;

  • CREMA-D,由来自91个不同种族人士的7442个剪辑组成。

  • LRS3,包括取自TED视频中的超过10万口语句子的数据库。

研究人员将GRID和CREMA-D输入模型中,教模型如何对语音片段进行分解和情感表示,然后使用一对定量指标:峰信噪比(PSNR)和结构相似性指数(SSIM)来衡量VAE的表现。

与基线方法在不同数据集上的性能比较

结果显示,文中的方法在处理纯正、自然的语音片段时,表现出的性能不亚于与其他所有模型。而且能够在整个情感范围内保持一致的表现,并与当前所有最新的说话人生成方法实现兼容。

论文作者表示:“我们针对变体的可学习先验方法可扩展到其他言语因素,例如身份和性别,可以作为未来工作的一部分加以探讨。” “我们通过对嘈杂的和情感的音频样本进行测试来验证模型,并表明在存在这种音频变化的情况下,我们的方法明显优于当前的最新技术。”

参考链接:

https://venturebeat.com/2019/10/07/microsofts-ai-generates-high-quality-talking-heads-from-audio/

论文链接:

https://arxiv.org/pdf/1910.00726

声明:本文来自新智元,版权归作者所有。文章内容仅代表作者独立观点,不代表安全内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。