微软展示VASA-1，通过单一肖像图和语音生成数字人视频

文章来源：VR陀螺作者：jack 发布时间：2024年04月22日点击数：次字号：小大

微软发布VASA-1，官网介绍道：只需使用单张人物肖像照片+一段语音音频，即可实时生成高仿真的数字人讲话视频，唇部动作、面部动作和头部运动都与音频内容同步，其表现高度自然协调。

微软表示，这是一个新的框架，可以在给定单张静态图像和语音音频的情况下，生成具有吸引人的视觉情感技能（VAS）的逼真的虚拟数字人说话视频。

从微软的演示来看，不仅提供具有逼真的面部和头部动态的高质量视频，而且还支持高达40 FPS的在线生成512x512尺寸视频，并且启动延迟（前期延迟仅为170ms）可以忽略不计。这项技术为与模仿人类对话行为的逼真数字人进行实时互动提供支持。

在示例中可以看到更多基于1分钟语音音频生成的视频，以及输入不同音频生成的10~15秒的视频，既可以让蒙娜丽莎唱Rap，又能让素描人像念华强台词，数字人的外观并不局限于性别、年龄、口音以及种族。

所有微软展示的VASA-1的肖像图像都是由StyleGAN2或DALL·E-3生成的虚拟的、不存在的身份（蒙娜丽莎除外）。

VASA-1能够做到实时渲染，对比目前市面上的同类产，VASA-1效果最好。考虑到相关技术的风险性，目前该模型只是作为研究预览展示，研究重点是为数字人生成提供视觉情感的积极应用，仅供微软研究团队的人员使用，并不对外开放，也没有产品以及API发布计划。

下一篇：没有了！