近期,Meta为Quest头显v71系统引入了一个名为“音频到表情”(Audio to Expression)的SDK,它是一种AI模型,能够分析用户的语言和声音细节从而更好地驱动Avatar的面部表情。
早些时候,Meta Avatar声音驱动所采用的是Lipsync SDK,它只能使Avatar的嘴唇动起来,表现一般。现如今,“Audio to Expression”可以进一步模拟还原说话、大笑、咳嗽等表情动作,有效增强化身的感染力。
“Audio to Expression”方案不需要接入面部追踪系统,此外,它相较于Lipsync SDK的硬件开销也更少,只需消耗一小部分CPU算力以及内存。只不过它目前仍无法描绘眼球运动,因而后续仍需要引入眼动追踪。
“Audio to Expression”可以应用到Horizon Worlds、VRChat等VR社交应用当中,从而获得更加真实的体验。我们可以基于下图查看两套SDK的表现差异。