Facebook为VR研究基于马克点的手部追踪系统
光学动捕是目前普遍采用的高精度,高帧频动捕方法。对于可以提供高达2000Hz可靠亚毫米精确追踪的商业系统,这能够支持特效,游戏,VR/AR,可用性研究和生物力学等领域的应用。值得注意的是,实时全身动捕技术使得游戏和电影的虚拟制作应用成为可能。但当涉及到精细灵巧的手指动作时,即使是在精巧的捕获环境,目前任何商业或学术软件都无法产生类似的实时追踪结果。
图1:基于马克点的手部追踪系统,包括双手和手-物交互。Facebook演示了一种新颖的马克点标记与追踪系统,可以在包含频繁遮挡的交互场景中实现全自动的实时的手势预测。标记为左手和右手的马克点分别渲染为橙色和蓝色球体,而与预定义刚体相关联的马克点则渲染为绿色球体。
基于光学马克点的动捕是为特效,电影和游戏带来高保真人体动画的主要方式。但是,由于难以在自相似的手指上自动识别(或标记)相同的马克点,因此动捕在人手方面的应用十分有限。Facebook 提出了一种技术:将标记问题架构为有助于采用卷积神经网络的解决方案的关键点回归问题,并演示了这种标记解决方案对遮挡,重影马克点,手形,以及涉及双手或手持物体动作的稳定性。Facebook表示,该技术同样适用于稀疏或密集型标记集,并且能够实时运行以支持高保真手部追踪的交互原型和虚拟现实中的手部临在。
实时捕捉的挑战在于识别或标记类似的被动马克点。虽然标记问题可以通过主动马克点进行解决,但连线电子或笨重传感器令它们不受欢迎,而主动系统在可以同时追踪的马克点数量上有限。对基于马克点标记的全身追踪而言,一个常见解决方案是从预定义的T-pose型或A-pose开始,然后依靠高帧追踪来向前传播标记。当由于马克点遮挡,虚假反射带来的重影马克点,或者需要捕捉细微关节所需的密集马克点集而导致追踪失败时,这种解决方案将失效。对于身体运动,我们可以通过小心放置摄像头和马克点布局设计来最小化追踪错误。遗憾的是,由于手指运动的高清晰度,自相似性和小尺寸,这带来了额外的挑战。特别是,甚至在常见的姿势中也无法避免频繁的遮挡,比如说拳头。
最近的研究寻求减少手部的马克点密度,并且优化马克点布局,从而消除标记歧义并最小化对姿势重建的影响。然而,基于稀疏马克点集的方法依赖于首先产生关于手指运动的缺失信息。这特别容易受到遮挡或重影马克点的影响。虽然这可以规范化结果,但它们可能导致无响应的动画,或者对于捕捉实施操作任务而言可能不够准确。
Facebook发明的技术可以将先进的标记与追踪技术用于稀疏马克点集,以及捕捉完整手部26自由度的密集马克点集。Facebook依靠卷积神经网络(CNN)来预测由动捕系统检测到的3D马克点位置标签。值得注意的是,Facebook将问题作为2D图像上的关键点估计问题,因为CNN已经证明了其效果。为了满足对高质量ground truth的需求,Facebook在精心设计的数据增强程序中使用了合成数据进行训练。在运行时,每当需要重新初始化标记追踪的时候,CNN的输出就用于初始化标记。这种在线标签使Facebook能够实时重建手部姿势。尽管是使用合成数据来训练网络,但结果表明它很好地概括了实际数据,包括各种全新的手部比例和训练集中所缺少的活动。另外,对于与对象和环境交互中出现的遮挡和重影马克点而言(见图1),结果表明Facebook的网络十分稳定。合成数据的灵活性同时允许测试不同的马克点布局。Facebook的研究结果表明,CNN标记同时支持Alexanderson及其同事研究的类似稀疏马克点集。
尽管Facebook的马克点标记步骤不是特定于用户,但可以在运行时以交互方式校准用户的马克点配置,从而实现最高质量的追踪。捕捉引人入胜的表演,Facebook演示了实时标记和追踪系统的稳健性,如对象操纵,手手交互,跳舞,以及演奏乐器。尽管不是面向消费者,但Facebook的系统可以作为“时间机器”来研究AR/VR交互原型的可用性,从而为未来的产品提供即时反馈。另外,自然手手交互和手物交互数据可以渲染成深度图或RGB图,为解决无标记点手部追踪训练深度学习模型。
为了支持后续的研究,Facebook公开了训练数据集,以及Facebook的训练卷积神经网络。