Facebook展示如何在AR/VR场景中重建玻璃、镜面场景,将镜子带到虚拟世界
研究人员已经成功地利用基于Kinect类传感器的主动式扫描技术来重构室内场景。镜子和玻璃等反射表面是这种场景中经常出现的一种元素,而原来的研究很少能进行处理。尽管这听起来像是一个小小的遗漏,但镜子实际上对任何重建系统都是一个重大问题。一面完美的镜子可以展示出与直接观察别无二致的世界。因此,镜子基本上为“不可见”。
这种镜像几何与位于镜子背后的真实几何体重叠,并对重建造成了干扰。因此,为了避免整个场景的无效重建,将镜子重建为场景中的标准元素不仅是一个愿望,同时是一个要求。类似地,玻璃表面通常不由传感器重建,但仍应包括在重建模型之中。由于普通室内环境普遍存在镜子和玻璃,最近的场景重建方法要求用户在扫描中手动选择窗口和镜子,比如说Matterport3D。
在Facebook最新的论文中,Facebook提供的方法可以自动检测和重建场景中镜子和玻璃表面,见图1。主要的想法是,在捕捉设备上添加一个只有在摄像头面向镜子或玻璃表面时才能观察到的标签。在研究中,使用了AprilTag的镜像版本。基于对这一标签的观察,不仅能检测反射表面,同时可以稳健地估计表面的平面参数。另外,Facebook研究人员还开发了一种基于多特征的方法来检测平面镜像表面的边界。
Facebook研究人员的技术贡献主要包括:
- 一种基于AprilTag的自动方法,使用镜像版AprilTag来检测场景中平面镜子或玻璃的存在。
- 一种基于光束平差的校准方法,用于精确检测反射表面的平面,以及相对标签位置。
- 一种可以精确重建有框和无框镜子和玻璃表面边界,并且区分两种表面类型的自动方法。
- 使用定量测度和高质量渲染对该方法进行全面评估。
研究人员在搭载NVIDIA TITAN Xp GPU和Ubuntu 16.04的6核英特尔酷睿i7-5930K系统上实现了重建管道。深度图的分辨率是960×640像素;RGB图像的分辨率为是1224×1024像素。基线重建系统(深度提取,深度融合,基于双轮廓的几何提取,纹理生成但不包括SLAM)则以约37Hz的速度运行在这一配置之上。借助12个线程,能够以约70Hz的速度估算RGB图像中的AprilTag位置。用于边界提取的特征计算以约38Hz运行。边界分割优化的吞吐量是每秒约60k像素,按此计算,640×480像素的特征通道集需要约5.12秒进行分割。总的来说,从700帧重建约0.5平方米的镜面区域大约需要90秒。
研究人员在各种镜子和玻璃表面上演示了该系统,详细见图8:ground truth平面镜(a);无框镜(b-d);斜面镜(e);有框镜(f-m);镜面上有纹理的有框镜(h);略微弯曲的镜子(n);以及玻璃表面(o-r)。
图8:这是实验中采用的镜子与玻璃。a是作为ground truth平面镜;b-e是无框镜,其中e是无框斜面镜;f-m是有框镜;h是带纹理的镜子,镜面隐约可以看到印刷纹理;k是巴洛克式装饰镜,在重建时关闭了标签上的照明,这是作为被动式非发射性标签;双金属镜1是低质量的纯金属镜(即,不基于玻璃);镜子n略微弯曲,产生了一种瘦身效果;最后,o-r是了捕获玻璃表面的示例。
研究人员表示标签需要相对清晰的反射,这样AprilTag检测器才能进行检测。借助不同的模式和检测器,第三方可以将该方法扩展到光泽表面和镜面表面。另外,该技术还可以扩展到显式处理曲面的技术。
镜子和玻璃表面是日常环境的重要组成部分,但难以扫描。研究者从简单的想法开始,希望可以稳健地检测反射性平面目标,并且演示了一个可以对包含镜子和玻璃表面的场景进行稳健和精确重建的完整系统。考虑到系统可以轻松进行捕捉,这也能够采集基于学习的方法的训练数据,以用于检测反射表面。除了扫描室内场景的核心应用之外,映维网相信该系统还有更多的扩展和应用,令虚拟场景更加真实。