谷歌推TensorFlow 3D,将利用LiDAR及深度传感器数据带来高级AR体验
在增强现实平台ARKit和ARCore推出后,谷歌于2018年将其在此之前推出的开创性AR平台Project Tango(为我们提供了第一台带有深度传感器的智能手机)淘汰,在之后我们逐渐看到越来越多品牌在其旗舰设备中添加深度传感器相关的组件。
三星为其Galaxy Note 10和Galaxy S10 5G恢复了飞行时间(ToF)传感器,尽管它已放弃了其当前型号的传感器。谷歌也在其Pixel 4中的Project Soli对雷达进行了简短介绍。而苹果在其TrueDepth前置摄像头取得突破后,为最新的旗舰系列机型iPhone 12 Pro和iPad Pro系列产品添加了LiDAR传感器。
现在,谷歌的AI研究团队为开发人员提供了一套工具,以充分利用这些传感器生成的3D数据。
谷歌在近日向TensorFlow存储库中添加了TensorFlow 3D(TF 3D),这是一个关于3D深度学习模型的资料库,其中包括3D语义分割、3D对象检测和3D实例分割,可用于自动驾驶汽车和机器人,以及具有3D深度理解设备的移动AR体验。
“计算机视觉领域最近已开始在3D场景理解方面取得良好进展,包括用于移动设备的3D对象检测、透明对象检测的模型,但是由于能应用3D数据的可用工具和资源有限,进入该领域可能会面临挑战,”研究科学家Alireza Fathi和谷歌研究院AI研究员AI Rui Huang在官方博客中写道。 “ TF 3D提供了一组流行的运算、损失函数、数据处理工具、模型和度量,使更广泛的研究社区能够开发、培训和部署最新的3D场景理解模型。”
3D语义分割模型使应用程序能够区分一个或多个前景对象与场景背景,例如Zoom中的虚拟背景。谷歌已为YouTube应用了具有虚拟视频背景的类似技术。
3D对象检测模型(左)和3D实例分割模型(右)的输出
相比之下,“ 3D实例分割”模型将一组对象标识为单个对象,例如Snapchat镜头可以将虚拟蒙版放置在相机视图中的多个人身上。最终,“ 3D对象检测”模型通过对视图中的对象进行分类,使实例分割更进一步。感兴趣的开发人员可在GitHub上获得TF 3D库。
尽管这些功能已在标准智能手机相机中得到证明,但来自LiDAR和其他飞行时间传感器的深度数据的可用性为高级AR体验开辟了新的可能性。
即使没有3D储存库,TensorFlow也为一些不错的AR体验做出了贡献。Wannaby就利用TensorFlow为其指甲油AR试色提供帮助,Capital One也利用TensorFlow来识别汽车并在AR中叠加有关汽车的信息。
近年来,谷歌还通过TensorFlow将机器学习用于其他AR用例。在2017年,该公司发布了MobileNets存储库,用于在Google Lens中进行图像检测。 TensorFlow也是其Augmented Faces API(也适用于iOS)背后的技术,该技术将类似Snapchat的自拍滤镜引入其他移动应用程序中。
谷歌也不是第一次将深度传感器数据用于AR体验。虽然用于ARCore的深度API支持遮挡,但对于通过标准智能手机摄像头实现的移动应用而言,使虚拟内容出现在现实对象前后的这项技术与深度传感器配合起来会有更好的效果。
事实证明,机器学习对于创建高级AR体验是必不可少的。基于对AI研究的关注,谷歌在AR的未来中扮演着与苹果、Facebook、Snap以及微软一样重要的角色。