Facebook宣布正与13所大学合作开发项目,通过训练AI为AR眼镜提供更智能服务
Facebook设想了一个未来,当你戴着增强现实眼镜或其他由人工智能驱动的设备时,你将学会打鼓或做一道新菜。为了使这个未来成为现实,Facebook需要其人工智能系统通过你的眼睛来观察世界。
Facebook的首席研究科学家Kristen Grauman说道:"在这个世界上,我们会有可穿戴设备,通过在正确的时刻提供信息或帮助我们获取记忆,这些设备将使我们在日常生活中受益。”她表示,这项技术最终可以用来分析我们的活动,帮助我们找到丢失的物品,比如我们的钥匙。
这个未来还很遥远,Facebook与雷朋合作推出的智能眼镜就证明了这一点,它在今年9月亮相时并没有AR功能。实现这个未来的部分挑战是训练人工智能系统更好地理解人们拍摄的照片和视频,以便人工智能能够帮助人们记住重要信息。
Facebook表示,它与13所大学和实验室合作,招募了750人,在两年内拍摄了超过2200小时的第一视角视频。参与者居住在英国、意大利、印度、日本、沙特阿拉伯、新加坡、美国、卢旺达和哥伦比亚,他们拍摄了自己从事日常活动的视频,如运动、购物、注视宠物或园艺。他们使用了各种可穿戴设备,包括GoPro相机、Vuzix Blade智能眼镜和ZShades视频录制太阳镜。
从下个月开始,Facebook的研究人员将能够申请访问这个数据宝库。这个名为Ego4D的新项目让我们看到了一家科技公司如何改进AR、虚拟现实和机器人等技术,使它们在我们的日常生活中发挥更大的作用。
这个新项目是在Facebook的动荡时期进行的。在《华尔街日报》发表了一系列关于Facebook的内部研究表明它知道该平台的危害的报道后,这家社交网络巨头面临着来自立法者、倡导团体和公众的审查。Facebook前产品经理Frances Haugen上周在美国国会作证,讲述了她在5月离开该公司前拿走的数千页机密文件的内容。她计划在英国作证,并在不久的将来与Facebook的半独立监督委员会会面。
甚至在Haugen进行披露之前,Facebook的智能眼镜就已经引发了批评者的担忧,他们担心该设备会被用来秘密记录人们。在研究第一人称视角视频的过程中,Facebook表示它解决了隐私问题。设备佩戴者可以查看和删除他们的视频,该公司还模糊了被拍摄的旁观者的脸和车牌。
Facebook表示,作为新项目的一部分,它为研究人员创造了五个基准挑战。这些基准包括情景记忆,因此你知道在什么时候发生了什么事;预测,所以计算机知道你接下来可能会做什么;以及手和物体操作,以了解一个人在视频中正在做什么。最后两个基准是理解视频中谁说了什么,什么时候说的,以及互动中的伙伴是谁。
"这设立了一个标准,只是为了让它开始,"Grauman说道。"这通常是相当强大的,因为现在你将有一个系统的方法来评估数据。"
帮助人工智能理解第一人称视角视频可能具有挑战性,因为计算机通常会从旁观者的第三人称视角拍摄的图像中学习。当你记录自己踢足球或坐过山车时,诸如运动模糊和不同角度的镜头等挑战等问题就会出现。
Facebook表示,它正在考虑将该项目扩展到其他国家。该公司表示,视频片段的多样化很重要,因为如果AR眼镜需要帮助一个人做咖喱或洗衣服,人工智能助手需要了解这些活动在世界不同地区的差异。
Facebook还透露,视频数据集包括在九个国家的73个地点拍摄的各种活动。参与者包括不同年龄、性别和职业的人。
COVID-19的爆发也给研究带来了限制。例如,数据集中能看到的更多镜头是烹饪或手工制作等居家活动,而不是公共活动。
与Facebook合作的一些大学包括英国的布里斯托尔大学、美国的乔治亚理工大学、日本的东京大学和哥伦比亚的安第斯大学。