计算机图像识别技术的潜在用途
仅仅一个月前百度才宣布刷新了ImageNet图像分类识别测试的机器成绩,最近几天微软亚洲研究院的最新论文就将这一纪录又带到了新的高度。这一次的突破还有里程碑的意义:在测试中,计算机系统的图像识别错误率不到5%,低于人类的5.1%水平,这是计算机首次在该测试中表现超越人类。
当然,此次突破并不意味着我们的电脑可以轻易分辨出照片上的笨狗与懒猫;很多领域中人类仍然对计算机拥有很大优势,例如区别不同种类的对象。但在相同种类、整体相似细节有差异的对象识别任务中计算机可能会有更佳表现。此外,随着研究深入、运算速度提升,将来有一天电脑会有能力做到全面接近乃至超越人类的图像识别速度及准确度。
百度曾为自己的手机词典上线了一个功能,就是拍摄任意照片,用户可以勾选照片中的物体让机器自动识别物体名称。功能上线后因为准确率极低,迅速被网友当成恶搞工具:什么把矿泉水认成伏特加,把手指当作脚趾,模型说成小动物……由于技术不成熟,这项功能现在并没有什么实用性。但当电脑的图像识别能力达到人类水平后,图像识别能大显身手的场合将远不止于这类娱乐化的应用。
最直接受益于图像识别技术进步的应用是搜索引擎。互联网上存在难以计数的庞大图像资源,而几乎所有图片都没有合适的标签注释。使用者想要搜索诸如“包含蓝天白云的照片”、“桌椅的照片”时,搜索引擎只能根据输入的关键字与图片来源的注释比对,结果只能找到数量较少的资源。而图像识别技术完善后,引擎就能够自动识别出每张图片中的物体并为其加注标签,用户搜索时的精度、自由度就会成倍提升:未来我们甚至可以输入指令要求系统找出“有一只吉娃娃狗和一辆宝马汽车”的图片来,完全不受图片上传者自己添加的标签约束。这种进步会大大方便广告、电视、传媒行业及科研领域的相关工作。
另一大将受益于图像识别技术的产业是无人驾驶交通工具,包括无人机和无人驾驶汽车。现有的自动驾驶技术对周围环境的识别仅限于物体轮廓,难以对不同种类的对象做准确分类。例如无人驾驶汽车就很难区别前方的骑车人究竟骑的是自行车还是摩托车,或者旁边道路上的白色物体是一个包装袋还是一只小猫。人类驾驶员会根据周围环境中不同的事物的行为特征来评估潜在的风险,并决定究竟是该小心前进还是一脚油门绝尘而去。如果电脑也能分辨出环境中的对象种类,就能像人类一样轻松应对复杂的情况:发现前方有只小狗在过马路,汽车当然要减速让行;可如果是一张报纸被风刮到路中间就毫无避让的理由了。即使对必需由人遥控的无人机来说图像识别技术也是非常重要的:地面上的操纵者不容易迅速观察无人机周围的所有角度,死角的部分就需要电脑辅助监视。后方有物体飘近时,系统要判断那是懂得自己回避的鸟类还是容易缠住旋翼的塑料垃圾,据此决定是否采取规避动作。当无人机需要执行监控、寻物等任务时,计算机更是要负起重任。
更加激动人心的未来则是先进图像识别技术与虚拟现实系统的结合:用户戴着类似HoloLens这样的眼镜观察四周,眼镜能够自动将视野内的物体一一分类,并自动根据使用者与周围环境的互动来判断其意图。拿起一颗螺母,眼镜自动识别出螺母尺寸,然后在旁边的一堆散落的螺丝中标注出尺寸合适的;坐在沙发上拿起游戏手柄,系统就立刻命令游戏机和电视准备就绪;从冰箱取出一盒牛奶,语音助手就发出建议说现在天气寒冷,牛奶应该热过再喝……包括智能家电也会受益于图像识别:洗衣机会在你扔进去一大团衣物时发出提醒,建议你把毛衫和牛仔裤分开洗涤;微波炉会注意到你使用的容器不适合加热,应该更换;淋浴花洒会记住男女主人习惯的水温并自动调节,等等。计算机能够像人类一样辨别周围环境时,离“人工智能”就近了一大步,也会让我们的生活得到许多便利。
图像识别将是未来科技领域几大关键产业的核心技术之一。微软、谷歌、Facebook、亚马逊、百度、腾讯等巨头都在倾注大量资源推动这项功能进步。最近的突破证实计算机完全有潜力在图像识别领域追上乃至超越人类,也让从业者的信心更加充实。随着时间推移我们会发现自己身边的计算设备越来越“聪明”,而“智能设备”这个词汇也将真正名副其实。