实现计算机视觉,需要的是人工加AI
近年来,计算机视觉技术发展迅速,但它往往趋于应用于某种特定的应用程序中,比如Facebook自动标记出照片中的朋友,谷歌会自动显示用户搜索类似图像。
但我们对计算机视觉技术真正的期望是,一台经过训练的相机,能够回答类似:“孩子放学回家了吗?”“公司有开放的停车场吗?”“奶茶店有多少人正在排队?”等简单的问题。
而现在,计算机还没有发达到准确理解并回答这些问题。这也是Zensors研究人员想要改变的东西。卡内基梅隆大学开发了一种项目,旨在运用人类的智慧和人工智能的巧妙结合,使得使计算机视觉更加智能。然而目前这一想法仅在概念验证阶段,它需要一个令人信服的解决方法。
人工的智能
假设你是一个奶茶店的老板,想要知道一天之内有多少顾客排队购买。那Zensors就派上用场了:只要将一部旧的智能手机安装在墙上,注册账号后,向Zensors APP发出指令,让它查询有多少顾客正在排队。接下来, Zensors会把用户指令传达给卡耐基梅隆大学的研究人员。项目的“众包”工人收到智能手机传送过来的图片,并数出照片中的人数并附上标记(这步需要收取一笔小额费用)。
处理后的图像被同时用于机器算法的学习,使机器学会自主数清排队等待的顾客人数。当人工智能训练到一定程度时,即可完全接管这项任务。人工与机器的切换无缝发生;用户甚至感觉不到差别,而他们所能体会到的是,在设置相机的几分钟中内,Zensors就会做出回答,给出一个确切的数字。
这让我们想起了2011年就出现过的联想乐助理的例子。这是一个日程应用,你对着手机说“两天之后早上十点飞北京”,它就能自动帮你安排日程,识别相当准确。但真正起作用的并不是什么人工智能算法,而是另一端有客服人员“人工”听到语音后,再安排行程。
人与机器,谁服务谁?
该方法解决了计算机视觉存在的最大问题:缺乏灵活性。计算机视觉已经取得了巨大的进步,但很多都仅应用于非常具体的情况。从技术上说, 经过人工智能训练的计算机视觉系统非常不可靠,往往无法处理陌生的环境或行为。Zensors会雇佣适量的人力使计算机熟悉某个特定的场景,他们认为这是将计算机视觉带入大众生活中的一种好方法。
这种方式比重新构建解决方案便捷地多。研究人员询问了一些程序员,开发一个常规的可以测定公共汽车是否已到达车站的计算机视觉系统的成本是多少,结论是平均3000美元。Zensors用自己的方法开发能解决类似问题的系统,如“停车场有多少辆车? 水槽有多脏?洗碗机的门开着吗?”。平均而言,只要每天让一部分人帮助处理图像,一周之内该算法就可以自主回答类似的复杂问题。按最低工资来算,训练一个传感器的成本最便宜是5美元,最贵也仅为40美元。
但这种方法似乎将人类置于机器之下,它们做不了的工作让人类来完成,而我们的初衷却是人类不愿做的就让机器来完成。这固然也是人工智能还不成熟时的权宜之计。
Zensors团队目前仍在着手构建该平台。但Zensors真正的野心远不限于回答用户提出的问题。该模型还可以把类似API的结构应用于视频中,并供其他应用程序使用。不同于iPhone中的运动传感器,他们可以将获得的数据提供给如Nike和MyFitnessPal的第三方应用,目前仍没有API可以从视频中提取数据。使用Zensors,店主可以观察每天排队人数的变化,还可以使用这些数据唤醒其他操作,比如说,当排队等待的人数超过6人时,自动开放第二个收银窗口。
“今天我们普遍将相机图像认为是一种没有多少计算意义的模拟信号。但其传递的信息是清晰的,” Wiese说。目前来说,计算机算法可能无法自助提取信息,但只要给予它们一些时间与人类的辅助,相信这也不是遥远的愿景。
via wired