智能语音的“200万像素时代”:群狼环伺在争什么?
[导读]当用语音转换文字取代手动打字输入成为一种趋势,在家中对着智能音箱或者手机喊一声“嗨,xxx”成为日常,智能语音助手已经更大范围地进入到我们生活中。
本报记者 骆轶琪 深圳报道
当用语音转换文字取代手动打字输入成为一种趋势,在家中对着智能音箱或者手机喊一声“嗨,xxx”成为日常,智能语音助手已经更大范围地进入到我们生活中。
从起初的热闹到今天,语音交互不再神秘。相反随着实践的深入,一些bug也相继出现,比如需要重复唤醒,难以形成连贯逻辑,容易被“误唤醒”等。
“语音交互有一个过程,现在是到了100-200万像素的时代,但我们的手机摄像头实际上已经达到4000万像素左右,所以这个过程还是很难的。”近日,云知声董事长兼CTO梁家恩这样告诉记者。
一位业内人士则向记者表示,如何让芯片准确捕捉到声音并收纳运算,撇除周围环境音的干扰,这是基本功,也是智能语音行业最难的关键点。
从能够识别短语句到逐步识别长语句、远场语音,智能语音仍处在早期摸索的阶段。但竞争者却越来越多,除了百度、阿里等互联网巨头,OPPO、vivo等手机巨头也在成立的研究院中加入对AI的探索,智能语音助手是必不可少的研究范畴;更别说专注于AI研究的各类创业公司。
IDC中国新兴技术研究部高级研究经理卢言霞就向记者指出,相比之下,创业类公司会面临较大的经营压力,在研发投资、生态打造方面这类公司都不如大型平台。这是智能语音创业公司需要从战略层面考虑的要点。
“200万像素时代”
你是否经历过这样的情形:在跟人打着电话,突然旁边插着电的智能音箱突然跟你对话起来。
这就是典型的“误唤醒”情形,也是智能语音应用场景中常用来举例“准确率不高、不太智能”的一个代表。
AI在智能语音层面的发展时间不长却也不短。2006年,DBN(深度置信网络)被应用到神经网络中,成为深度学习网络元年,也造就了这项今天论及AI必谈的一大核心基础技术。在此基础上,应用分支之一的语音识别在随后率先发展起来。
2001年,苹果发布的iPhone 4S中搭载了语音助手Siri,让这项技术开始初步走进大众视野;2014年,亚马逊推出智能音箱Echo,使语音交互从近场推向了远场,也即把交互距离推到了五米范围内。这一年也成为前端处理技术与后端语音识别结合的元年。
随着近年来的加速推进,在学术上,这类技术的识别准确率已经达到接近99%甚至更高,但应用过程中仍存在一定差别。
梁家恩就指出,语音识别产业的应用没有那么乐观,准确率约在95%左右。在他的定义中,语音交互目前仅处在100-200万像素时代。
他向记者解释道,AI应用的落地情况与活跃数据的量级息息相关,“作为学术研究已经很充分了,但对于产业来说,必须要有上亿规模的标注量。因此研究方法也更复杂,要更针对性解决问题。最早收集的数据量是有限的。”
随着产业化需求的深入,近年来相关厂商也在多模态融合、自研芯片层面不断推进,其根本还是在完善收音准确度层面。
“语音最核心就在准确收音部分。这里难度太大了,还没有人能做得很好。因为你要更好的性能,必然要在功耗、成本和芯片大小方面平衡。”前述业内人士向21世纪经济报道记者如是分析,这是智能语音公司也要投入芯片的原因所在,否则传统的CPU根本无法带动运算。而在一定距离的远场环境下,早期应用刚开始探索时,如果不加任何前端处理技术,识别和唤醒将几乎不可用。
卢言霞也告诉记者,语义理解有很大的技术门槛,这在全球都一样。“早期是发展短语音识别,或者家居场景的唤醒、查询。但现在的技术并不足以支撑完整句子的语义理解。”她认为,真正实现对话还有很长一段路要走。
从这个层面来看,学界正热烈探讨的深度学习模型面临“瓶颈”这一问题,对于AI应用来说还远远触不到。
梁家恩也表示,人脑存在复杂的认知机制,但深度学习最擅长解决的是从序列到序列的映射,“比如输入一个内容,我提供很多样本,AI可以把关联关系建立起来,这是它擅长的。但语义不是简单的一对一映射问题,还得有背景知识,否则就不能准确理解。”到目前科学家也没有解决这些问题,所以未来的研究还有很长的路要走。
群雄对战“语音”校场
应用诉求的爆发,催生了诸多不同背景的厂商相继进场搏杀。
不止互联网巨头在智能音箱的投入,各类智能硬件公司也在铺设自己的AI团队,智能语音技术是其中必不可少的一部分。比如OPPO近期正式运用到新系列手机中的breeno,vivo去年搭载的Jovi,都是刚推出商用不久的智能语音助手。
前述业内人士向记者分析,“语音和图像识别本质都属于对结构化数据的分析。深度神经网络最主要的特点,就是标注结构化数据。至于为什么突然觉得大家都开始做语音识别,是因为Arm(半导体知识产权提供商)开源了最新的相关算法,降低了语音识别的门槛。”
参与者越来越多,会让这个市场变得更拥挤吗?卢言霞认为,从纯语音技术角度看,AI创业公司的压力不言而喻。因此包括思必驰和云知声在内的厂商,分别从各自原本擅长的智能家居和汽车后装、医疗和教育,延伸到企业级服务和芯片业务开展等方面。相比之下,如百度、阿里等平台类厂商,在研发投资、市场资源和生态建设方面都更具备优势,这些平台之间比拼的则是接入设备数量和相关生态的打造。
不过梁家恩有自己的评估。他向21世纪经济报道记者表示,类似情况曾在2000年左右发生过一次,即大部分手机厂商都组建了自己的语音团队,但后来发现并没有解决太多实际问题,“自己养一个团队还不如引入市场上标准化的产品”。
“语音交互技术还在演进阶段,出现这种现象很正常。等技术落地验证通了,巨头肯定会围绕主营业务中的关键环节自己进行投入。”梁家恩分析道。
技术层面的改变也将到来。比如5G时代,对于边缘计算有了更大诉求之后,IT架构设计、运算方式也将随之改变。
为此,梁家恩向记者分析道,“我们的判断是,必须要考虑边缘计算或者边缘智能是很重要的因素所在,这也是芯片业务重要的原因。边缘会要有一些处理能力,真正需要云端服务的时候再联网上云。这种模式我觉得是未来的必然趋势。” (编辑:张伟贤)