云知声CEO黄伟:全栈技能与平衡艺术
「下周就能看到封装好的芯片了。」在云知声位于冠捷大厦办公室接受采访的 CEO 黄伟,难掩内心的喜悦。
这是国内首枚面向 AIoT (AI+IoT)的 AI 芯片(UniOne),指令集和微架构均由云知声自研,拥有全新的芯片结构。
「三年了,我们花费的精力和时间不比这些公司(寒武纪、地平线等公司)少。」黄伟感叹道,「而且我要强调一下,这不是语音芯片,是针对深度学习进行架构设计,是对计算本身的加速,而不是算法加速。」
借由这枚芯片的流片成功,云知声也成为中国语音 AI 公司中,第一家拥有自研 AI 芯片的公司。
采访结束后不久,笔者终于见到了这枚 AI 芯片。
UniOne 量产版
芯片基于 UniOne 的 AI 指令集和 DSP 指令集,针对语音应用场景,将麦克风阵列信号处理、语音识别及语音合成结为一体。
巧合的是,就在那段时间,芯片领域又接连传来几枚重磅消息。
阿里宣布全资收购中国大陆唯一的自主嵌入式 CPU IP Core 公司——中天微系统有限公司。而在此之前,阿里达摩院就曾表示正在自研 Ali-NPU。
最近,阿里又宣布全资收购语音信号处理领域的创业公司——北京先声互联,意在布局语音专用芯片。这家公司曾为阿里、百度、小米等多家公司提供远场语音交互软硬件的解决方案,
放眼海外,亚马逊自研 AI 芯片已不是新闻。这枚芯片将用于下一代 Echo 设备,提升 Alexa 的响应时间与搜索速度。
「从 400 多人的研发团队规模来看,应该很早之前就开始做了。」黄伟说。
最近又有消息指出 Facebook 正在研发智能音箱,LeCun 甚至在社交媒体上贴出了 ASIC 与 FPGA 职位的招募信息。
面对越来越热闹的赛道,「这证明我们走的路是对的。」黄伟说。三年前,「我们想到做的时候,地平线还没有成立。我们决定搭建团队时,地平线刚成立。」
谁也逃不过漫长的研发周期,至少目前「在工业界,我们是走在前面的。」
Bring up,各项工作都完成,可以投向量产了。左一为公司物联网事业部副总裁李霄寒,右二为公司CEO黄伟
作为大多数语音交互公司演化逻辑的「云·端·芯」
国内从事语音交互的公司其实不算多,除了 BAT 巨头,比较知名的公司就是搜狗、科大讯飞、云知声、思必驰、出门问问、声智科技、蓦然认知、三角兽等公司,而且以创业公司为主。
在商业模式上,这些技术见长公司的选择逐渐趋于共性:做 B 端产品公司的技术服务商,提供软硬一体的解决方案。(做消费类硬件的出门问问和以 G 端业务为主的科大讯飞是两个比较明显的例外。)
其背后逻辑并不难理解:就尚处早期的新技术而言,其核心问题往往是「使能」(enabling technology),而这通常是一个软硬融合的问题。
历经十多年市场验证的 Mobileye 模式就是一个典型案例:算法距离应用场景非常近,而由此产生的优势就是可以针对使用场景需求研究最适合的算法框架,然后将算法框架实现在芯片方案上。在加速技术落地同时,也不断滚动数据收集,并与行业深度结合。
不过,云知声将这个内在逻辑更加形象地概括为了「云·端·芯」。
调试用的测试封装。
具体说来,语音AI公司最初会从算法团队转型为「云平台」商。
语音识别技术最关键的是先要有充足的语料积累,不光是找人去录语音,更需要用户真实的数据。尽快实现算法的云平台化,能够在短时间内、很低成本地完成大量语音数据积累。
因此,语音技术公司初创后,通常会向拥有海量用户产品开放 API,将算法云平台化,实现算法团队到云平台服务的转变。而免费+定制化收费(比如与垂直领域紧密结合的 ASR),亦即 Freemium(免费+增值)模式成为语音技术起家公司的多数选择。
2012 年,成立后短短三个月内,云知声就迅速完成了算法团队向云平台服务的转变,将基于深度学习的语音识别引擎部署到云端。并随着技术的变化,逐步扩展了自己的算法能力边界,涵盖信号处理、NLP 等。
「我们做云,不是闭门造车。而是在商业化落地过程中,结合具体场景演化云平台。」黄伟说。
借由观察到的平台数据,云知声逐渐清晰接下来的具体业务方向: 语音与非手机硬件设备的深度交互是未来的方向,IoT 产业下的语音业务大有可为。
比如一方面,平台数据显示当时比较热的手机语音助手「是一个伪命题。」用户活跃度很低,不足以支撑一个商业模式。
而另外一些应用用户量规模并不是很高,但是它的场景很明显,比方说汽车和客厅的电视。应用的运行总量也许不大,但每个用户每天消费频次非常高。
接下来,由于语音链条比较长,为了实现算法最优效果,在技术落地过程中,技术服务商也需要考虑硬件问题。
事实上,众多的语音识别厂商也都有联合芯片厂商推出自己的语音识别模组,或者推出自己的麦克风阵列方案,以提升语音识别的体验;同时,这种「Turn-Key」解决方案也更有利于传统硬件厂商快速将新的产品推向市场。
2014 年 3 月,云知声正式提出「云·端·芯」战略——即从云平台到设备语音交互,再到设备语音专用芯片与麦克风阵列的集成式解决方案。
「2014 年我们引入了高通的战略投资。这一年开始研发通用模组,2015 年投入商用。」云知声 IoT 事业部副总裁李霄寒说,他也是这枚芯片研发工作的负责人。
无论如何,「先将芯片做出来再说。」黄伟回忆道。
「云·端·芯」升级迭代的背后:长出来的需求
当大家都还停留在与通用芯片厂商合作定制自己的硬件方案时,这枚流片成功的 AIoT 芯片已经从一定程度上打破了相对稳定了几年的竞争格局。
「如果说我专注地来做一些事的话,我一定会专注地死去。」黄伟说。
但是,与从算法转型云平台商、再接着做通用模组相比,一家算法技术公司上溯至产业链上游自研芯片,已经打破了既有的市场分工,跨度不可谓不大,更何况当时国内还没有寒武纪、深鉴科技这样的芯片公司。
「四年前下这个决心,还是比较难的。」黄伟坦言。做芯片前前后后砸了几千万(如果将兼职等其他人员和时间等成本加上,可能是大几千万。)「这也是决定难做的一个重要原因。」他说,「不过,有人因为相信而看到。」
企业的核心竞争力无外乎几种:产品或服务的差异化;规模效应带来的成本优势以及网络效应。
然而,经过几年的技术发展,目前语音识别行业似乎维持着最大平衡,国内外多数公司的引擎识别率都基本在同一个水平线上,接近当前语音识别技术极限。
服务的同质化,加上多数公司业务都有不少重合(比如车载、智能家居、机器人),谁能赢得客户很大程度上成了拼商务,这也意味着,价格战甚至恶性竞争几乎无法避免,毕竟产品方更替方案的成本低。如果技术服务商的供应链砍价能力不够,自身既有方案价格反而还会高出百分之几十。
因此,现有业务的升级必须诉诸内部结构的优化。这就像谷歌一定要去做 TPU,才可能把它的 AI 服务做得特别好,同时降本并拉开差异化距离。
公司总部一角
「以前的场景,比如移动端、嵌入式端、PC 端都有各自的一些芯片体系作为支撑。」李霄寒说,
「现在, 我们面临的是 AIoT 场景,需要引入人工智能的能力。以前既有芯片产品体系无法满足当前场景的巨大要求。」
对于云知声来说,一枚 AIoT 芯片可以帮助实现技术服务的差异化,形成新的核心竞争力。随着云知声自 主 AI 芯片的落地,通过提供标准化的人机交互产品对接接口,可为合作客户提供允许在端和云两方面均可进行高度定制的解决方案。
事实上,近几年,云知声在家居、智能音箱、儿童机器人等市场已经实现百万级别的 IVM(通用芯片方案)应用,成功验证了市场、产品和用户场景的合理性。而返回的数据进一步打磨了算法,也为 ASIC 芯片的研发奠定了坚实基础。
「我们做芯片的逻辑和亚马逊差不多。」黄伟说。
不过,一个更为现实的开「芯」因素是百万级别 IVM 规模化应用,也将通用方案的弊端充分暴露出来。
本质上,通用方案是一个双芯片方案。
一方面,通用方案没有深度学习能力,而应用需要比较高的主频,比较强的计算能力芯片。另一方面,需要单独的降噪芯片去跑对实时性要求很高的降噪算法。
双芯片,再加上每一个都配备的相应外围器件,板子不仅会变大,价格也会上去。卖的越多,生产和维护成本也跟着上涨,很大程度妨碍了服务的规模化。
通用模组方案,个头比较大。
「(是原有方案价格区间)百这个量级的。」李霄寒说。也就是说,BOM 每增加一块钱,最终到用户手里边的售价就会增加 3 到 8 块钱(一般在 6 块钱左右。)如果成本增加了 100 块钱,最后售价会增加 600 块钱。
这意味着你有两个选择,要么改变当前比较低成本的产品形态,原来是 500 块钱区间,现在变成 1000 多块钱区间的。不过,用户范围马上变了。或者,只能放在相对对成本不那么敏感的高端产品上,卖一万块钱,这个是可以的。但这又大大局限了产品的应用范围。
通过把成本降下来,可以在原来可能是金字塔尖上那些产品可以为金字塔的主体所用。而在云知声看来,这才是物联网的本来意义。
重构芯片架构的专用型芯片,成为平衡这些诉求的唯一方案。据介绍,UniOne 能将当前语音 AI 的相关的能力能够充分的发挥出来。
「从前面的评测数据来讲,是绰绰有余的。可以把当前最先进的语音技术放到我们的芯片上跑,完全没问题。」李霄寒说。
至于有多么省钱,黄伟举了一个例子。
以智能音箱为例。跟声音相相关的部分,BOM 差不多在 100 快左右(看你用几个麦克风和什么芯片,基本上在 100 块左右)。有了这枚芯片,以我们主推方案为例,BOM 可以控制在 3 美金以内。就是说,以前 100 块钱做的事情,现在十几块人民币可以搞定。我们 3 美金方案做的事情是同价位通用方案的 40 倍。
UniOne : 全栈能力与平衡艺术
和已经呈现红海状态的图像和视频深度学习加速芯片领域不同,语音交互领域的芯片正处在上升期,目前玩家也比较少。
一个比较重要的原因在于,语音交互链条比较长,全栈打通的少。就此而言,这类芯片的设计,比图像和视频深度学习芯片更复杂。
云知声能将降噪、语音识别和语音合成结合到 UniOne ,离不开云知声修建的「高速公路」 Atlas,「你可以叫它云知声版本的 TensorFlow」 黄伟说。
公司将统计学习和深度学习的算法抽象出来,搭建出一个通用 ML 平台。在这条高速公路的帮助下,云知声衍生出语音识别、NLP、TTS 等技术。只需少数的人才即可完成全栈的能力,无需(实际上也不可能)为全链条的每个技能建造一支深度学习团队。
「包括我们的芯片也是从这衍生出来的。」黄伟介绍道,指令集(也是最为重要的部分)就是函数,我们将 Atlas 里面的深度学习的一些常规算法、函数硬件化了。由于 Atlas 是与硬件耦合在一起(这一点与TF不同)的,因此研发效率也高很多。
云知声 CEO 黄伟讲述公司为什么可以在人数并不多的情况下做了这么多事情。
全栈能力与研发效率固然是一方面,但是让李霄寒印象最为深刻的体验是:AI 芯片在保证高性能、高能效比的同时,兼顾灵活性和通用性。他认为,这是芯片设计中最难把握的事情之一。
「我们曾经追求过极致性能,也追求过极致功耗。但后来发现过了一定程度,超出你的需要之后,真心没那么重要。追求极致功耗很容易,但是你的成本会上来,技术挑战也会上来。」李霄寒说。
「风险加大。一旦你失败,意味着你这一年来白做了。」窗口期的时间成本,谁都浪费不起。
还有算法方面的平衡。比如,既要考虑到对算法要有一定的耦合性,这样才能最优化,又考虑到要降低它的耦合。
而且做智能家居,光有声音是不够的,未来还需要画面甚至执行能力(比如机器人)。 「我们这枚芯片还可以跑图像。」黄伟说,我们判断教育未来也应该是多模态的。
过去三年中,云知声花了很多时间在调研,而流片时间其实只有半年。
「其余时间都是利用各种工具在纸上推演。从当初许多选择,最后剩下一两个。」李霄寒说。
云知声 IoT 事业部副总裁李霄寒
「如果三年前,现在这些芯片创业公司已经存在,你们会选择与他们合作吗?」笔者不禁好奇。
「不会」李霄寒坦言。因为无法确定有限时间里,是否可以做出芯片。不过,最关键的是「不知道最后适不适合我们。」
算法本身是在演进。「这需要芯片公司对算法有深刻的了解,而且对这个算法有一个比较强的抽象能力,你对他未来的演进是有足够的信心,你才去敢为这个东西为它不变的那部分去设计芯片。」李霄寒说。而这,正是很多芯片公司比较纠结的地方。芯片公司永远不知道哪个时间点算法会稳定下来。
所谓指令集,其实就是函数。对于算法公司来说,他们几乎不可能将核心算法的源代码开放给芯片公司。然而,ASIC 存在的目的就是让深度学习发挥最大威力,如果没有深度耦合,彼此不能开诚布公,这也就失去研发这枚芯片的真正意义。黄伟补充道。
公开资料显示,UniOne 功耗与性能的设计上,通过运算单元之间的可编程互联矩阵,在保证运算效率的同时,采用多级 - 多组 - 多端口的 Memory 架构以保证片内数据 带宽的提升及降低芯片功耗。
而在架构灵活性方面,通过 Scratch-Pad 将主控 CPU 与 AI 加速器内部 RAM 相连,提供高效的 CPU 与 AI 加速器之间的数据通道,以便 CPU 对 AI 加速器运算结果进行二次处理。
另外,连接各个运算单元的可编程互联矩阵架构,提供了扩展运算指令的功能,从而进一步提升硬件架构的灵活性及可扩展性。
此外,芯片架构方面的其余探索还包括多级多模式唤醒、从能量检测到人类声音检测到唤醒词检测、针对语音设备及使用场景的定制化 Power Domain 等技术,将芯片功耗降至最低。
如果将镜头从语音交互公司身上离开,拉远至整个物联网领域的玩家,几乎所有的互联网巨头都进入到了视野。
今年 4 月,阿里高调进军物联网。作为电商和云计算巨头,阿里无疑具有成为中国版「Echo」的野心。
即将赴港 IPO 的小米也在说明书中表明所募资金的30%将用于 IoT(物联网)、生活消费产品及移动互联网服务(包括人工智能)等生态链建设。
陆奇空降百度后,DuerOS 就上升到了与 Apollo 一样的战略高度。目前,已经广泛赋能智能家居、可穿戴、车载和移动多个行业,并与小鱼在家、联想、美的的多家企业达成生态合作。
什么类型的公司会有更有胜算?是「从软到硬」的技术公司,还是「从硬到软」的玩家?还是互联网巨头?这枚 AI 芯片又能为「从软到硬」的公司赢得多大分量的胜算筹码?
「百度是先 DuerOS,然后通过投资和并购落地。我们是通过芯片模组植入设备来落地,然后同时去满足云端服务需求。」黄伟说,一个是自上而下,一个自下而上。
但是,端落地比云端复杂地多,也不具有很强的复制性,这可能不是巨头擅长的。巨头也要补足自己全栈上的短板。
不过有一点是肯定的,由于 AI 芯片的交叉学科性质,这里存在一定的技术纵深。
「一年前的技术领先可能被后来的人追赶上了,但是这个基础上,仍然有我们向前进的空间。」李霄寒说。
所以,对于创业公司也好,或者比较有实力技术公司也好,在一定时间之内,它们可以与后面的公司持续性地拉开距离,并保持这一优势。
而在黄伟看来,现阶段最重要的仍然是数据。
「假如我的芯片成本是 2 美金,给车厂卖 8 美金,6 美金里包含了我的利润,包含了软件部分。」他说,
「现阶段最重要的是让中国千万台车植入我们的芯片,所有的数据和服务内容都连接到我们的云端,这会是更大的价值。」