语音识别64年大突破
今年10月底,微软宣布语音识别实现了历史性突破,词错率仅 5.9%,英语的语音转录达到专业速录员水平,微软的此次突破是机器的识别能力在英语水平上第一次超越人类。微软的这条消息发布之后在业内引起了极大的关注。语音识别一直是国内外许多科技公司重点发展的技术之一,百度首席科学家吴恩达就发推特恭贺微软在英语语音识别上的突破,同时也回忆起一年前百度在汉语语音识别上的突破,其Deep Speech 2 的短语识别的词错率已经降到了3.7%,Deep Speech 2 转录某些语音的能力基本上是超人级的,能够比普通话母语者更精确地转录较短的查询。
梦想从贝尔实验室开始
不久前,麻省理工学院(MIT)主办的知名科技期刊《麻省理工科技评论》(MIT Technology Review),评选出了“2016年十大突破技术”。《麻省理工科技评论》称,在过去的一年里,这十项技术均已到达一个里程碑式的阶段或即将到达这一阶段。而语音识别的突破就是其中的第三项。
回顾人类发展史,不难看出,随着人的不断进化,从最初通过手掌、肢体使用简单工具、传递简单信息,发展到控制发声并通过耳朵接收,形成了一个以语音为载体的快速信息传递通道和收发闭环,成为人类间最自然、最重要的信息交互手段。声波作为一种音频信号,和视频信号、无线电信号一样是,非接触方式的传播,也是人类唯一可以不借助工具就可自由掌控的一种天然“无线”资源。而且声波对接收指向性的要求更宽松,这个非常宝贵的特性会在很多场景下带来极大便利。特别是对于一些在视觉、触觉等方面存在障碍(如老年人、弱视、残障人士)或不适合(如儿童需要保护视力)的庞大特定人群,语音更是最佳的交互选择。
1946年,现代电子计算机出现后,计算机在很多事情上做得比人还好,既然如此,机器能不能懂得自然语言呢?与机器进行语音交流,让它听明白你在说什么,语音识别技术是计算机一出现,人类就开始憧憬的一大梦想。
最早提出机器智能概念的是计算机科学之父阿兰·图灵,1950年他在《思想》(Mind)杂志上发表了一篇题为“计算的机器和智能”的论文。在论文中,图灵并没有提出什么研究方法,而是提出了一种验证机器是否有智能的方法:让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器,就说明这个机器有智能了。这种方法被后人称作图灵测试。图灵其实是留下了一个问题,而非答案,但是一般认为对自然语言的机器处理可以追溯到那个时候。
科学家认为语音识别就好比“机器的听觉系统”,该技术可以让机器通过识别和理解,把语音信号转变为相应的文本或命令。1952年,贝尔研究所,Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年,英国的Denes等人研制了第一个计算机语音识别系统。
事实上,语音识别60多年的发展过程可以分成多个阶段。早期的20多年,即从20世纪50年代到70年代,是科学家们走弯路的阶段,全世界的科学家对计算机完成语音识别这类只有人才能做的事情,认为必须先让计算机理解自然语言,这就局限在人类学习语言的方式上了,也就是用电脑模拟人脑,这20多年的研究成果近乎为零。
贾里尼克的贡献
直到1970年后,统计语言学的出现才使语音识别重获新生,并取得了今天的飞凡成就。推动这个技术路线转变的关键人物是德里克·贾里尼克(Frederick Jelinek)和他领导的IBM华生实验室(T.J.Watson),开始使用统计方法。采用统计的方法,IBM将当时的语音识别率从70%提升到90%,同时语音识别的规模从几百单词上升到几万单词,这样语音识别就有了从实验室走向实际应用的可能。
《从水门事件到莫妮卡·莱温斯基》是贾里尼克在1999年ICASSP(国际声学、语言和信号处理大会)做的报告题目,因为水门事件发生的时间1972年,恰好是统计语音识别开始的时间,而因莱温斯基事件弹劾克林顿总统正好发生于当时会议的前一年。
贾里尼克在康奈尔十年磨一剑,潜心研究信息论,终于悟出了真谛。1972年,贾里尼克到IBM华生实验室做学术休假,无意中领导了语音识别实验室,两年后他在康奈尔和IBM之间选择了留在IBM。
20世纪70年代的IBM有点像90年代的微软和过去十年(施密特时代)的Google,任由杰出科学家做自己感兴趣的研究。在那种宽松的环境里,贾里尼克等人提出了统计语音识别的框架结构。
在贾里尼克之前,科学家们把语音识别问题当作人工智能和模式匹配问题,而贾里尼克将它当作通信问题,并用两个隐含马尔可夫模型(声学模型和语言模型)把语音识别概括得清清楚楚。这个框架结构至今仍对语音识别影响深远,它不仅从根本上使得语音识别有使用的可能,而且奠定了今天自然语言处理的基础。贾里尼克后来也因此当选美国工程院院士,并被Technology杂志评为20世纪100名发明家之一。
贾里尼克的前辈们在将统计的方法应用于语音识别时,遇到了两个不可逾越的障碍:缺乏计算能力强大的计算机和大量可以用于统计的机读文本语料,最后前辈们不得不选择放弃。20世纪的IBM,虽然计算机的计算能力不能和今天相比,但已可以做不少事了,贾里尼克和他的同事需要解决的问题就是如何找到大量的机读语料。好在当时有一项全球性的业务是通过电信网连接在一起的,那就是电传,IBM的科学家最初就是通过电传业务的文本开始进行研究的。
为什么当初是没有什么语音识别基础的IBM,而不是在这个领域里有很长研究时间的贝尔实验室或者卡内基-梅隆大学提出统计语音识别的处理。很多历史的偶然性背后都有着它必然的原因,因为IBM有着这样的计算能力,又有物质条件,同时聚集了一大批世界上最聪明的头脑。
基于统计的语音识别替代基于规则的前后方法交替经历了15年时间。之所以历经许久,是因为新的研究方法成熟需要很多年。
剩下的难题依旧
语音识别的独特性不仅仅是因为其成就:尽管已有成果斐然,但剩下的难题和目前已克服的一样令人生畏。
随着语音识别研究思路的变化,大规模的语音识别研究始于20世纪70年代以后,并在小词汇量、孤立词的识别方面取得了实质性的进展。20世纪80年代以后,语音识别研究的重点则逐渐转向大词汇量、非特定人连续语音识别。20世纪90年代以后,在语音识别的系统框架方面并没有什么重大突破。
但在语音识别技术的应用及产品化方面出现了很大的进展。比如,DARPA是在20世纪70年代由美国国防部远景研究计划局资助的一项计划,旨在支持语言理解系统的研究开发工作。进入90年代, DARPA计划仍在持续进行中,其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。根据DARPA资助的多次语音评测,语音识别词错误率已经是评估进步的主要指标。
我国的语音识别研究起始于1958年,由中国科学院声学研究所利用电子管电路识别10个元音。由于当时条件的限制,中国的语音识别研究工作一直处于缓慢发展阶段。直至1973年,中国科学院声学研究所开始了计算机语音识别。
进入80年代以来,随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过多年的沉寂之后重又成为研究热点。在这种形式下,国内许多单位纷纷投入到这项研究工作中去。
1986年,语音识别作为智能计算机系统研究的一个重要组成部分,被专门列为研究课题。在“863”计划的支持下,中国开始组织语音识别技术的研究,并决定了每隔两年召开一次语音识别的专题会议。
大数据与深度神经网络带来的大爆发
任何技术都有蓄能阶段和爆发阶段,语音识别技术的爆发是源于大数据,伴随互联网出现的涟漪效应和深度神经网络。涟漪效应,指互联网思维在提高核心技术表现中的作用。也有人称之为优化迭代,比如吴恩达将其称之为把研究层、产品和用户使用组合在一起,形成一个闭环的迭代优化,这是互联网思维在核心技术优化和突破所发挥作用的一种表达。通过这种方式不仅可以获取数据,还能学习经验、认识以及怎么使用等,比如说调整哪些东西让用户体验得更好。
语音识别是需要经验、数据和用户反馈共同作用来提升表现的。需要利用用户的反馈总结出一些特点。比如说用户在说话时会截断,这样你就可以通过调整一些参数来提升表现。因为语音识别不仅是数据多了,识别率提高了,还有更多的因素,比如说用户的感觉、一些关键的参数点、经验等,这些都是可以学习到的。互联网思维所带来的就像软件迭代一样,通过反馈回来的信息进行调整,这是最核心的。
在大数据时代到来后,隐马尔可夫模型出现了局限,即数据量提升时,它带来的表现提升没有深度神经网络那么大,但其实都属于统计模式识别。在语音识别发展的过程中,深度学习是同时发生的一件事,如果没有深度神经网络,但是有大数据和涟漪效应,隐马尔可夫模型也可以做到实用。深度神经网络是让其做得最好,降低了门槛,让更多的人可以加入进来。在同样具有涟漪效应的情况下,深度神经网络比之前的算法好,数据越多,深度神经网络的效果更好。还有更加重要的一点,深度神经网络只是整个统计机器模式识别理论框架中的一个环节而已,真正重要的环节是统计决策系统。
深度神经网络由Geoffrey Hinton与微软的邓力研究员最先开始做,谷歌是最早在全球范围内大规模使用深度神经网络的公司,谷歌的Voice Search也在最早开创了用互联网思维做语音识别。在这方面,科大讯飞受到谷歌的启发,迅速跟进成为国内第一个在商用系统里使用深度神经网络的公司。
语音识别技术已经发展了几十年的时间,因为大数据和深度神经网络的应用,这一领域的传统强者成了谷歌、亚马逊、苹果和微软这些美国科技巨头,但据 TechCrunch 统计,美国至少有 26 家公司在开发语音识别技术。
不过,尽管谷歌这些巨头在语音识别技术上的技术积累和先发优势让后来者似乎难望其项背,但因为一些政策和市场方面的原因,这些巨头的语音识别主要偏向于英语,这给科大讯飞、百度、搜狗等在汉语领域实现突出表现提供了机会。在国内,这些本土化产品更为用户所熟知。
从识别到感知认知
在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一,但是语料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临,大规模语料资源的积累将提到战略高度。现如今,语音识别在移动终端上的应用最为火热,语音对话机器人、语音助手、互动工具等层出不穷,许多互联网公司纷纷投入人力、物力和财力展开此方面的研究和应用,目的是通过语音交互的新颖和便利模式迅速占领客户群。
尽管视觉和语音识别在近些年来都取得了巨大的进步,但这些研究者仍然提醒说,还有很多的工作要做。
展望未来,研究者正在努力工作以确保语音识别能在更为真实生活的环境中良好地工作。这些环境包括具有很多背景噪声的地方,比如聚会场所或在高速路上驾驶的时候。他们也将关注如何更好地在多人交谈环境中将不同的说话人区分开,并且确保其能够在各种各样的声音上发挥效用,而不管说话人的年龄、口音或说话能力。
从更长远来看,研究者将会关注如何教计算机不只是转录来自人类嘴巴的声音信号,而且还要理解他们所说的话。这样就能让这项技术可以根据自己被告知的内容回答问题或采取行动。
下一个前沿是从识别走向理解,我们正在从一个人类必须理解计算机的世界迈向一个计算机必须理解我们的世界。
但是,我们也应该清醒的是,真正的人工智能仍然还在遥远的地平线上。在计算机能理解其所听到或看到的事物的真正含义之前,还需要很长时间的工作,还有很长的路要走。