创新大屏交互之——无处不在的语音技术
再过5--10年,接近电影《Her》里的场景就会出现,你相信吗?在“创新大屏交互”系列里,雷锋网相继介绍了多点触控和体感技术,这次我们来聊一聊语音技术。
Google 2008年开始做语音搜索(Voice Search),Apple 2009年收购Siri,将语音交互推到了实用;2014年11月,亚马逊推出的家居虚拟助手设备Echo广受关注。那末,在大屏领域,语音交互出现了哪些新特点和新挑战?雷锋网采访了云知声的首席产品官李霄寒博士。来听听他的看法吧~
语音技术的发展及要素
《2014中国智能语音产业发展白皮书》显示,2014年,中国语音产业规模预计达到30.6亿元,同比增长高达81.1%;带动移动互联网、智能家电、汽车电子等相关产业规模增长超过150亿元。预计2014-2017年,应用语音技术的电视(包括机顶盒)销量将翻三倍。
资料显示,目前市场上国产智能电视的语音技术多由科大讯飞提供,2013年国产智能电视出货量约2500 万台,2014年国产智能电视出货量达到3110万台,有预测表示,讯飞到2015年将很可能拥有5000 万用户。
雷锋网了解到,关于智能电视激活量和活跃度的行业数据,大致会在3、4月份公布;李霄寒告诉雷锋网,在智能电视行业,云知声目前已经和乐视、长虹、海尔等电视厂商展开合作。
那末,是什么契机带来语音技术这样的飞速发展和广泛关注呢?
语音技术的发展:PC——手机——物联网
李霄寒告诉我们:
PC时代,由于设备计算能力的原因和人们对产品接受度的问题,语音技术并非刚需;
2005-2007年,随着移动互联网的发展和云计算的出现,语音技术开始在智能手机中应用,但语音技术依然起辅助作用;
到了近几年,随着硬件处理能力的提高和云计算的广泛使用,语音技术实现了深度神经网络上的突破,物联网化的时代到来,未来更多硬件将变得智能化,传统的交互方式更难满足用户的需求,语音的作用会越来越强。
在大屏领域,以智能电视为例,传统的遥控器阻碍了电视内容的发展,语音技术可以让大屏的交互内容更丰富,体验更自然、简洁。
语音技术在大屏幕上的应用及挑战
大屏语音交互的用户反馈
2014年,乐视超级电视售出150万台,超级电视集成了由云知声提供的智能语音交互技术,由此,李霄寒告诉雷锋网:
就乐视超级电视的用户反馈来看,智能电视对语音交互的重度请求是视频浏览;
其次,股票、天气、音乐、聊天等应用也较为活跃;
搜索功能也较为常用。
智能电视搭载语音技术的成本
乐视官网搭载语音技术的遥控器售价260元
李霄寒告诉我们,从合作厂商那里得来的数据显示,不加语音技术的传统遥控器成本大约在十几元;搭载语音技术的遥控器,涉及到添加识音麦克风,以及DSP的转换,2.4G的数据传输,因此遥控器要加一些模块,此外,电视机也要安装一些接收设备,还有一些软件开发的成本,整个方案大约有十几元成本的上升,遥控器成本在30元左右。
语音交互技术的要素及难点
李霄寒告诉雷锋网,对于语音交互而言,最重要的要素包括技术、知识库、内容等,现如今,将语音技术应用在大屏幕领域,还面临着技术及知识库等方面的挑战。
1、技术层面:与硬件整合
从音频输入的角度来讲,语音容易受到环境、人以及设备本身的影响,要掌控输入,那么进入麦克风的声音就要符合预期,这就需要硬件制造厂商的设备能够保持声源、降低噪音;与此同时,输入的音频可能存在失真的问题,云知声的技术团队就要进行适配,这方面的技术门槛很高,云知声大约用了1年的时间来解决这一问题,保证5M范围内的声音都能被准确识别和计算。
李霄寒向我们透露,3月份的时候,云知声可能会有搭载这一技术的产品发布。
2、智能化:整合产业链,形成知识库
在智能电视上,语音脱离了键盘、触屏的辅助,需要独立使用,对智能性的要求更高,语音交互体验能不能满足用户的需求,能不能在一两个回合里解决用户的问题至关重要,因为用户尝试的次数多了还未解决问题,就会放弃语音交互。
李霄寒告诉雷锋网,解决这一问题的关键还是知识库。识别用户的意图并不难,但如果受到行业壁垒的束缚,没有打通产业的上下游,导致内容提供方、电视品牌厂商、语音技术提供方之间的数据是割裂开的,就没有办法实现整合,就没有丰富的知识库,那么,语音交互也好,人工智能也罢,就无法继续往前走。
电影《Her》里的场景何日出现?
电影《Her》是一部讲述人机交互的科(ai)幻(qing)电影,片中女主角Samantha(人工智能系统)没有身体,只能发出声音。表面上看,这只是一个具有升级版的的语音助手。实际上,Samantha能够进行对话交互,具备流畅的情感流露,具备高级的搜索、计算、学习本领,营造了非常理想化的人机交互情境,相信也是不少科技宅男的居住样本。
李霄寒告诉我们,电影《Her》里出现的场景,不仅依托于全语音技术的发展,而且还需要全模式交互技术的发展。全语音技术的发展,就是上文提到的技术、内容、知识库等要素的全面发展;而全模式的交互,则是指语音技术与其他交互方式的整合。
在全模式交互这方面,2014年4月份,云知声牵头的“全智能交互联盟”成立,首批加入联盟的企业包括语义理解技术公司“哦啦”、图像识别技术公司“亮风台”、人脸识别技术公司“Face++”等,云知声CEO黄伟表示,联盟可以将语音、图像、人脸交互方案打包,给硬件厂商和开发者提供一站式交互技术超市,此项目还在研发阶段,没有阶段性进展。
说到用语音技术连接未来与现在,雷锋网认为有一款产品十分具有代表性,那就是亚马逊研发的家居虚拟助手设备Echo,Echo采用了波束形成技术,在顶部配置了7个麦克风,能够识别整个房间内各个位置的声音。并且,Echo有着出色的降噪处理,即使你在用它听音乐的时候,也能够识别出你说的话。
无处不在,将会是未来语音界面的核心属性。如果有多个设备接收到你的声音,系统软件会知道你是在跟哪个设备进行交互。
估计会有大量的企业去开发那种硬件。冰箱、台灯、桌子和其它的家居物品将整合扬声器、麦克风和网络连接,以便支持虚拟助手。
语音技术,将会无处不在。想必那时,《Her》里的场景,就相距不远了。
系列回顾:
1、创新大屏交互之——你所不知道的多点触控技术
2、让大屏爱上你的新技能,你get了吗?
3、创新大屏交互之——酷炫的体感技术