创新大屏交互之——无处不在的语音技术

首页

创新大屏交互之——无处不在的语音技术

文章来源：原创作者：国庆发布时间：2015年02月22日点击数：次字号：小大

再过5--10年，接近电影《Her》里的场景就会出现，你相信吗？在“创新大屏交互”系列里，雷锋网相继介绍了多点触控和体感技术，这次我们来聊一聊语音技术。

Google 2008年开始做语音搜索(Voice Search)，Apple 2009年收购Siri，将语音交互推到了实用；2014年11月，亚马逊推出的家居虚拟助手设备Echo广受关注。那末，在大屏领域，语音交互出现了哪些新特点和新挑战？雷锋网采访了云知声的首席产品官李霄寒博士。来听听他的看法吧~

语音技术的发展及要素

《2014中国智能语音产业发展白皮书》显示，2014年，中国语音产业规模预计达到30.6亿元，同比增长高达81.1%；带动移动互联网、智能家电、汽车电子等相关产业规模增长超过150亿元。预计2014-2017年，应用语音技术的电视（包括机顶盒）销量将翻三倍。

资料显示，目前市场上国产智能电视的语音技术多由科大讯飞提供，2013年国产智能电视出货量约2500 万台，2014年国产智能电视出货量达到3110万台，有预测表示，讯飞到2015年将很可能拥有5000 万用户。

雷锋网了解到，关于智能电视激活量和活跃度的行业数据，大致会在3、4月份公布；李霄寒告诉雷锋网，在智能电视行业，云知声目前已经和乐视、长虹、海尔等电视厂商展开合作。

那末，是什么契机带来语音技术这样的飞速发展和广泛关注呢？

语音技术的发展：PC——手机——物联网

李霄寒告诉我们：

PC时代，由于设备计算能力的原因和人们对产品接受度的问题，语音技术并非刚需；

2005-2007年，随着移动互联网的发展和云计算的出现，语音技术开始在智能手机中应用，但语音技术依然起辅助作用；

到了近几年，随着硬件处理能力的提高和云计算的广泛使用，语音技术实现了深度神经网络上的突破，物联网化的时代到来，未来更多硬件将变得智能化，传统的交互方式更难满足用户的需求，语音的作用会越来越强。

在大屏领域，以智能电视为例，传统的遥控器阻碍了电视内容的发展，语音技术可以让大屏的交互内容更丰富，体验更自然、简洁。

语音技术在大屏幕上的应用及挑战

大屏语音交互的用户反馈

2014年，乐视超级电视售出150万台，超级电视集成了由云知声提供的智能语音交互技术，由此，李霄寒告诉雷锋网：

就乐视超级电视的用户反馈来看，智能电视对语音交互的重度请求是视频浏览；

其次，股票、天气、音乐、聊天等应用也较为活跃；

搜索功能也较为常用。

智能电视搭载语音技术的成本

乐视官网搭载语音技术的遥控器售价260元

李霄寒告诉我们，从合作厂商那里得来的数据显示，不加语音技术的传统遥控器成本大约在十几元；搭载语音技术的遥控器，涉及到添加识音麦克风，以及DSP的转换，2.4G的数据传输，因此遥控器要加一些模块，此外，电视机也要安装一些接收设备，还有一些软件开发的成本，整个方案大约有十几元成本的上升，遥控器成本在30元左右。

语音交互技术的要素及难点

李霄寒告诉雷锋网，对于语音交互而言，最重要的要素包括技术、知识库、内容等，现如今，将语音技术应用在大屏幕领域，还面临着技术及知识库等方面的挑战。

1、技术层面：与硬件整合

从音频输入的角度来讲，语音容易受到环境、人以及设备本身的影响，要掌控输入，那么进入麦克风的声音就要符合预期，这就需要硬件制造厂商的设备能够保持声源、降低噪音；与此同时，输入的音频可能存在失真的问题，云知声的技术团队就要进行适配，这方面的技术门槛很高，云知声大约用了1年的时间来解决这一问题，保证5M范围内的声音都能被准确识别和计算。

李霄寒向我们透露，3月份的时候，云知声可能会有搭载这一技术的产品发布。

2、智能化：整合产业链，形成知识库

在智能电视上，语音脱离了键盘、触屏的辅助，需要独立使用，对智能性的要求更高，语音交互体验能不能满足用户的需求，能不能在一两个回合里解决用户的问题至关重要，因为用户尝试的次数多了还未解决问题，就会放弃语音交互。

李霄寒告诉雷锋网，解决这一问题的关键还是知识库。识别用户的意图并不难，但如果受到行业壁垒的束缚，没有打通产业的上下游，导致内容提供方、电视品牌厂商、语音技术提供方之间的数据是割裂开的，就没有办法实现整合，就没有丰富的知识库，那么，语音交互也好，人工智能也罢，就无法继续往前走。

电影《Her》里的场景何日出现？

电影《Her》是一部讲述人机交互的科（ai）幻（qing）电影，片中女主角Samantha（人工智能系统）没有身体，只能发出声音。表面上看，这只是一个具有升级版的的语音助手。实际上，Samantha能够进行对话交互，具备流畅的情感流露，具备高级的搜索、计算、学习本领，营造了非常理想化的人机交互情境，相信也是不少科技宅男的居住样本。

李霄寒告诉我们，电影《Her》里出现的场景，不仅依托于全语音技术的发展，而且还需要全模式交互技术的发展。全语音技术的发展，就是上文提到的技术、内容、知识库等要素的全面发展；而全模式的交互，则是指语音技术与其他交互方式的整合。

在全模式交互这方面，2014年4月份，云知声牵头的“全智能交互联盟”成立，首批加入联盟的企业包括语义理解技术公司“哦啦”、图像识别技术公司“亮风台”、人脸识别技术公司“Face++”等，云知声CEO黄伟表示，联盟可以将语音、图像、人脸交互方案打包，给硬件厂商和开发者提供一站式交互技术超市，此项目还在研发阶段，没有阶段性进展。

说到用语音技术连接未来与现在，雷锋网认为有一款产品十分具有代表性，那就是亚马逊研发的家居虚拟助手设备Echo，Echo采用了波束形成技术，在顶部配置了7个麦克风，能够识别整个房间内各个位置的声音。并且，Echo有着出色的降噪处理，即使你在用它听音乐的时候，也能够识别出你说的话。

无处不在，将会是未来语音界面的核心属性。如果有多个设备接收到你的声音，系统软件会知道你是在跟哪个设备进行交互。

估计会有大量的企业去开发那种硬件。冰箱、台灯、桌子和其它的家居物品将整合扬声器、麦克风和网络连接，以便支持虚拟助手。

语音技术，将会无处不在。想必那时，《Her》里的场景，就相距不远了。

系列回顾：

1、创新大屏交互之——你所不知道的多点触控技术

2、让大屏爱上你的新技能，你get了吗？

3、创新大屏交互之——酷炫的体感技术

上一篇：Intel力挺，低价PC市场或面临爆发[ 02-21 ]

下一篇：发完了红包，微信就该洗洗睡了？[ 02-22 ]

所有资讯新闻分类

最新动态行业动态

产品动态厂商动态

技术应用行业案例

论文文献行业词条

3D立体资讯新闻

虚拟现实虚拟仿真

快速成型 3D打印

智能家居智慧城市

民用虚拟现实创客

虚拟现实硬件周边

虚拟现实软件系统

首页

商城

行业

厂商

应用

百科

创客

评测

3D

VR

AI

论坛

首页

热门