可穿戴设备催生新语音需求 准确率低成难题
苹果Siri领衔
智能语音爆红
2007年,国产手机金立曾推出一种“语音王”的手机,喊一声“张三”,它会自动拨打张三的电话,这,算智能语音吗?
别误会,这只是一种傻瓜式语音,是单个字识别,一碰到连续的语句就“萎”了。
2011年10月,苹果发布了iPhone 4S,自带一种Siri的语音控制功能,能帮助用户读短信、查天气,还能学习新的声音语调,提供对话式问答,苹果开启了智能语音交互时代。
不信?来看一组用户与Siri的测试对话。“你是谁?”“我是Siri。”“你是女孩吗?”“不是”“你是男孩吗?”“我不觉得咱们有时间扯这些”“我喜欢你”“咱俩是不可能的”。
Siri诞生之后爆红全球,随后谷歌、百度也推出了类似语音产品。今年HTC、摩托罗拉推出的旗舰机中也带有此类功能,如小i机器人。
穿戴设备频出
催生三个技术环节
易观分析师王俊认为,智能语音已经诞生新的需求,“一些穿戴设备没有键盘、没有触屏,有些连屏幕都没有。”
继索尼、三星发布智能手表后,10月17日,阿迪达斯也发布了miCoach SMART RUN,加上此前智器、盛大等国产厂商推出的产品,智能手表产品一时暴增。又在10月,乐视、小米、阿里酷开电视全面预售,三款电视中,乐视、酷开均支持语音识别功能。
智能产品的发布,对语音识别提出了新的要求。10月19日,记者见到了乐视TV、智器手表语音技术提供者云知声团队,其CTO康恒博士表示,智能语音主要包含三个部分:语音识别、语义解析、知识图谱。
为了演示效果,他用手机语音操控电视:“明天上海天气”,电视立刻回应“正在为您查询”,随后天气信息便显示出来。电视先是听懂康恒说话(语音识别),然后认为他是要查询上海天气,最后提供了天气信息(知识图谱)。
准确率逐级降低
达80%就算优质
“市面上产品语音识别准确率会较高,但是到语音解析会低一点,到知识图谱会更低一点,最终准确率能达到80%就算是优质产品。”王俊表示,这三个环节中,语义解析技术难度最高。
目前的发展状况是,语音识别准确率很高,据康恒介绍,云知声语音识别准确率为95%。
“要消灭剩下的5%非常困难,需要从每个细节入手,先把环境噪声解决,1%可能解决了;再把口音问题解决一点,1%就上去了;再把声音采样库扩大点,1%又消灭了。”康恒表示,要达到99%的准确率,云知声可能需要五年。
康恒还说道,语义解析与知识图谱是一个很前沿的课题。“比如‘你有多少根头发’,我能听明白也能理解,但是不知道答案。计算机也需要一个漫长的学习过程。”