微软机器学习项目 Project Oxford 推出说话人与视频识别 API 预览版 ...
据微软技术博客消息,继开放图像、人脸、语音、文字识别 API 预览版之后,微软研究院的机器学习项目Project Oxford刚刚又开放了说话人、表情与视频识别 API。
机器学习是巨头近年来的竞争热点。这种竞争体现在了开源上面,今年以来 Facebook、Google、微软、IBM 等均先后开源了自己的机器学习系统。开源当然可以造福开发者,但是这背后也有巨头想打造自身生态体系和吸引人才的动机。
不过,这种开源吸引的是专业开发者,为了壮大生态体系,技术公司还需要靠易用的 API 和有趣的应用吸引应用开发者和用户。比方说今年风靡全球的 How-Old.net 传图猜年龄的应用就很有趣,吸引了许多媒体关注和用户参与。微软今年在 Build 2015 大会发布的 Project Oxford 就是一个面向应用开发者的机器学习开源项目,它提供了一系列的文字、图像、语音、视频识别的 API 与 SDK,里面使用的模型都是通过微软现有其它产品中使用的深度学习和机器学习技术训练得到的,开发者可以很方便地将功能植入到自己的应用里面。
Project Oxford 开放的 API 包括三大类:视觉、语音与语言。其中视觉方面之前开放预览的 API 包括计算机图像识别、人脸识别,此番新增了表情识别与视频识别。表情识别可通过分析人脸分辨其情绪是快乐、惊喜还是悲伤等;视频识别则可以进行动作识别与视频静态化处理。语音识别在原有的语音识别基础上增加了说话人识别,即不仅可以知道说的是什么,还能知道说话者是谁;以及自定义智能识别服务(CRIS),可针对不同的语言和声音进行定制识别。语言方面包括了拼写检查和语言理解智能服务(LUIS),后者可为应用提供自然语言命令识别服务。
此次新增的两项 API 还是有不少可挖掘的应用场景的。比方说,说话人识别 API 可帮助通过语音识别用户或客户,这可以用来辅助进行用户鉴权的工作,提高系统的安全性。或者也可以应用到客服方面,通过来话识别客户,增强客服效率和客户体验。而视频识别 API 显然有助于进行视频分析与自动化编辑,比方说检测视频中的人脸和动作然后进行相应处理等。
机器学习是巨头近年来的竞争热点。这种竞争体现在了开源上面,今年以来 Facebook、Google、微软、IBM 等均先后开源了自己的机器学习系统。开源当然可以造福开发者,但是这背后也有巨头想打造自身生态体系和吸引人才的动机。
不过,这种开源吸引的是专业开发者,为了壮大生态体系,技术公司还需要靠易用的 API 和有趣的应用吸引应用开发者和用户。比方说今年风靡全球的 How-Old.net 传图猜年龄的应用就很有趣,吸引了许多媒体关注和用户参与。微软今年在 Build 2015 大会发布的 Project Oxford 就是一个面向应用开发者的机器学习开源项目,它提供了一系列的文字、图像、语音、视频识别的 API 与 SDK,里面使用的模型都是通过微软现有其它产品中使用的深度学习和机器学习技术训练得到的,开发者可以很方便地将功能植入到自己的应用里面。
Project Oxford 开放的 API 包括三大类:视觉、语音与语言。其中视觉方面之前开放预览的 API 包括计算机图像识别、人脸识别,此番新增了表情识别与视频识别。表情识别可通过分析人脸分辨其情绪是快乐、惊喜还是悲伤等;视频识别则可以进行动作识别与视频静态化处理。语音识别在原有的语音识别基础上增加了说话人识别,即不仅可以知道说的是什么,还能知道说话者是谁;以及自定义智能识别服务(CRIS),可针对不同的语言和声音进行定制识别。语言方面包括了拼写检查和语言理解智能服务(LUIS),后者可为应用提供自然语言命令识别服务。
此次新增的两项 API 还是有不少可挖掘的应用场景的。比方说,说话人识别 API 可帮助通过语音识别用户或客户,这可以用来辅助进行用户鉴权的工作,提高系统的安全性。或者也可以应用到客服方面,通过来话识别客户,增强客服效率和客户体验。而视频识别 API 显然有助于进行视频分析与自动化编辑,比方说检测视频中的人脸和动作然后进行相应处理等。
上一篇:可穿戴时代,自己做个炫酷的智能手表[ 12-16 ]
下一篇:虚拟现实离普及还有多远?听听从业者的声音[ 12-17 ]