泡泡网手机频道 PCPOP首页      /      手机     /      动态    /    正文

"说"出未来 云知声让移动互联更精彩

  随着智能手机、平板电脑等移动终端的丰富,3G、WiFi等网络技术的成熟,移动互联网与人们的生活日益密不可分。不用键盘,不用手写,笔记本电脑、手机、学习机、车载导航,甚至智能玩具等各类信息终端产品都具备了“能听会说”的功能,只用“动嘴”就可以进行网络搜索、发短信、发微博、玩游戏。虽然语音在生活中的运用已经极其普遍,但由于行业门槛过高的问题,专注于语音服务的企业却寥寥无几。其中,科大讯飞在行业中自然不用多说,一直处于执牛耳者的地位,但自从今年3月开始,云知声这个名字便开始和它联系在一起。

  据云知声CEO梁家恩的微博透露, 4月底“云知声”的语音识别引擎进行了一次升级,这是继今年一月份使用深度神经网络(DNN)技术以来,云知声语音的第二次重大升级。在这次升级中,识别引擎的识别率和响应速度均提升了30%之多。熟悉模式识别的人都清楚,如果能够通过某种方法将识别性能一次性提升10%以上,即便识别速度比原来还低,其成就也足够在国际知名期刊上发一篇高质量的论文了。云知声此次能够将识别率和速度同时提升30%,绝对令人咋舌。从目前的识别表现上来看,云知声的语音识别准确率已经完全不亚于业内大佬科大讯飞,而引擎的处理速度则超越所有竞争对手,是其他人的3到4倍。

  在语音领域内,提升语音识别准确率的法宝大致有两个:一个是算法,即所谓“技术创新”;另一个则是数据,即“数据驱动”。打个不太准确的比方,如果说先进的算法犹如一辆法拉利跑车,则海量的数据就是能令发动机发出震撼轰鸣的高性能汽油。让一辆赛车高速前进,这二者缺一不可。但从某种程度上来说,先进的算法可以在一定程度上弥补数据不足的缺陷;而海量的数据也可以从一定程度上提升算法的外在表现。云知声的升级,靠的是是什么呢?

  众所周知,海量线上数据的积累相当不易,对于语音数据而言则更甚。语音的积累面临着采集和标注两大难题,相当费时费力。在语音引擎上线前的“种子期”,开发者一般会通过向相关机构购买或者是请人录音的方式来获取标注过的原始语音。但这种方式不太可能获取“足够”的语音,并且这类语音一般会跟线上的实际情况有较大差别(例如说话方式、用户口音、设备质量、环境噪音等等)。除非有极为先进的算法,想基于这种数据来提供优异的线上表现是相当困难的。获取数据的另一种方式就是通过滚动,即通过“服务上线->积累用户->用户提供语音->语音标注->更新语音识别服务”的步骤来积累语音。这种语音积累方式由于数据精准而且成本较低,因而是最为有效的。但这种方式需要以一定的用户量为基础,如果初始的语音识别服务不够好,吸引不来大量用户贡献语音,那么这种滚动方式纯属空谈。这种模式对于比较成熟的语音识别服务商而言是必经之路。拿科大讯飞来说,其通过公有云、讯飞口迅、讯飞语音输入法以及讯飞语点,在一家独舞的情况下,经过近3年的积累,其用户语音库用“海量”来形容毫不为过。而云知声则是在2012年6月刚刚成立的小公司,虽然在与搜狗合作之后小有名气,但无论在时间还是产品上,都不可与科大讯飞同日而语,因此云知声想靠单一产品短期内积累大量语音数据还是相当困难的。

  云知声的高识别率胜在其更新速度惊人。2013年的1月初,云知声刚刚宣布了其语音识别服务性能的第一次大跨步改进,使用基于深度神经网络的语音模型替代了原有的基于高斯混合(GMM)的语音模型。如今时隔3个月,云知声又进行了第二次更新,不得不说,这在语音识别领域内绝属一个异类。

  语音作为人们获取和沟通信息最方便、最有效的手段,智能语音交互技术对于各种移动互联网终端改善用户体验具有不可替代的作用,语音识别技术的升级将带来更高的识别性能和更好的用户体验。

  云知声CEO梁家恩表示,“目前云知声还有多项关键技术储备,深度神经网络DNN技术只是其中之一。DNN主要是提高发音模型的匹配性能,今后,云知声还会在抗噪音、方言覆盖以及语言领域支持等方面持续投入。”■

0人已赞

关注我们

泡泡网

手机扫码关注