腾讯开放图像识别技术和语音识别技术
4月8日,微信对外上线智能开放平台,首批上线包括“语音开放平台”和“图像开发平台”。前者为微信服务号提供语音识别和合成技术,后者则为第三方应用提供免费的图像识别技术与服务。
利用语音识别技术,微信服务号的用户能够自定义词库,在识别到某些关键词后,自动返回特定的结果,微信称“后期也会考虑支持定制化的服务”。另外,微信开放的语音合成功能,能将书面文字转换成语音对外播放。这些技术已经在腾讯自家的多个产品中得到了验证。比如微信的语音输入、语音转文字;QQ音乐中报歌名播放对应音乐;腾讯地图中语音识别地名等;另外,腾讯在与招商银行服务号的合作中,提供了语音互动合作。
而图像识别技术则是通过开放SDK接口,让第三方应用开发者接入,使其应用具备图像识别与搜索的能力。目前,腾讯已经开放SDK demo,开发者能直接下载Android SDK进行测试。腾讯勾勒的图像识别接口已经开始商业化的应用,通过扫描电影海报做电影票的导购;扫描图书封面引导用户去电商平台下单。目前图像识别应用范围还包括杂志、广告、平面出版物上的图片,并支持延伸阅读内容、导购、深度阅读、参与互动和点评分享。早在2011年9月,腾讯就上线了拥有自身图像识别技术的SOSO慧眼,其中就包含了名片识别、图书电影海报的识别,经过近三年的调试磨合到最终开放,腾讯花了近3年的时间。
看得出来,腾讯正在做的就是在为微信这个平台招揽更多的第三方开发者——无论是服务号还是第三方应用,其本质都是基于微信关系链构建的互联网服务。而他们所开放的两项技术——语音识别和图像识别,正是两种能够将人和现实世界联系起来的交互方式,所以这也被不少人看作是互联网服务新的入口。
其实不只是腾讯,百度在去年推出轻应用时也大张旗鼓地开放了自己的语言识别、图像识别技术,二者的思路十分相似——百度希望让开发者能围绕百度的搜索能力,构建新的移动互联网服务生态。这算得上是一件好事,至少,它降低了创业者们提供高质量服务的门槛,给了微信服务号和微信平台更大的一块试验田,接下来,就看看有什么在这个已经拥有7亿用户的平台上,能长出什么新玩意儿吧。