我们到底应该如何与机器人交互?
图片来自Pixbay
雷锋网(公众号:雷锋网)按:本文作者声智科技副总裁李智勇,订阅号:琢磨事zuomoshi。
自从人类发明了计算机,就持续面临着一个根本性问题:我们到底应该如何与这类机器交互?抛开具体交互形式不论,显然的我们和机器的交互方式上经历了一个从人适应机器,到机器适应人的过程。一旦趋势切换为机器应该如何适应人,那看待语音交互等最终趋势的的根本视角从来就不应该是机器能做什么,而是说人更渴望什么。
人机交互简史
自从计算机发明后,它所能接受的输入本质上就没发生任何变化,始终都是类似加减乘除移位这样的指令。我们经常说的纸带其实并不是交互方式本身,而只是一种载体,纸带上面就是具体需要计算机执行的指令。在那个时代,人是要完全适应机器的,所以必须学会机器的语言,程序员则相当于掌握了机器语言的翻译。
同样道理键盘也不是一种交互方式,而是一种输入设备,真正的交互方式其实是命令,常见的比如mkdir这类命令其实可以看成是更多指令的集合,但抽象的级别更高了,可以完成建立目录这类功能。这个时候,其实也还是人在适应机器,但开始去除人机交互过程中一些繁琐重复的事情,让人机交互变的更为便利。
此后的图形用户界面是一个关键转折,图形用户界面让人机交互彻底的向人类一方迁移,屏蔽掉了几乎所有和机器相关的细节。在Windows下唯一还保留了些机器特征的东西,只是开机、关机、拷贝、粘贴、查找、最大化、最小化、关闭等少数几个命令,其它部分则和我们操作物理世界的东西很像,比如我们需要选择一样东西的时候,我们通常会把他们排成一排,而不管开始菜单还是任务栏都是这样做的。同样是图形用户界面,从使用鼠标到触屏内部还是有进展,导入触屏之后机器的细节被进一步抛弃,最大化、最小化这些事进一步消失,而只剩下App的排列以及选择,我们最常用的操作只是点击和滑动。所以我们可以说从鼠标到手指其实是进一步向人这端迁移。
这背后本质的推动力其实是计算能力的富余,但产品设计者们不再把这部分富余计算能力只是用来提高性能,而是用来适应人的操作习惯,所以图形用户界面可以看成是从人适应机器到机器人适应人的转折点。这其实没什么奇怪,毕竟人类是世界的中心,所以只要有可能那就必然走到机器适应人的方向上来。
过去不管是用纸带直接输入指令还是用命令行乃至于使用图形用户界面,其内部是逐步递进的,虽然表面看差异很大,但基于的是同样的命令体系,只是在便利性上有较大提升,并没有导入很多的新东西。
语音交互则与此不同,它一方面集成了老的命令系统,比如你可以说调大音量、下一页、设定十点的闹钟等。这时候它体现的只是人机交互方式进一步向人这端倾斜,提升便利性,这与图形用户界面带来的变化是一致的。但另一方面它则为交互方式注入了智能属性,这种智能属性让机器进行更多的决策,交互不再是精确的,比如放一首歌,这在过往的交互方式下是不能实现的。这是两种完全不同的属性,前者会让存量市场进行升级,也就是说只要便利性有价值,那怕没什么智能它也是可以落地的,后者则体现新的信息整合和输出方式,会带来极大的颠覆性。
交互方式背后隐含的颠覆性
交互方式的改进如果只是带来纯粹便利性那就只是一个更好的功能,但如果这种交互方式影响了信息的整合与输出方式,那就会对行业产生颠覆性影响。典型的就是触屏对搜索的影响,在鼠标的模式下,搜索是互联网的中心,但因为触摸不能精确定位,进一步催生了App,这直接导致了搜索的中心地位被削弱。
那显然的注入了智能属性的语音交互一定会导致信息整合和输出方式的再次更迭,那这会对眼下已经日趋稳定的互联网生态带来什么影响?
从现象上看,第一个最直接的影响是App又会消失了,信息的整合与输出看起来似乎会经历一个分久必合,合久必分的过程。图形用户界面的鼠标时代,信息的整合与输出其实是大一统的,基本上就是浏览器与搜索引擎,然后大的客户端程序维持一定自己的空间(比如QQ)。图形用户界面的触摸屏时代,信息的整合与输出其实是分散化的,人们得记住自己要什么然后装特定的App。语音交互则是更加大一统的,没有App,同时也不会再有和浏览器相并列的大客户端,有的只是输入的一句句话。
什么样技术趋势就会导致什么样的格局。形象讲我们可以认为搜索、电商、IM的格局是先天内置在行业里面的,然后才是谁是搜索的王者,谁是电商的王者。
在PC时代浏览器和搜索处于核心地位,所以就会有Google这样的巨头,其它人都要活在它的阴影下面。而一旦信息的整合与输出再一次大一统化,那就一定会催生新的大号统治者,而这种大号统治者的出现,实质上意味着现有的巨头或者小巨头会被削弱。如果没有了App,对于O2O、甚至出行等谁掌握了上层的控制权,谁就掌握了他们的命脉。
终局看来就会是这样,但这个过程现在来看会非常漫长。
未来三年的交互方式发展
交互方式的发展一定依赖于具体产品的销售状态,而终端产品的销售起量则有两种模式:一种是智能手机式的,一种则是MP3式的。
智能手机的启动进程显然和苹果有巨大的关系,苹果先推出一款标杆产品,然后迅速出现大量的模仿者,最终市场大幅启动。在手机上整个过程历时4~5年。MP3则与此不同,先是出现各种形状的MP3,没有领头羊,市场也启动了,然后苹果出了一款体验远超其它人的产品。
对语音交互的发展而言,我们同样面临两种可能性:一种是有人做出了一款足够爆款的产品,让语音交互的落地有一个符号性的标志,然后类似产品持续跟进,产品品类持续拓宽;一种是没什么标志性的产品,但交互方式极为宽泛的不停的在各个行业进行渗透,累积到一定程度再出各种标志性产品。在国外显然走的是第一条路线,其中Amazon Echo扮演了领头羊角色。在国内则暂时还看不到这样一个角色,越来越往MP3的走势偏移。
具体来讲,如果是有人扮演领头羊的角色,那市场会在领头羊之后高速推开,因为交互方式的一切细节都会在领头羊身上得到验证,各个公司不会有任何疑虑,但如果是没有领头羊的模式,那整个进程就会拖的比较漫长。
也就说未来三年交互方式的发展,最终会依赖于我们实质上会走到那条道路上来,眼下来看后者的可能性在升高,因为领头羊这种事,事实上是具有极大偶然性的,乔布斯这种人是非常难以复制的,其信徒们似乎都走上了邯郸学步的套路。
小结
在过去,谁敢说自己是下一个BAT,其实是会被鄙视的,因为客观条件就不具备,小鱼塘里那会出现鲸鱼。但现在交互方式似乎真的提供了这么一个机会,核心的问题是BAT等其实也这么想,所以这种颠覆性更可能只是巨头间势力的再分配。