Etu产品发布 专访高层深度解析Hadoop
陈昭宇先生:“云计算是一个很广泛的议题,包含很多。因为现在以运营商和服务商来讲,提供云的服务。比如说微博,现在有这么多的用户,整个后台系统,包括分前端WEB服务器,这个很多网站可能会使用虚拟化的方式,很快的可以扩展出去,这是云计算的一环。这些WEB服务器应用给客户层,会留下大量的日志,你注册了微博他会推荐你新的朋友,这些就是要用Hadoop这样的技术,把大量的信息采集过来,要放到一个够大的存储,够行的有运算能力的地方,然后才可以进行离线分析,结果出来了才可以回到前端应用。Hadoop是大的云计算议题里需要特别关注的,包括数据处理、数据挖掘和资料分析。”
蒋居裕先生:“我们已经知道Hadoop技术起源是来自Google发表的论文,后来开源,雅虎赞助这个开源的项目。我们必须先定义Google、雅虎,Facebook这些都是云服务公司,而且是超级的云服务公司,Hadoop是来自超级云服务公司,他们为了让客户体验做的更好。大家不会喜欢在雅虎上面打一个关健词做搜索,结果出来的很慢,他们就是利用Hadoop这样的技术让我们觉得用户体验不会觉得慢。
回头,这些行为资料,我们举例了做关联推荐云服务的服务,既然这些是来自云服务的使用行为,转化是告诉你看这个东西以外还可以看什么,所以技术来自于“云”,要服务的也是“云”。”
刚才说了加数据可以加一台机器,如果利用云计算可以不用在一体机里加设备了。
查礼先生:“比如我是私有云的用户,你加不加机器我不知道,我只知道我处理数据量的性能提高了。从这个角度来说,技术上是可以包含这个特性的。”
蒋居裕先生:“因为这个技术是来自于这些云公司,这些云公司除了处理数据之外,像我们知道Google所谓做SASA服务,不管是社区、邮件、地图或者是文件,这些服务都是给一般的用户去用。他们都是用X86商用机器,这么大的数据量可能需要100万台,每天都会有硬盘死掉,重点是硬盘死掉用户数据会不会丢失?服务会不会停下来?不会,因为他们软件技术很厉害,他们企图用软件技术做到分布,让硬件出错的时候数据不会丢失,机器不会停下来,很快的替换,很快的回来。”
查礼先生:“之前容错是用硬件的方式保证不出错,但是实际上比如说背板坏了,再修改,数据也全丢了。包括我也听说过,IBM给银行做的项目也出现过这样的问题。现在技术发展一个是Google是用纯软件的方法保证,虽然看起来浪费了存一些副本,但实际上这种方式更好。”
陈昭宇先生:“我前几天看到一个统计,2009年Hadoop运行10个集群,总共2万台服务器,上面共有32.9亿个区块,其中仅丢失650个区块,这650个中仅有19个是完全无法修复的,所以从数据量计算,它的可靠度达到99.99999%,这是非常非常高的可信赖度了。”
查礼先生:“它是现在用的方式非常便宜,现在一般互联网的方式是两U计价服务器配三块盘,整个一台机器价钱也就是几万块,它用很低的成本能达到很高的可靠性。这是它的技术创新的关键。如果说都是钱堆出来的,这就不稀奇了。”
蒋居裕先生:“所以企业要越来越熟悉这个世界上有另外一种方式在架构IT。虽然他们现在不熟悉,我们会慢慢让他们熟悉。”