Etu产品发布 专访高层深度解析Hadoop
事件背景
2012年5月31日,精诚集团正式发布了Big Data解决方案品牌——Etu(知意图),将通过为用户提供软硬结合的端到端全程解决方案,直接解决用户的特定问题,提升特定商业环节的价值。
据市场研究机构IDC数据分析,Big Data市场规模将从2010年的32亿美元成长至2015年的169亿美元,平均年增长率近40%。Gartner也曾发表调查结果称,商业智能与分析在2008、2009、2012年都是CIO年度要第一优先考虑的科技项目,不同的是,2012年Big Data成为商业智能与分析需求不可缺少的新增要素。
越来越多的企业意识到用以分析的数据越全面,分析结果越接近于真实,掌握这些新数据形态将在竞争环境中无往不利。但大数据与普通数据一样,从产生、处理、价值提取、被消费掉,有一个过程,而每个环节均面临较高技术门槛,许多企业因此对大数据望而却步。
Etu经过特殊简化与优化整合设计的软硬件合一为基础,加入行业海量数据处理的专业服务,让用户无需再担心技术处理问题。简单的说,Etu表达了大数据的真实价值。
专访人物
查礼(左)、蒋居裕(中)、陈昭宇(右)在发布会产品展示区
Etu(知意图)为什么采用一体机的形式为用户提供数据分析?
陈昭宇先生表示:“因为Hadoop,即使是Oracle数据库也有一体机,企业存在的目的是为了赚钱,为了盈利。所以他宁愿投入最多的人力成本在一些应用上,比较少的愿意投入在IT上。可是数据库的规模越来越大,这需要很专业的IT让这些机器可以跑,所以不只是软件的问题,也不只是硬件的问题。Hadoop以现在来讲,它的应用已经有人看到了它的价值,可是缺少运维,除非互联网公司,其他大部分公司都没有这个能力。所以开始去公司装就遇到了问题,我们希望用一体机,看到刚才的示范,装的一体机比装一个Windows还要简单。我们想替客户解决的是,当你有一个Hadoop的时候,你的机器坏了怎么办?你好不容易培训了一个IT人员能够装它,这个人走了怎么办?一体机的概念就是所有的逻辑都在这个盒子里面,那个盒子在你家,人走了,你的生意也可以照样做,就是把企业IT风险降到最低。你保证机房有电、有网络、有冷气,工作就可以完成。”
陈昭宇先生:“这个一体机不需要跟现在的存储系统做关联,因为它是使用Hadoop技术。比如说标准是一台工作节点是8G,4G放的关系型数据,如果4G满了可以再加一台,还不够可以再加一台,就是这样扩展的。”
查礼先生:“加的不光是处理,还有计算。”
蒋居裕:“是存储和计算在同一个实际的节点上。我们其实可以把数据分成三种“温别”,一般的企业应用ERP、财会管理的这些应用都跟信息交易有关,我们归类成在线的数据,这个处理一般的就是Hot Data,因为它要随时在线。另外一块是Big Data,就是实质性更高的Hadoop解决上,可以用Big Data解决,如果有一个比如处理量很大,一天解决完就可以,传统的没有办法解决,我们一般叫做“温Data”,它可以处理三个月、半年或者两年的数据,都可以在Hadoop里处理,如果超过两年的不在Hadoop处理的,可以放到传统的存储机制里去,它只存不计算。”
用户需要了解Hadoop才能用吗?
查礼先生:“他们所扮演的角色就是打掉中间的这个沟,你不用太知道Hadoop是怎么样的原理,用户直接对接他的业务就可以。而且原来做数据就是两种形式,一种是文件,一种是数据库。Hadoop应该是给你增加了一种方式,增加了一种存储数据的手段。因为原来不管大大小小的应用后面都接一个数据,其实可以想象你的需求多么的多样,为什么只有一种技术在后台做处理,为什么会这样?肯定会有一些技术的变革,适应应用的需求。
而且目前主要问题是,原来你的数据量都很小,所以可以说就这两个可以处理了,现在数据变的特别大,而且每年增长都是翻番的。数据库这样的东西原来价值取向就是做成一个很通用的东西,在上面干什么都行。这样的一个东西不太可能去应对这么大的数据量,必然会变成各种各样的系统。这相当于是一个东西要变成很多种东西,每一种新的东西会应对一个更极端的处理。
今天讲的一个是Hadoop本身,可能Hadoop上面还有很多组成部分,这些组成部分应对的场合是不太一样的。不可能拿这个东西再去应对它并不适合的应用,这是不太可能的。每一个“小玩意”对应的都是很细的,很小的。”
蒋居裕先生:“我比较愿意强调,从整个世界Hadoop技术在每个不同地区采用的状况来看,在亚洲地区,我觉得现在还不是说我卖一个标准的Hadoop一体机,企业就能够直接用的时候。需要一个解决方案,而且是一站式的,我把原始数据接法弄好了,处理完去哪里也接好,企业可以直接用。他希望我们帮他建新的应用,或者希望存到原本ERP能够借鉴的数据库都可以。用户把需求明确,我们把整合的工作都做完,之后就需要增加节点就可以了。”
Hadoop目前为止最常用的场景有两个,一个是把它作为一种存储,相当于一种数据库一种存储一些非结构化的数据。第二个,通过它的处理把数据换到数据库里,进行商业智能分析和挖掘,您觉得我的理解对吗?这是Hadoop的主要用途吗?
查礼先生表示:“应该说没错,但是我自己的理解,光它拿做存储只用了它一半的功能。它的特点是存储和计算组合在一起,融合在一起,如果用在一个方面都不是一个比较好的实用的典型案例。第二个问题,这么用主要是因为有一些功能,Hadoop目前还提供不了。并不是说它没有这个能力,是没有这方面的工具。如果作为一个公司来讲要尽快能够产生生产力的话,肯定是有这些东西,把它尽量组合在一起。这是它的价值取向。所以说,像Facebook这种做法,我讲的是09年的时候的材料,那时候还没有很多BI的工具在Hadoop上面,能够Work,能够运行。主要是因为这个原因,并不是Hadoop本身不具备这个能力。”
在你看来Hadoop应该怎么用?还有其他用途吗?可以举几个例子吗?
查礼先生介绍说:“我先简单讲一下,最好的用途,因为它本身的起源是来自于Google,所以我自己认为它最适合的就是文本的处理,就是非结构化、半结构化的。文本是最核心的,用别的不是不可以,比如做其他的开发,比如多媒体的处理不是不行,但是说实在的它并不是很适合,目前看起来。
所以我们现在感觉到类似像现在的这种系统,逐渐的向专门化发展。就是我这个系统够大可以从上到下的重新构建一个,只做这一件事的对应的架构比如视频或者多媒体处理,有可能会出现另外一个Hadoop专门做这个事。
可想而知,Google刚出来的目前只做搜索那一件事,Google有上百万的服务器,但是它就只做搜索,就做这一件事。这么多台机器完全有可能从硬件、到软件、到操作系统都可以达到的系统,这是一个很明显的趋势。所以我的观点就是要干好一件事,如果那个事够大,可以从上到下自己全部去干。”
蒋居裕先生告诉大家:“我举一些例子,以电信行业来讲。亚洲地区目前台湾、香港、泰国、印尼、新加坡、Etu都已经去过这些地方。用我们东西最多的就是电信运营商,电信运营商用我们的时候第一个是做IP溯源的工作,就是找出用户的真实身份。另外一种是AP溯源,就是不同的应用软件,他要找出企业里各种不同德应用背后的使用者的动作。现在有一些安全监控软件有办法,在应用软件上做的动作写日志,我们就是负责分析处理日志,以便哪个时间点哪个用户做了哪些应用。这些追溯不是主要来自于安全上的东西,现在因为3G移动网络、上网的行为很多,所以电信商很想在上面有一些价值的提升,所以他想了解他的哪个用户在哪个时间点最常上哪个网站,而且是用手持网站。光把这个搞清楚就有很大的理解,他可以根据用户的理解跟广告商合作。
比如金融行业保险、银行,他们有很多文件扫描存起来的图档,比如一个保险业,一个客户签一张保单,保单要扫描存起来,投保期间跟客户往来行为,都跟保单有关的,这些资老都会扫描存起来,这么多用户日积月累,这些图档的数量会达到上亿,有一个事件检索的时候要能很快的找出来。这也是一个典型的案例。
比如制造业,尤其是高科技制造,比如台基电,他们现在也用Hadoop做这样的事情,因为传统上的生产设备,在生产过程轴会把运作的数据往外送,传统商会用数据去接,当Oracle撑不住的时候,现在有了Hadoop技术,他们就把这些资料往Hadoop这边存储,处理。他们的目的是提高利用率。”
陈昭宇先生指出:“我们刚才介绍只有一个产品,但是Etu品牌并不是卖标准化Hadoop的时候,我们有一个精准的推荐引擎,它有一个特殊的应用,是涉及很多中国很多电子商务网站,你们在这样的网站上购物,点了这个,下面会推荐你大概看到的东西,你买过什么,搜索过什么?这样的东西我们会它变成一个精准的推荐引擎。
电子商务网站可以直接把数据导进一体进,他需要设定几个参数,比如需要关注用户的哪些行为,比如点击、放入购物车、搜索,有一些动作你可以挑选,挑选好之后这个引擎可以根据你每天实时进来的数据,它会每个小时一直帮你计算,然后选择一个推荐的列表,再放到产品的一个数据库,让前台购物网站可以直接取得这样的推荐清单。
这跟一般的传统差别是,很多电商在做推荐的时候是人为的,他做的推荐可能不是你喜欢的,是他想卖你的,但是可能不是用户真正需要的。所以他们后来发现我也推荐了,首页也到处都放了,可是就是看不到营收的增长,所以利用Hadoop这样的技术可以从客户真实的流量行为和点击行为里面知道客户在找什么,从而提高营收率。
中国电子商务网站使用者随便上,日志量太可怕,一般数据处理不了,Hadoop出现以后,很多互联网公司发现这是一个很好的工具,所以才让这个工作变得可能。
我们在中国以外的地区,在海外,比如说像IP溯源解决方案我们也已经都做了,这个工作首先要知道你上的网官和电话号码内部IP地址的介入,另外内部路由户有内部和外部IP的定制,这两个关联起来,每一家用户都是一样,我们可以做成标准的解决方案,花几个礼拜把这些数据导进来,基本可以用了。”
陈昭宇先生:“云计算是一个很广泛的议题,包含很多。因为现在以运营商和服务商来讲,提供云的服务。比如说微博,现在有这么多的用户,整个后台系统,包括分前端WEB服务器,这个很多网站可能会使用虚拟化的方式,很快的可以扩展出去,这是云计算的一环。这些WEB服务器应用给客户层,会留下大量的日志,你注册了微博他会推荐你新的朋友,这些就是要用Hadoop这样的技术,把大量的信息采集过来,要放到一个够大的存储,够行的有运算能力的地方,然后才可以进行离线分析,结果出来了才可以回到前端应用。Hadoop是大的云计算议题里需要特别关注的,包括数据处理、数据挖掘和资料分析。”
蒋居裕先生:“我们已经知道Hadoop技术起源是来自Google发表的论文,后来开源,雅虎赞助这个开源的项目。我们必须先定义Google、雅虎,Facebook这些都是云服务公司,而且是超级的云服务公司,Hadoop是来自超级云服务公司,他们为了让客户体验做的更好。大家不会喜欢在雅虎上面打一个关健词做搜索,结果出来的很慢,他们就是利用Hadoop这样的技术让我们觉得用户体验不会觉得慢。
回头,这些行为资料,我们举例了做关联推荐云服务的服务,既然这些是来自云服务的使用行为,转化是告诉你看这个东西以外还可以看什么,所以技术来自于“云”,要服务的也是“云”。”
刚才说了加数据可以加一台机器,如果利用云计算可以不用在一体机里加设备了。
查礼先生:“比如我是私有云的用户,你加不加机器我不知道,我只知道我处理数据量的性能提高了。从这个角度来说,技术上是可以包含这个特性的。”
蒋居裕先生:“因为这个技术是来自于这些云公司,这些云公司除了处理数据之外,像我们知道Google所谓做SASA服务,不管是社区、邮件、地图或者是文件,这些服务都是给一般的用户去用。他们都是用X86商用机器,这么大的数据量可能需要100万台,每天都会有硬盘死掉,重点是硬盘死掉用户数据会不会丢失?服务会不会停下来?不会,因为他们软件技术很厉害,他们企图用软件技术做到分布,让硬件出错的时候数据不会丢失,机器不会停下来,很快的替换,很快的回来。”
查礼先生:“之前容错是用硬件的方式保证不出错,但是实际上比如说背板坏了,再修改,数据也全丢了。包括我也听说过,IBM给银行做的项目也出现过这样的问题。现在技术发展一个是Google是用纯软件的方法保证,虽然看起来浪费了存一些副本,但实际上这种方式更好。”
陈昭宇先生:“我前几天看到一个统计,2009年Hadoop运行10个集群,总共2万台服务器,上面共有32.9亿个区块,其中仅丢失650个区块,这650个中仅有19个是完全无法修复的,所以从数据量计算,它的可靠度达到99.99999%,这是非常非常高的可信赖度了。”
查礼先生:“它是现在用的方式非常便宜,现在一般互联网的方式是两U计价服务器配三块盘,整个一台机器价钱也就是几万块,它用很低的成本能达到很高的可靠性。这是它的技术创新的关键。如果说都是钱堆出来的,这就不稀奇了。”
蒋居裕先生:“所以企业要越来越熟悉这个世界上有另外一种方式在架构IT。虽然他们现在不熟悉,我们会慢慢让他们熟悉。”
因为Hadoop架构现在是主重节点的架构,万一主节点坏了怎么办?陈昭宇先生:“这是Hadoop目前为止我可以讲它唯一的弱点,为什么一开始架构会这样设计?如果一开始设计这个东西的时候Hadoop不是提供在线处理,通常是处理离线数据。所以主节点上是不保存任何资料,所有资料都放在工作节点上,主节点崩溃不表示资料不见了,只要主节点重新恢复就可以继续应用。因为主节点不是做在线分析的,如果主节点失效一两个小时他们认为可以接受,但是结构比较简单,所以第一版就开始这样做。
但是后来状况慢慢改变,很多人拿它来做运营或者在线服务,现在Etu可以再加一台主节点,它不是动态负载均衡,可以两个主节点并行。应该今年下半年官方版本会有主节点高可用性的设计。我们比Google早一个季度可以提供这样的应用给客户。”
刚才谈到了数据量的问题,但是事实上数据量本身不是数据库,对Oracle数据库来讲数据量不是问题,用大数据主要原因我认为是数据类型太复杂?
蒋居裕先生表示:“我刚才说了三个“V”的PPT,是可以画三个椭圆的。”
陈昭宇先生先生:“举一个简单的例子,很多电信业都有非常大的数据仓库,数据量不是问题,但是问题是这些数据库的数据是重合的,一定是从前端设备采集进来的,经过一些结构化的过程,比如通过一些脚本处理这些数据。很多电信公司可能有不同的电信应用用的不同的数据公司,这些必须要统一,就是极大的问题。有一个问题是数据量及时进来,每天录一次库,所以报表一天才能看一次,今天看昨天的数据。所以如果从数据库观点来看不是数据库的问题,可是从端到端来看就是有一些问题需要解决。非结构化或者海量数据其实Hadoop就是一个很适合的工具。”
查礼先生:“数据量也是问题。比如GPS-LBS系统,GPS系统一秒钟更新一个数据,每个人手里都有一个设备,假设我有一个应用,实时跟踪任何一个人的行为,这个数据量非常大。我们做过一个实验,My-SQL数据库,撑到1000万以上,慢的不得了了。如果GPS数据容易达到这个数据量的,每秒钟发一个数据的。
另外一个场景,现在数据计算,一个是数据大,另外一个要快。快不是说处理速度快,是整个数据生产过程,比如说从一天缩短到秒级,这个事我们做不了,用数据库绝对不可能。因为我今天的PPT时间关系少了一张,就是ETL过程,就是数据差距到入库可以查到时间是一天到两天,现在改成10秒钟了。这些都是新的技术,必须要做一些技术上的变革才有可能做到时间间隔从天到秒的变革。”
蒋居裕先生:“大数据应用非常强调的应用场景就是提高客户满意度。很多电信运营商把传统的打电话行为数据放到数据仓库里,可是因为这个过程越来越多的数据,客户有一个问题,比如现在为什么电话打不通,或者短信发不出去,打到客服中心,客服中心要一层一层的找客户的问题出现在哪儿。如果回到处理时间一天才有办法更新一次,那客户会定在那里了,客服会说你的原始还没有处理,我不知道哪出了事情。有时候企业想象Hadoop能带给他什么价值的时候,不用想什么应用,光是把做的环节有所提高就是很有价值的。”
陈昭宇先生:“比如电信传统的帐单计算过程,比如有一些CDR数据进来,现在是先算出每一个人的秒数,总通话的秒数,配合什么时段、什么费率。现在台湾最大的运营商,一个用户分六批算帐,一个月,每算一个要花6到8个小时,我们做的方式是把从CDR这边进来,用Hadoop计算秒数,我们用了大概是12个节点,150G的数据用了(1.5小时)。”
查礼先生:“现在那么多应用,能把他的用户体验从天提高到小时,已经有一大把的事情要做了。比如移动他们自己就有这样的例子,以前做省一级的经分,原来是小型机,还不能够用全量数据,只能采样数据,现在不用小型机,用一个PC服务器,成本比那个小型机少,用全量数据,比那个时间还少,这都是Hadoop能够做到的。”
蒋居裕先生:“我们针对中国市场是更能凸显我们的价值了。回过头来我们现在定义的用户方案和用户对象,他们能不能很快的有知觉,我们跟他讲的事情,对他来讲,什么时候他可以想要开始做了。”
蒋居裕先生:“精诚也许对于国内媒体来讲不太熟悉,但是在台湾它是一个老招牌的IT服务公司,是台湾最大的IT服务供应,也是一个上市公司。它在台湾、中国、香港、泰国、新加坡、印尼,都有分公司或办公室。所以整个亚洲地区大概有3000名员工。因为云计算潮流之下,IT服务公司一定要想办法在这个方面有一些琢磨。所以我们在去年成立了云中心,这个云中心是直接我汇报集团老总负责。这个云中心有一些自己的解决方案,也有传统企业会用的跟云、和云计算有关的产品。我们不能只是销售代理产品,还是应该开发一些云端的开发和服务,所以才有这个公司出来,是整个集团跟云相关的策划单位。
有了这个中心,我们会考虑,我们既有代理的东西,我们还可以开发一些服务方案,除了这些我们还可以做什么?根据我从前的工作经历,Big Data这块变成了我跟老总讨论的很重要的议题。因为我们精诚代理splunk三年的时间,从这边我们了解到半结构化数据看起来有一定的市场需求。可是现在数据大到处理起来价格很高,在大数据题目里我们是不是可以把Hadoop这个主流技术放进来考虑?所以才有了这个团队,有了Etu这个品牌。
我们去年9月决定要做Big Data这个新的事业,可是今年3月我们就把品牌新的产品上市了,为什么可以这么快?是因为我们找来的团队成员也很多比Hadoop以前就处理大数据的经验。这样我们才有一个很棒的自动部署的机器,这些都是核心团员对Hadoop和Big Data事业有热情,所以我们才有可能在很快的时间里把这个产品做出来。其余的已经规划到明年了。”<