Etu产品发布 专访高层深度解析Hadoop
刚才谈到了数据量的问题,但是事实上数据量本身不是数据库,对Oracle数据库来讲数据量不是问题,用大数据主要原因我认为是数据类型太复杂?
蒋居裕先生表示:“我刚才说了三个“V”的PPT,是可以画三个椭圆的。”
陈昭宇先生先生:“举一个简单的例子,很多电信业都有非常大的数据仓库,数据量不是问题,但是问题是这些数据库的数据是重合的,一定是从前端设备采集进来的,经过一些结构化的过程,比如通过一些脚本处理这些数据。很多电信公司可能有不同的电信应用用的不同的数据公司,这些必须要统一,就是极大的问题。有一个问题是数据量及时进来,每天录一次库,所以报表一天才能看一次,今天看昨天的数据。所以如果从数据库观点来看不是数据库的问题,可是从端到端来看就是有一些问题需要解决。非结构化或者海量数据其实Hadoop就是一个很适合的工具。”
查礼先生:“数据量也是问题。比如GPS-LBS系统,GPS系统一秒钟更新一个数据,每个人手里都有一个设备,假设我有一个应用,实时跟踪任何一个人的行为,这个数据量非常大。我们做过一个实验,My-SQL数据库,撑到1000万以上,慢的不得了了。如果GPS数据容易达到这个数据量的,每秒钟发一个数据的。
另外一个场景,现在数据计算,一个是数据大,另外一个要快。快不是说处理速度快,是整个数据生产过程,比如说从一天缩短到秒级,这个事我们做不了,用数据库绝对不可能。因为我今天的PPT时间关系少了一张,就是ETL过程,就是数据差距到入库可以查到时间是一天到两天,现在改成10秒钟了。这些都是新的技术,必须要做一些技术上的变革才有可能做到时间间隔从天到秒的变革。”
蒋居裕先生:“大数据应用非常强调的应用场景就是提高客户满意度。很多电信运营商把传统的打电话行为数据放到数据仓库里,可是因为这个过程越来越多的数据,客户有一个问题,比如现在为什么电话打不通,或者短信发不出去,打到客服中心,客服中心要一层一层的找客户的问题出现在哪儿。如果回到处理时间一天才有办法更新一次,那客户会定在那里了,客服会说你的原始还没有处理,我不知道哪出了事情。有时候企业想象Hadoop能带给他什么价值的时候,不用想什么应用,光是把做的环节有所提高就是很有价值的。”
陈昭宇先生:“比如电信传统的帐单计算过程,比如有一些CDR数据进来,现在是先算出每一个人的秒数,总通话的秒数,配合什么时段、什么费率。现在台湾最大的运营商,一个用户分六批算帐,一个月,每算一个要花6到8个小时,我们做的方式是把从CDR这边进来,用Hadoop计算秒数,我们用了大概是12个节点,150G的数据用了(1.5小时)。”
查礼先生:“现在那么多应用,能把他的用户体验从天提高到小时,已经有一大把的事情要做了。比如移动他们自己就有这样的例子,以前做省一级的经分,原来是小型机,还不能够用全量数据,只能采样数据,现在不用小型机,用一个PC服务器,成本比那个小型机少,用全量数据,比那个时间还少,这都是Hadoop能够做到的。”
蒋居裕先生:“我们针对中国市场是更能凸显我们的价值了。回过头来我们现在定义的用户方案和用户对象,他们能不能很快的有知觉,我们跟他讲的事情,对他来讲,什么时候他可以想要开始做了。”