大数据，要怎么玩

作者：

在

大数据，云计算和商务智能是时下很流行的几个词。那么一个企业想要做大数据分析，要怎么玩，有要花多少钱呢？

做大数据分析首先要有一套Hadoop集群来处理数据。我们假设某企业每天有100GB的数据需要存储并做分析，其所用的Hadoop集群有4个结点 – 这算是最起码的配置，如果数据太少了根本没必要玩儿大数据。部署一套Hadoop集群有多种解决方案：

自己买机器，然后去http://hadoop.apache.org/ 安装各个组件自己搭建
自己买机器，然后安装某些定制过的Hadoop集群。比如http://www.cloudera.com/ 和http://hortonworks.com/ 都是在Apache开源软件的基础上做的集成和扩展。这样部署起来更方便，有问题了也可以找相关的公司咨询解决方案（它们也是这么赚钱的）
使用Amazon的EMR, http://aws.amazon.com/elasticmapreduce/ ，在amazon的云计算平台上创建一个Hadoop集群。
使用Microsoft的HDInsight, http://azure.microsoft.com/en-us/services/hdinsight/，在Microsoft的云计算平台上创建。

从技术和可维护性的角度来说，我是坚决赞成使用云计算平台的解决方案的。随便想想前两个方案吧，先要买机器: 买什么配置的机器得自己研究，买多少台呢？多了浪费，少了又怕不够用。买回来得有地方放着吧，要机房要稳定供电要提防着机器罢工。然后还得转软件，得专门雇个懂Hadoop的人，其实也没什么大事儿，就是配置一下系统维护一下，可是又不能找临时工，不然哪天系统出问题了找谁去修呢？

我们可以算一下方案3，4的花费有多少：

Amazon EMR按节点收钱，以General Purpose – Current Generation m3.xlarge为例，每小时的价格是$0.35 (虚拟机的价格加上EMR的价格之和 )。那么2个控制结点(master node)以及4个核心结点(core node)每月的费用大约是0.35 x 6 x 24 x 30 = $1512. 存储另外收钱，每天100G那么每个月3000G的数据，费用大约是0.0295*3000=$88.5。除此之外数据的读写传输还有额外费用，暂且不计。每个月费用大约在$1600左右，如果数据一直保留那么后来的存储费用会越来越高。

Microsoft HDInsight收费的方法类似，以2个头结点（head node）和4个数据结点(data node)为例，每个结点$0.32每小时，每月大约$1382。数据存储$0.024*3000=$72，合计大约$1450左右。我比较了一下，Microsoft的A3机器比amazon的m3.xlarge内存要小（7G VS 15G）。所以这样看来的，两家运营商提供的Hadoop集群价格不相上下。

所以使用云计算平台的Hadoop，每个月花费至少在$1500到上下。不用想了，一定比自己搭系统便宜，雇个人维护系统每个月工资也得$1000了吧，还有机房的房租，电费，硬件维护升级的费用。。。

等等。。。刚才我们假设是4个结点，如果真的做点用来做一些应用的话，4个结点就太少了，那么增加到十几二十个结点的话呢？每个月就要$7500了。对于中小型企业来说也算一笔不菲的花销，对大企业还好。所以虽然云计算平台有优势，虽然目前Amazon和Microsoft都推出了Hadoop，但是用户数量并不是非常多，价格门槛比较高也算是一个重要因素：随便用用就要成千上万的花钱，谁敢随便用啊。

那么这个价格是否还可以更低呢？答案是可以。看下现在Hadoop的用法，每个客户都要创建自己的Hadoop集群，系统运行起来就开始收费。显而易见这种做法并没有利用到云计算的优势：在多个用户之间共享资源，以提高资源利用率并降低价格。每个客户的Hadoop集群都不可能一直在使用，总有忙时闲时，闲的时候就是在浪费。

实际上amazon提供了另外一些类型的虚拟机：Reserved Instance针对低，中，高的利用率提供了三种不同价格，如果你认为自己的Hadoop集群利用率比较低，可以选Light Reserved Instance，每小时价格会便宜。还有一种Spot Instance，其价格根据竞价机制决定：amazon会根据系统的当前负载情况来定价，然后客户出价来bid，bid到之后可以使用直到用户选择停止或者amazon的价格增长。

Microsoft方面就做的比较差，没有这些灵活的选项，以至于客户不得不频繁的创建然后删除Hadoop集群，因为不删除放在那里就要收钱。

其实amazon提供的方案对客户来说也非最佳选择。如果客户自己并不清楚自己的利用率怎么办，或者利用率经常变化难以预测怎么办？最直接的方法是按需收钱：试想一下，作为客户，我只是想去分析一些数据，我凭什么要在乎创建什么样的Hadoop集群，要多少结点，多大负载，平台完全可以帮客户决定这些事情，帮客户把运算需求动态的分布在若干结点上，算完以后用了多少CPU收多少钱，多么简单。

期待云平台上的Hadoop集群能继续改进，真正利用到云的优势。

BigData

《 “大数据，要怎么玩” 》有 5 条评论

2014 年 08 月 07 日

Sumhat

Hadoop用spot instance最好了，价格是regular的十分之一。

回复
2014 年 08 月 08 日

hwind

如果价格涨了，bid的协议停止instance会立即stop么？如果这样很多人可能不敢用吧。其实关键问题还是客户得自己估计自己的运算量，决定需要多少Instance，这个有点儿难

回复
2014 年 10 月 03 日

huihui

刚才去search了一下，在你的科普影响下。。。

Spot Instance，用户可以自己定价，定下用户愿意接受的最高价格，来租用EC2服务的闲散资源。亚马逊根据供需情况会周期性的发布即时价格，当用户最高限价高于其即时价格时，服务进行，且实际支付价格为系统即时价格。当用户最高限价低于即时价格时，系统自动终止服务，待即时价格低于用户最高限价时服务再次启动。这对于用户的预算是一个更灵活的保证方式。这种模式更适合于需要大量计算能力但对计算响应要求不高的用户，如科学计算等。当然，用户需要自行保证使用Spot instance的应用对于随时宕机具有调整能力。

为什么看起来有点不靠谱，这个竞价感觉会越来越高吧，忽然想起baidu的竞价搜索排名。。。

回复
2014 年 11 月 07 日

roam

突然发现你们好高级。。。

回复
1. 2014 年 11 月 07 日
  
  hwind
  
  我是捣糨糊的。你今天刷屏阿
  
  回复

大数据，要怎么玩

评论

《 “大数据，要怎么玩” 》有 5 条评论

发表回复取消回复

更多文章

麦积山–青木川

布朗运动：上海-南昌-长沙-三峡-西安(2)

布朗运动：上海-南昌-长沙-三峡-西安

汕头–写在四年以后

大数据，要怎么玩

评论

《 “大数据，要怎么玩” 》 有 5 条评论

发表回复 取消回复

更多文章

麦积山–青木川

布朗运动：上海-南昌-长沙-三峡-西安(2)

布朗运动：上海-南昌-长沙-三峡-西安

汕头–写在四年以后

《 “大数据，要怎么玩” 》有 5 条评论

发表回复取消回复