DataWorks是基于MaxCompute计算和存储,提供工作流可视化开发、调度运维托管的一站式海量数据离线加工分析平台。在数加(一站式大数据平台)中,DataWorks控制台即为MaxCompute控制台。

使用阿里云的话需要组件:DataWorks(包含MaxComputer的存储、计算)、Kafka、类似Flume的组件(阿里云上没找到)

运维方面

dataworks优于 cdh,相比来说,扩展更简便、告警服务完善等。
cdh需要自己维护,网络环境、服务宕机等解决起来略麻烦,搭建环境要求较高,出现问题解决问题的效率较慢。

费用

CDH私有云方案

阿里云ECS机器*[3-4]即可,其余都在机器上配置
单台ecs费用如下:
image.png

阿里云服务方案

MaxComputer

CDH和阿里云方案技术选型 - 图2

存储计费(按量计费)

存储量 阶梯单价 说明
大于0 GB小于等于0.5 GB部分 固定0.01元/天 项目的实际数据存储量大于0 MB小于等于512 MB时,MaxCompute将收取该项目0.01元/天的费用。
- 如果某个MaxCompute项目存储的数据为100 MB,MaxCompute会对该项目直接收取0.01元/天的费用。
- 如果您有多个项目,且每个项目实际数据存储量小于512 MB,MaxCompute会对每个项目收取0.01元/天。
大于0.5 GB小于等于10 TB部分 0.0072元/GB/天 项目的实际数据存储量大于等于512 MB时,MaxCompute对项目进行阶梯收费。
由于MaxCompute以项目空间为基本单位,计算您当天的存储平均值。因此数据越集中存放在某个项目空间中,存储费用会越低。假设您的某个项目每天存储平均值为1 PB,则该项目每天收取的费用如下。```

10240 GB0.0072元/GB/天 +(102400-10240)GB0.006元/GB/天 +(1024_1024-102400)GB_0.004元/GB/天 =4411.39元/天

  1. |
  2. | 大于10TB小于等于100 TB 部分 | 0.006元/GB/天 | |
  3. | 大于100 TB部分 | 0.004元/GB/天 | |
  4. **备份存储计费**<br />MaxCompute会针对自动备份的数据进行计费。计费规则如下:
  5. - 项目默认自动备份并保留1天内变化的数据版本,且1天内的备份存储免费。即默认情况下,MaxCompute项目免费提供数据保留周期为1天的自动备份能力。
  6. - 当项目管理员修改备份保留周期超过1天时,MaxCompute将对超过1天的备份数据按量计费,**单价为0.004元/GB/天**。
  7. > 按照平均每年(5T+0.5G)数据算,每天费用:`0.01 + 5* 1024 GB*0.0072元/GB/天 = 36.8元/天`
  8. > 一年的话:` 36.8元/天 * 365天 = 13432元`
  9. > 如果需要额外的备份:`5* 1024 GB*0.004元/GB/天 = 20.5元/天`
  10. > 一年的话:` 36.8元/天 * 365天 = 7482元`
  11. <a name="iBTcd"></a>
  12. #### [计算费用(包年包月)](https://help.aliyun.com/document_detail/27989.html?spm=a2c4g.11186623.6.568.20402537yCjfju)
  13. | **类型** | **资源定义** | **内存** | **CPU** | **售价** | **备注** |
  14. | --- | --- | --- | --- | --- | --- |
  15. | 预留计算资源 | 1CU | 4GB | 1CPU | 150元/月 | 购买时长为1年或以上可享8.5折优惠 |
  16. | 非预留计算资源 | 1CU | 4GB | 1CPU | 40元/月 | 不涉及 |
  17. > 可以选择便宜的,一般来说至少需要3CU
  18. > 一年的话:`3CU * 40元/CU/月 * 12月 = 1440元`
  19. <a name="tqfAb"></a>
  20. #### [计算费用(按量计费)](https://help.aliyun.com/document_detail/112752.html?spm=a2c4g.11186623.6.569.7ee773e98y6KVJ)
  21. **SQL作业按量计费**
  22. | **类型** | **计费公式(单个SQL作业计算费用)** | **说明** |
  23. | --- | --- | --- |
  24. | 使用开发者版MaxCompute服务的SQL作业 | 计算输入数据量×单价(0.15元/GB | 计算输入数据量:指一个SQL作业实际扫描的数据量。大部分的SQL作业有分区过滤和列裁剪,所以通常该值会远小于源表数据大小。<br />- 分区过滤:例如SQL语句中含有`WHERE ds > 20130101``ds`是分区列,则计费的数据量仅包括实际读取的分区,不包括其他分区的数据。<br />- 列裁剪:例如SQL语句`SELECT f1,f2,f3 FROM t1;`,只计算t1表中f1f2f3列的数据量,其他列不参与计费。<br /> |
  25. | 使用标准版MaxCompute服务的SQL作业 | 计算输入数据量×SQL复杂度×单价(0.3元/GB | SQL复杂度:先统计SQL语句中的关键字,再折算为SQL复杂度,具体如下:<br />- SQL关键字个数=JOIN个数+GROUP BY个数+ORDER BY个数+DISTINCT个数+窗口函数个数+`MAX(INSERT个数-1, 1)`。<br />- SQL复杂度计算:<br /> - SQL关键字个数小于等于3,复杂度为1。<br /> - SQL关键字个数小于等于6,且大于等于4,复杂度为1.5。<br /> - SQL关键字个数小于等于19,且大于等于7,复杂度为2。<br /> - SQL关键字个数大于等于20,复杂度为4。<br /> |
  26. | 引用外部表的SQL作业 | 计算输入数据量×单价(0.03元/GB | |
  27. **<br />**MapReduce按量计费**

MapReduce作业当日计算费用=当日总计算时×单价(0.46元/计算时) 一个执行成功的MapReduce作业计算时=作业运行时间(小时)×作业调用的Core数量。

  1. **Spark按量计费**

Spark作业当日计算费用=当日总计算时×单价(0.66元/计算时) ```

下载费用(按量计费)

计费项 价格
公网下载价格 0.8元/GB

套餐计费(包年包月)

套餐资源
套餐包含计算资源和存储资源,如下表所示。

规格类型 计算资源(CU) 存储资源 上传/下载资源
存储密集型160套餐 160 150TB,超出部分按量付费 无限制,按量付费
存储密集型320套餐 320 300TB,超出部分按量付费 无限制,按量付费
存储密集型600套餐 600 500TB,超出部分按量付费 无限制,按量付费

套餐价格

规格类型 月单价(元/月) 存储超出单价(元/GB) 公网下载单价(元/GB)
存储密集型160套餐 35000 0.019 0.8
存储密集型320套餐 70000 0.019 0.8
存储密集型600套餐 125000 0.019 0.8

总结

1440 + 13432 + (可选备份)+ 7482 = 22354元

Kafka

包年包月

流量峰值(MB/s) Topic数量(个) 中国内地(元/小时) 中国(香港)、新加坡(新加坡)(元/小时)
20 50 2.42 3.51
30 50 3.50 5.08
60 80 5.04 7.31
90 100 6.43 9.33
120 150 7.82 11.34

20MB/s足够 一年的话:2.42元/元/小时 * 24小时 * 365天 = 21199.2元

按量付费

计费规则包含公网流量、流量峰值、磁盘容量、增加Topic:

  • 如果购买的是公网/VPC实例,请按需选择公网流量、流量峰值、磁盘容量、增加的Topic数量,计费公式如下。总计费=(公网流量单价+流量峰值单价+磁盘容量单价x购买的磁盘容量/100+Topic单价x增加的Topic数量)x小时数
  • 如果购买的是VPC实例,请按需选择流量峰值、磁盘容量、增加的Topic数量,计费公式如下。总计费=(流量峰值单价+磁盘容量单价x购买的磁盘容量/100+Topic单价x增加的Topic数量)x小时数

公网流量计费

地域 实例单价 (元/小时) 流量单价 (元/GB)
华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华北5(呼和浩特)、华南1(深圳)、华南2(河源)、西南1(成都)、马来西亚(吉隆坡) 0.02 0.80
华北1 (青岛) 0.02 0.72
中国(香港) 0.056 1.0
新加坡、 印度尼西亚(雅加达)、印度 (孟买) 0.04 0.75
日本(东京) 0.032 0.60
美国(弗吉尼亚)、美国(硅谷) 0.03 0.50
德国(法兰克福) 0.036 0.50
英国(伦敦) 0.05 0.50
阿联酋(迪拜) 0.06 1.00
澳大利亚(悉尼) 0.04 0.66
计费方式 配置费 流量费/带宽费 总费用
按使用流量计费 配置费如下:
- 实例单价:假设华东1(杭州)地域的EIP实例单价为0.02元/小时/个。
- 使用时长:当日该EIP使用了14.5个小时,按照向上取整原则计算,使用时长为15个小时。
- 当日该EIP配置费:实例单价 × 使用时长 = 0.02元/小时/个×15小时×1个=0.3元。
流量费如下:
- 流量单价:假设华东1(杭州)地域的流量单价为0.8元/GB。
- 使用流量:当日该EIP的总流量为60GB。
- 当日该EIP的流量费:流量单价 × 使用流量 = 0.8元/GB×60GB=48元。
总费用 = 配置费 + 流量费 = 0.3元 + 48元 = 48.3元
按固定带宽计费 配置费如下:
- 实例单价:假设华东1(杭州)地域的EIP实例单价为0.48元/天/个。
- 使用时长:当日该EIP使用了14.5个小时,按照向上取整原则计算,使用时长为15个小时。
- 当日该EIP配置费:0.48元/天/个 ÷ 24小时 × 15小时 × 1个 = 0.3元。
带宽费如下:
- 带宽峰值:取当日该EIP设置的最大带宽值即20Mbps。
- 带宽单价:华东1(杭州)地域20Mbps带宽的1天使用价格为 0.96(1~5Mbps带宽1天的价格是0.96元)×5+3.36(大于5Mbps带宽1天的价格是3.36元)×(20 - 5)=55.2 元/天。
- 使用时长:当日该EIP使用了14.5个小时,按照向上取整原则计算,使用时长为15个小时。
- 当日该EIP的带宽费 = 55.2元/天÷24小时×15小时=34.5元。
总费用 = 配置费 + 带宽费 = 0.3元 + 34.5元 = 34.8元

按1天10G流量算 一年的话:10G/天 * 0.8元/G * 365天 = 2920元

流量峰值计费规则(标准版)

流量峰值(MB/s) Topic数量(个) 中国内地(元/小时) 中国(香港)、新加坡(新加坡)(元/小时)
20 50 2.42 3.51
30 50 3.50 5.08
60 80 5.04 7.31
90 100 6.43 9.33
120 150 7.82 11.34

按1天20MB/s算 一年的话:2.42元/小时 * 24小时/天 * 365天 = 21199元

磁盘容量计费规则

磁盘类型 磁盘大小(GB) 中国内地单价(元/小时) 中国(香港)、新加坡(新加坡)单价(元/小时) 说明
高效云盘 100 0.06 0.09
- 支持的流量峰值规格最大为120 MB/s。
- 磁盘类型一经下单不可更改,请谨慎选择。
SSD 100 0.16 0.24
- 支持的流量峰值规格最大为120 MB/s。
- 磁盘类型一经下单不可更改,请谨慎选择。

按高效云盘算 一年的话:0.06元/小时 * 24小时/天 * 365天 = 525元

增加Topic计费规则

计费项目 Topic数量(个) 中国内地(元/小时) 中国(香港)、新加坡(新加坡)(元/小时) 说明
Topic 1 0.083 0.121
- 支持的Topic规格最大为450,即在Topic规格基数上最多支持增加到450个。
- 您每增加1个Topic,对应增加2个Consumer Group的配额。

按10个tpoic算 一年的话:10个 * 0.083元/个/小时 * 24小时 * 365天 = 7270元

总结

按量粗略总计:按照10个topic、峰值20MB/s、公网流量10G/天
2920 + 21199 + 525 + 7270 = 31914
按量的话大于套餐的21199.2

费用总结

CDH方案,4节点 * 19123元/台/年 = 76492元/年
在阿里云方案还缺失flume组件(数据收集到kafka)的情况下,费用为 21199.2 + 22354 = 43553.2元/年

此处缺失阿里云flume组件,阿里云方案费用不全,预估不贵,如果没有相关服务,买一台4c8g(4800元/年)的ecs手动搭建即可;CDH方案虽然相比较贵,但距离资源瓶颈(16->32G)还有8-10G内存的空间(内存空闲资源8-10G/节点),后期可以延缓升配,并且CDH组件本身支持实时计算,即席查询服务(资源勉强够),如果后期需求扩展需要,阿里云服务那边的费用也是线性增长,而CDH不需要。

优缺点

CDH 阿里云服务
部署 支持私有云部署 不支持
安装 复杂 简单
可靠性
扩展性 相对较低
费用 阶段恒定 线性增加,预估1-2年内数据量费用略低于CDH
组件配套 齐全,包括即席查询、实时查询 目前缺失flume、非关系型存储目前MaxComputer没看到
组件自由度
入门 较复杂。需要自己管理进行作业调度、告警、spark代码编写 简单。支持控制台sql方式,提供接口、SDK
维护 难维护 无需维护
技术方案 齐全 目前还有技术空白