DataWorks是基于MaxCompute计算和存储,提供工作流可视化开发、调度运维托管的一站式海量数据离线加工分析平台。在数加(一站式大数据平台)中,DataWorks控制台即为MaxCompute控制台。
使用阿里云的话需要组件:DataWorks(包含MaxComputer的存储、计算)、Kafka、类似Flume的组件(阿里云上没找到)
运维方面
dataworks优于 cdh,相比来说,扩展更简便、告警服务完善等。
cdh需要自己维护,网络环境、服务宕机等解决起来略麻烦,搭建环境要求较高,出现问题解决问题的效率较慢。
费用
CDH私有云方案
阿里云ECS机器*[3-4]即可,其余都在机器上配置
单台ecs费用如下:
阿里云服务方案
MaxComputer
存储计费(按量计费)
存储量 | 阶梯单价 | 说明 |
---|---|---|
大于0 GB小于等于0.5 GB部分 | 固定0.01元/天 | 项目的实际数据存储量大于0 MB小于等于512 MB时,MaxCompute将收取该项目0.01元/天的费用。 - 如果某个MaxCompute项目存储的数据为100 MB,MaxCompute会对该项目直接收取0.01元/天的费用。 - 如果您有多个项目,且每个项目实际数据存储量小于512 MB,MaxCompute会对每个项目收取0.01元/天。 |
大于0.5 GB小于等于10 TB部分 | 0.0072元/GB/天 | 项目的实际数据存储量大于等于512 MB时,MaxCompute对项目进行阶梯收费。 由于MaxCompute以项目空间为基本单位,计算您当天的存储平均值。因此数据越集中存放在某个项目空间中,存储费用会越低。假设您的某个项目每天存储平均值为1 PB,则该项目每天收取的费用如下。``` |
10240 GB0.0072元/GB/天 +(102400-10240)GB0.006元/GB/天 +(1024_1024-102400)GB_0.004元/GB/天 =4411.39元/天
|
| 大于10TB小于等于100 TB 部分 | 0.006元/GB/天 | |
| 大于100 TB部分 | 0.004元/GB/天 | |
**备份存储计费**<br />MaxCompute会针对自动备份的数据进行计费。计费规则如下:
- 项目默认自动备份并保留1天内变化的数据版本,且1天内的备份存储免费。即默认情况下,MaxCompute项目免费提供数据保留周期为1天的自动备份能力。
- 当项目管理员修改备份保留周期超过1天时,MaxCompute将对超过1天的备份数据按量计费,**单价为0.004元/GB/天**。
> 按照平均每年(5T+0.5G)数据算,每天费用:`0.01 + 5* 1024 GB*0.0072元/GB/天 = 36.8元/天`
> 一年的话:` 36.8元/天 * 365天 = 13432元`
> 如果需要额外的备份:`5* 1024 GB*0.004元/GB/天 = 20.5元/天`
> 一年的话:` 36.8元/天 * 365天 = 7482元`
<a name="iBTcd"></a>
#### [计算费用(包年包月)](https://help.aliyun.com/document_detail/27989.html?spm=a2c4g.11186623.6.568.20402537yCjfju)
| **类型** | **资源定义** | **内存** | **CPU** | **售价** | **备注** |
| --- | --- | --- | --- | --- | --- |
| 预留计算资源 | 1CU | 4GB | 1CPU | 150元/月 | 购买时长为1年或以上可享8.5折优惠 |
| 非预留计算资源 | 1CU | 4GB | 1CPU | 40元/月 | 不涉及 |
> 可以选择便宜的,一般来说至少需要3CU
> 一年的话:`3CU * 40元/CU/月 * 12月 = 1440元`
<a name="tqfAb"></a>
#### [计算费用(按量计费)](https://help.aliyun.com/document_detail/112752.html?spm=a2c4g.11186623.6.569.7ee773e98y6KVJ)
**SQL作业按量计费**
| **类型** | **计费公式(单个SQL作业计算费用)** | **说明** |
| --- | --- | --- |
| 使用开发者版MaxCompute服务的SQL作业 | 计算输入数据量×单价(0.15元/GB) | 计算输入数据量:指一个SQL作业实际扫描的数据量。大部分的SQL作业有分区过滤和列裁剪,所以通常该值会远小于源表数据大小。<br />- 分区过滤:例如SQL语句中含有`WHERE ds > 20130101`,`ds`是分区列,则计费的数据量仅包括实际读取的分区,不包括其他分区的数据。<br />- 列裁剪:例如SQL语句`SELECT f1,f2,f3 FROM t1;`,只计算t1表中f1、f2和f3列的数据量,其他列不参与计费。<br /> |
| 使用标准版MaxCompute服务的SQL作业 | 计算输入数据量×SQL复杂度×单价(0.3元/GB) | SQL复杂度:先统计SQL语句中的关键字,再折算为SQL复杂度,具体如下:<br />- SQL关键字个数=JOIN个数+GROUP BY个数+ORDER BY个数+DISTINCT个数+窗口函数个数+`MAX(INSERT个数-1, 1)`。<br />- SQL复杂度计算:<br /> - SQL关键字个数小于等于3,复杂度为1。<br /> - SQL关键字个数小于等于6,且大于等于4,复杂度为1.5。<br /> - SQL关键字个数小于等于19,且大于等于7,复杂度为2。<br /> - SQL关键字个数大于等于20,复杂度为4。<br /> |
| 引用外部表的SQL作业 | 计算输入数据量×单价(0.03元/GB) | |
**<br />**MapReduce按量计费**
MapReduce作业当日计算费用=当日总计算时×单价(0.46元/计算时) 一个执行成功的MapReduce作业计算时=作业运行时间(小时)×作业调用的Core数量。
**Spark按量计费**
Spark作业当日计算费用=当日总计算时×单价(0.66元/计算时) ```
下载费用(按量计费)
计费项 | 价格 |
---|---|
公网下载价格 | 0.8元/GB |
套餐计费(包年包月)
套餐资源
套餐包含计算资源和存储资源,如下表所示。
规格类型 | 计算资源(CU) | 存储资源 | 上传/下载资源 |
---|---|---|---|
存储密集型160套餐 | 160 | 150TB,超出部分按量付费 | 无限制,按量付费 |
存储密集型320套餐 | 320 | 300TB,超出部分按量付费 | 无限制,按量付费 |
存储密集型600套餐 | 600 | 500TB,超出部分按量付费 | 无限制,按量付费 |
套餐价格
规格类型 | 月单价(元/月) | 存储超出单价(元/GB) | 公网下载单价(元/GB) |
---|---|---|---|
存储密集型160套餐 | 35000 | 0.019 | 0.8 |
存储密集型320套餐 | 70000 | 0.019 | 0.8 |
存储密集型600套餐 | 125000 | 0.019 | 0.8 |
总结
1440 + 13432 + (可选备份)+ 7482 = 22354元
Kafka
包年包月
流量峰值(MB/s) | Topic数量(个) | 中国内地(元/小时) | 中国(香港)、新加坡(新加坡)(元/小时) |
---|---|---|---|
20 | 50 | 2.42 | 3.51 |
30 | 50 | 3.50 | 5.08 |
60 | 80 | 5.04 | 7.31 |
90 | 100 | 6.43 | 9.33 |
120 | 150 | 7.82 | 11.34 |
20MB/s足够 一年的话:
2.42元/元/小时 * 24小时 * 365天 = 21199.2元
按量付费
计费规则包含公网流量、流量峰值、磁盘容量、增加Topic:
- 如果购买的是公网/VPC实例,请按需选择公网流量、流量峰值、磁盘容量、增加的Topic数量,计费公式如下。总计费=(公网流量单价+流量峰值单价+磁盘容量单价x购买的磁盘容量/100+Topic单价x增加的Topic数量)x小时数
- 如果购买的是VPC实例,请按需选择流量峰值、磁盘容量、增加的Topic数量,计费公式如下。总计费=(流量峰值单价+磁盘容量单价x购买的磁盘容量/100+Topic单价x增加的Topic数量)x小时数
公网流量计费
地域 | 实例单价 (元/小时) | 流量单价 (元/GB) |
---|---|---|
华东1(杭州)、华东2(上海)、华北2(北京)、华北3(张家口)、华北5(呼和浩特)、华南1(深圳)、华南2(河源)、西南1(成都)、马来西亚(吉隆坡) | 0.02 | 0.80 |
华北1 (青岛) | 0.02 | 0.72 |
中国(香港) | 0.056 | 1.0 |
新加坡、 印度尼西亚(雅加达)、印度 (孟买) | 0.04 | 0.75 |
日本(东京) | 0.032 | 0.60 |
美国(弗吉尼亚)、美国(硅谷) | 0.03 | 0.50 |
德国(法兰克福) | 0.036 | 0.50 |
英国(伦敦) | 0.05 | 0.50 |
阿联酋(迪拜) | 0.06 | 1.00 |
澳大利亚(悉尼) | 0.04 | 0.66 |
计费方式 | 配置费 | 流量费/带宽费 | 总费用 |
---|---|---|---|
按使用流量计费 | 配置费如下: - 实例单价:假设华东1(杭州)地域的EIP实例单价为0.02元/小时/个。 - 使用时长:当日该EIP使用了14.5个小时,按照向上取整原则计算,使用时长为15个小时。 - 当日该EIP配置费:实例单价 × 使用时长 = 0.02元/小时/个×15小时×1个=0.3元。 |
流量费如下: - 流量单价:假设华东1(杭州)地域的流量单价为0.8元/GB。 - 使用流量:当日该EIP的总流量为60GB。 - 当日该EIP的流量费:流量单价 × 使用流量 = 0.8元/GB×60GB=48元。 |
总费用 = 配置费 + 流量费 = 0.3元 + 48元 = 48.3元 |
按固定带宽计费 | 配置费如下: - 实例单价:假设华东1(杭州)地域的EIP实例单价为0.48元/天/个。 - 使用时长:当日该EIP使用了14.5个小时,按照向上取整原则计算,使用时长为15个小时。 - 当日该EIP配置费:0.48元/天/个 ÷ 24小时 × 15小时 × 1个 = 0.3元。 |
带宽费如下: - 带宽峰值:取当日该EIP设置的最大带宽值即20Mbps。 - 带宽单价:华东1(杭州)地域20Mbps带宽的1天使用价格为 0.96(1~5Mbps带宽1天的价格是0.96元)×5+3.36(大于5Mbps带宽1天的价格是3.36元)×(20 - 5)=55.2 元/天。 - 使用时长:当日该EIP使用了14.5个小时,按照向上取整原则计算,使用时长为15个小时。 - 当日该EIP的带宽费 = 55.2元/天÷24小时×15小时=34.5元。 |
总费用 = 配置费 + 带宽费 = 0.3元 + 34.5元 = 34.8元 |
按1天10G流量算 一年的话:
10G/天 * 0.8元/G * 365天 = 2920元
流量峰值计费规则(标准版)
流量峰值(MB/s) | Topic数量(个) | 中国内地(元/小时) | 中国(香港)、新加坡(新加坡)(元/小时) |
---|---|---|---|
20 | 50 | 2.42 | 3.51 |
30 | 50 | 3.50 | 5.08 |
60 | 80 | 5.04 | 7.31 |
90 | 100 | 6.43 | 9.33 |
120 | 150 | 7.82 | 11.34 |
按1天20MB/s算 一年的话:
2.42元/小时 * 24小时/天 * 365天 = 21199元
磁盘容量计费规则
磁盘类型 | 磁盘大小(GB) | 中国内地单价(元/小时) | 中国(香港)、新加坡(新加坡)单价(元/小时) | 说明 |
---|---|---|---|---|
高效云盘 | 100 | 0.06 | 0.09 | - 支持的流量峰值规格最大为120 MB/s。 - 磁盘类型一经下单不可更改,请谨慎选择。 |
SSD | 100 | 0.16 | 0.24 | - 支持的流量峰值规格最大为120 MB/s。 - 磁盘类型一经下单不可更改,请谨慎选择。 |
按高效云盘算 一年的话:
0.06元/小时 * 24小时/天 * 365天 = 525元
增加Topic计费规则
计费项目 | Topic数量(个) | 中国内地(元/小时) | 中国(香港)、新加坡(新加坡)(元/小时) | 说明 |
---|---|---|---|---|
Topic | 1 | 0.083 | 0.121 | - 支持的Topic规格最大为450,即在Topic规格基数上最多支持增加到450个。 - 您每增加1个Topic,对应增加2个Consumer Group的配额。 |
按10个tpoic算 一年的话:
10个 * 0.083元/个/小时 * 24小时 * 365天 = 7270元
总结
按量粗略总计:按照10个topic、峰值20MB/s、公网流量10G/天2920 + 21199 + 525 + 7270 = 31914
按量的话大于套餐的21199.2
费用总结
CDH方案,4节点 * 19123元/台/年 = 76492元/年
在阿里云方案还缺失flume组件(数据收集到kafka)的情况下,费用为 21199.2 + 22354 = 43553.2元/年
此处缺失阿里云flume组件,阿里云方案费用不全,预估不贵,如果没有相关服务,买一台4c8g(4800元/年
)的ecs手动搭建即可;CDH方案虽然相比较贵,但距离资源瓶颈(16->32G)还有8-10G内存的空间(内存空闲资源8-10G/节点),后期可以延缓升配,并且CDH组件本身支持实时计算,即席查询服务(资源勉强够),如果后期需求扩展需要,阿里云服务那边的费用也是线性增长,而CDH不需要。
优缺点
CDH | 阿里云服务 | |
---|---|---|
部署 | 支持私有云部署 | 不支持 |
安装 | 复杂 | 简单 |
可靠性 | 低 | 高 |
扩展性 | 相对较低 | 高 |
费用 | 阶段恒定 | 线性增加,预估1-2年内数据量费用略低于CDH |
组件配套 | 齐全,包括即席查询、实时查询 | 目前缺失flume、非关系型存储目前MaxComputer没看到 |
组件自由度 | 高 | 低 |
入门 | 较复杂。需要自己管理进行作业调度、告警、spark代码编写 | 简单。支持控制台sql方式,提供接口、SDK |
维护 | 难维护 | 无需维护 |
技术方案 | 齐全 | 目前还有技术空白 |