GreenPlum选型介绍

本地数仓建设通常有几个选择:

  • 适合小公司基于传统关系型数据库构建:基于Mysql,Oracle等构建。注:通常以1T为限制。
  • 适合中等规模业绩分析的数据仓库:基于Teradata,GreenPlum,Sybase IQ等。
  • 适合大数据海量运算的数据仓库:基于Hbase,Kylin,Doris等。

基于扩展性+大宽表性能+可控度+兼容性+成本投入五个维度综合评估,本地数据资产仓库选择GreenPlum(简称:GP)作为底层数据储存载体

GP属于MPP并行处理架构需要多台机器在大宽表计算优势明显,在小数据表性能不如OLTP数据库。

LD本地数仓架构方案

整体架构重点考虑的情况包括:

  • SAP和明源的数据均在本地网络,需考虑安全隔离。
  • 存在未来云RDS的可能性,需要考虑扩展性。
  • 数据运维的安全审计。
  • 实时与定时数据同步。

数仓架构图

image.png

数仓架构说明

  • 数据源部分:SAP数据源,可结合SAP DataService的优势和利用已有的销售中间库减少主数据提高构建效率。除了考虑传统的数据库还需要考虑其它可能的云RDS数据采集的效率。
  • 数据ETL部分:针对本地数据库推荐构建两台服务器,一台处理定时数据工具选择Kettle,一台处理实时数据工具选择NiFi(可选)。
  • 本地数仓部分:采用GreenPlum,支持并行计算架构,支持物化视图,SQL兼容性高。注:与阿里云ADB PostgreSQL版本都是基于PostgreSQL,未来如果迁移云数仓能够高度兼容。
  • 数据应用和管理:基于通用查询分析器如:PGadmin,Dbeaver等进行管理数据库,推荐配置运维堡垒机实现数据库操作审计。

服务器配置清单

服务器名称 配置要求 备注
定时ETL CPU:16核 3.2G,内存:32G+,硬盘:SSD 150G+
操作系统:Windows Server 2016+
*
实时ETL CPU:16核 3.2G,内存:32G+,硬盘:SSD 120G+
操作系统:Centos7
可选
GP Master
(1台)
CPU:32核 3.2G,内存:64G+,硬盘:SSD 150G+,网络:万兆
数据存储:推荐采用专业存储系统
操作系统:Centos7
*
GP Segment
(3台)
CPU:32核 3.2G,内存:64G+,硬盘:SSD 150G+,网络:万兆
数据存储:推荐采用专业存储系统
操作系统:Centos7
*可按需弹性扩展

注:本地服务器无法弹性扩容,所以实际采购时建议提前购买预留空间,避免后续物理扩展带来的数据迁移投入。

运维服务

由于开源平台自主性很好,最大化发挥系统优势需要服务支撑,推荐购买专业的GreenPlum运维服务。

本地和云方案参考价格

本地主机价格以阿里云ECS作为参考,实际与企业基础架构有偏差。同时阿里云价格也是浮动的,不定期有活动,最终价格略有差异。

主机 采用本地架构价格 采用云架构价格 备注
定时ETL服务器费用 17000 17000 元/每年
数据仓库服务器费用 132000 22000 元/每年,均为4节点
持续运维费用 20000 0 元/每年
合计: 169000 39000 元/每年
首次部署实施费用 20000 0 单次

注:DMS,审计堡垒机价格不好对比故没有体现。

GreenPlum简介

Greenplum数据库是一种大规模并行处理(MPP)数据库服务器,其架构特别针对管理大规模分析型数据仓库以及商业智能工作负载而设计。
MPP(也被称为shared nothing架构)指有两个或者更多个处理器协同执行一个操作的系统,每一个处理器都有其自己的内存、操作系统和磁盘。 Greenplum使用这种高性能系统架构来分布数T字节数据仓库的负载并且能够使用系统的所有资源并行处理一个查询。
Greenplum数据库是基于PostgreSQL开源技术的。其SQL支持、特性、配置选项和最终用户功能在大部分情况下和PostgreSQL非常相似。
主要特性:
扩展性
本次选型立足长远,数据资产不仅会包括现有动态业务数据,还可能包括定期快照数据,外部成本数据库数据,内部其它数据等。GreenPlum属于大规模并行处理数据平台可以支撑PB级数据,横向扩展很容易。
大宽表性能
公司主要的数据分析最大特点是大宽表,需要关联很多细表,MPP的架构善于应对多表关联分析。同时为了达到秒级大宽表响应GreenPlum支持物化视图可大幅提升使用体验。
可控度
GreenPlum属于开源产品,企业能够完全控制不受任何第三方的限制。同时其底层采用的是流行度很高的Postgresql,国内有ASK社区,互联网资源非常丰富,服务人才供给丰富。
兼容性
GreenPlum是大数据领域的关系型数据库,能够非常好地兼容现有数据分析体系。
成本投入
仅需投入安装和运维费用,相较商业数据库节约成本超过70%以上。
其它方面
目前地产行业已有中南、绿城、仁恒开始局部或全面采用GreenPlum进行数据资产库建设。GreenPlum是淘宝中期阶段的主要数仓,迄今为止仍然在阿里内部运行支持部分数据业务。