阿里云ADB选型介绍

阿里云数据储存分为三大类:

  • 适合处理常规业务的数据库如:关系型数据库,Nosql数据库。注:写入严谨,通常以2T为限制。
  • 适合处理数据分析的数据库如:数据仓库。注:读取快,通常可以突破到PB级。
  • 适合处理大数据的数据库如:海量数据库,Maxcompute,日志,ES。注:理论上无上限。

阿里云ADB产品属于第二类,主要包括两个产品:AnalyticDB Mysql版本,AnalyticDB PostgreSQL 版本。针对LD的情况需要大宽表,高查询性能,兼容性高,可扩展储存能力,我们推荐ADB PostgresSQL版本

目前PostgreSQL版本比Mysql版本的价格低30%以上,性价比更高。

LD云数仓架构方案

整体架构重点考虑的情况包括:

  • SAP和明源的数据均在本地网络,需考虑安全隔离。
  • 存在未来云RDS的可能性,需要考虑扩展性。
  • 数据运维的安全审计。
  • 实时与定时数据同步。

数仓架构图

image.png

数仓架构说明

  • 数据源部分:本次项目主要以明源MS SQLserver数据源为主。兼容SAP数据源,可结合SAP DataService的优势和利用已有的销售中间库减少主数据提高构建效率。除了考虑传统的数据库还需要考虑其它可能的云RDS数据采集的效率。
  • 服务器接入网关:考虑到机房部署的便捷性,基础架构的弹性,兼容已有本地数据库,可通过本地网关IPsec服务,建立与云端服务器点对点通信。建议出口速率保障10M以上。
  • 数据集成部分:针对未来云端RDS数据同步,可以采用阿里云DTS实现数据的同步与实时订阅(注:DTS暂不支持MS SQLserver数据订阅)。
  • 数据ETL部分:可在云端部署两台服务器,一台处理定时数据工具选择Kettle,一台处理实时数据工具选择NiFi(可选)。
  • 云数仓部分:采用阿里云ADB PostgreSQL版本,支持并行计算架构,支持物化视图,SQL兼容性高。
  • 数据应用和管理:推荐采用DMS进行数据仓库统一管理,实现权限分配,SQL查询分析器,日志记录,SQL审核等。注:如不采用DMS管理,建议配置堡垒机以实现操作安全审计。

服务器配置清单

服务器名称 配置要求 备注
定时ETL CPU:16核 3.2G,内存:32G+,硬盘:SSD 150G+
操作系统:Windows Server 2016+
*
实时ETL CPU:16核 3.2G,内存:32G+,硬盘:SSD 120G+
操作系统:Centos7
可选
ADB 资源类型:存储弹性模式,引擎版本:标准版
节点规格:2C32G,节点数量:4个,单节点容量:ESSD 50G
*可按需弹性扩展
DMS数据管理工具 管控模式:安全协同,使用实例数量:4 可选,推荐采用
DTS数据同步工具 针对RDS采用 可选

ADB单节点容量50G,4节点4*50=200G,由于数据库会做镜像备份,实际可用容量/2=100G。实际根据需要可以灵活弹性增加。

未来拓展潜力

可以基于ADB通过阿里云DataWorks/Dataphin扩展构建“数据中台”,主要可以解决:数据模型构建自动化,大批量任务调度,可视化数据开发,统一数据服务,数据资产管理,大型数据开发团队协同开发等。

本地和云方案参考价格

本地主机价格以阿里云ECS作为参考,实际与企业基础架构有偏差。同时阿里云价格也是浮动的,不定期有活动,最终价格略有差异。

主机 采用本地架构价格 采用云架构价格 备注
定时ETL服务器费用 17000 17000 元/每年
数据仓库服务器费用 132000 22000 元/每年,均为4节点
持续运维费用 20000 0 元/每年
合计: 169000 39000 元/每年
首次部署实施费用 20000 0 单次

注:DMS,审计堡垒机价格不好对比故没有体现。

阿里云ADB简介

云原生数据仓库 AnalyticDB PostgreSQL 版,支持标准 SQL 2003,兼容PostgreSQL /Greenplum, 高度兼容 Oracle 语法生态;具有存储计算分离,在线弹性平滑扩容的特点;既支持任意维度在线分析探索,也支持高性能离线数据处理;是企业数字化有竞争力的数据仓库方案。
主要特性:
功能完备,易开发适配
支持SQL 2003,高度兼容Oracle语法生态,支持PL/SQL存储过程,支持事务和数据库隔离级别。支持主流BI和ETL工具 ,包括 QuickBI、DataV、Tableau、永洪、帆软等。
PB级数据秒级分析
MPP水平扩展架构,PB级数据查询秒级响应;向量化计算,及列存储智能索引,领先传统数据库引擎性能 10x;新一代SQL优化器ORCA,复杂分析语句免调优。
高可用,服务永远在线
所有数据双节点强同步冗余,分布式部署,全透明化监控,切换,恢复,提高重要数据基础设施保障。
HTAP混合负载
支持分布式事务,支持四种标准数据库隔离级别;满足高吞吐在线交易应用场景需求,实现HTAP混合负载。
数据多模分析
通过PostGIS 插件支持地理信息数据分析,MADlib 库内置100+机器学习算法库。
数据互联互通
支持通过数据传输服务DTS、数据集成 Dataworks,Kettle、Informatic 等,与多种数据源进行数据实时同步;支持高并行访问OSS,构筑数据湖分析。