业务背景:多个定制开发系统,进销存业务与发票业务存在数据割裂,几乎所有数据都为结构化数据,数据用户为经销商,药企,医院等B端客户;
目的:汇聚不同系统,不同业务的数据源,将数据汇聚到一个数据仓库中,用来支撑BI报表,标签系统,数据检索平台,算法应用等数据应用。未来为厂商,经销商,医院等提供数据服务支持;
调研范围:本次调研涉及产品有公有云厂商产品:阿里dataworks,阿里dataphin,华为dataArts,腾讯TBDS,网易数帆;独立厂商产品:奇点云(dataworks团队),数澜科技(dataphin团队),袋鼠云(dataworks团队),滴普科技(华为阿里背景);独立厂商:星环科技;
本次调研涉及的能力维度如下:迁移能力,数据中台核心特性(流批一体,湖仓一体,存算分离,低代码化,数据治理),产品迭代方向,技术难点,客户去向,计费方式,费用经验值。选型逻辑:
① 整体架构选择:所有的数据中台产品本质上都是hadoop全系列的发行版,在此基础上做一些功能优化和补充,所以都具有跨hadoop平台的可迁移性,功能模块的松耦合性。流批一体特性是指的数仓整体架构,lambda架构为流批分体架构,分别使用spark和flink实现离线和实时计算;kappa架构为流批一体架构,维护一套sql控制spark和flink实现离线和实时计算。咨询过阿里的产品运营和腾讯的朋友,该技术还不能在合理的成本内实现,且我们没有C端用户,实时计算的需求应该是极少的,日常T+1/0.5的更新能力可以满足用户需求。故选择lambda架构。像库存表这种需求,当前直接查业务库可实现;未来也可使用独立的流计算实现; ② 核心特性选择: 湖仓一体:翔云系统基本没有非结构化数据,用不到数据湖; 存算分离:当前商业化产品基本都是存算分离; 低代码化:当前是伪需求,代码需要深度优化才能节约计算成本;未来经销商特别多的情况下可能会有这个需求,届时部署一个kettle,或使用帆软BI内置的datalink和小数仓也可实现; 数据治理工具:基本都是基于atlas的功能,已经很成熟; ③ 计费方式: 除了阿里是按量计费,存储按数据量收费,计算按每一条sql收费;其他都是按产品版本,功能模块整体收费,买断或订阅,扩容按license收费,买断制每年会有总价15%的年服务费。具体报价单还在路上; ④ 客户取向: 奇点云有明显的客户取向,做零售行业为主;星环科技做金融量化为主;网易数帆做金融零售行业为主; ⑤ 产品观感: 阿里dataworks:淘系数据中台,行业老大,公有云产品力第一,但是因为国企上华为云的原因,市占率退居第二。IaaS层的资源调度能力,性能优化能力,开箱即用的免运维能力,按量付费的计费能力; 阿里dataphin:支付宝系数据中台,产品融入onedata思想,比较傻瓜,不灵活,适合轻量级开发; 华为DataArts:Gartner第一,数据治理能力是卖点,公共模型会拿出来卖,适合制造业/传统行业,系统割裂严重,建模难度大的情况; 网易数帆:金融零售行业为主,可在其他公有云部署,能力对标数澜,奇点,袋鼠,但是在数仓底层能力上有明显优势; 腾讯TBDS:起步晚,生态还不成熟; 数澜科技:阿里背景三大独立厂商之一,自研厂商,承认能力不强于阿里dataworks,但是在服务,定制开发能力上有优势; 奇点云:阿里背景三大独立厂商之一,自研厂商,零售行业为主,和GrowingIO合并后进一步增强了零售行业的影响力; 袋鼠云:阿里背景三大独立厂商之一,部分自研厂商,承认卖出系统能拿阿里的提成; 滴普科技:华为背景为主,有一点阿里背景,实时数仓底层能力强,完全用flink实现湖仓一体,离线计算也用flink,亚马逊部署为卖点,部分功能需要用亚马逊云才有,走国际路线,对标Databricks与Snowflake; 星环科技:数据中台第一股,金融行业为主,擅长实时计算,时序算法,多模态湖仓一体; 公有云的优势在于数据中台和IaaS层的整合能力,劣势在于可能被绑定公有云生态,规模大后难以私有化;独立厂商的优势在于服务,定制开发,独立性; 公有云计费以订阅为主,只有阿里做到按量计费;独立厂商以买断功能模块+节点按license收费+15%年费为主; ⑥ 其他信息: 阿里,星环,腾讯的同学都表示真正的流批一体还不好实现,至少无法在合理的成本内实现;腾讯的同学表示湖仓一体现在也还不成熟; 公有云厂商中只有阿里云是认真做腰部客户服务的,且是唯一联系到产品运营的。腾讯需要提工单来咨询,无法接触到售前,华为也无法接触到真正懂产品的人; 阿里的数据开发治理套件dataworks/dataphin是和hadoop发行版独立的,阿里云有两个hadoop发行版,自研的云原生 MaxCompute和开源路线的 E-MapReduce; 网易数帆销售称数澜科技经营状况不太好,今年有两个月发不出工资(脉脉上确实可找到痕迹),后由余杭区国资委注资3000万恢复正常; 基于我们的数据量和数据增长率,网易数帆销售建议上阿里MaxCompute。结论:选择阿里**MaxCompute**+dataworks+hologres。
参考资料: 1.2022Gartner数据中台象限 2. 阿里MaxCompute+dataworks+hologres售前介绍 3. 华为dataArts售前介绍 4. 腾讯TBDS介绍 5. 网易数帆介绍 6. 星环科技 报价单 7. 奇点云 8. 袋鼠云 9. 数澜科技 10. 滴普科技 报价单(买断的报价按订阅的3倍)