中台
中台缘起
1. 前身 共性化平台
- 抽象公共的功能
平台间独立
缺点: 1, 沟通协作成本高 2,出现数据孤岛 3, 前台变化无序,后台稳定有序的冲突2. 中台
前台: 和用户交互
中台: 输出公共的, 通用的后台能力, 快速支撑前台创新
后台: 服务, 算法, 基础设施, 数据
企业级共享平台,提供基础能力封装
目标: 前台敏捷迭代,试错能力中台演进
业务中台: 抽象业务能力
数据中台: 各个业务之间打通业务数据, 汇聚多业务数据 进行加工
更细粒度的划分: 技术,安全, 算法中台
数据中台
是各个中台的基础, 打通全局数据
目的: 共享复用, 提升开发效率, 数据服务业务
成熟数据中台的能力:
- 传统数仓
- 数据支撑经营者决策
- 数据形态: 关系型数据库, 体量较小
- 技术: 商用数据库, 小型机
- 应用: 提供BI报表, 决策分析
- 数据驱动的数据湖
- 业务和数据深度融合
- 数据形态: 数据标准化
- 技术: Hadoop, 机器学习/深度学习
- 应用: 决策分析 针对性推荐,营销, 用户画像
数据中台
数据的采集汇聚
- 日志实时采集: Flume, Filebeat
- 数据库实时同步工具: canal, OGG, MaxWell
- 离线数据交换: Sqoop(批量迁移数据的工具), DataX(高效异构同步工具)
- 数据存储
- 分布式文件系统 HDFS, Kafka, HBase/Phoenix
- ElasticSearch, clickHouse
- 计算引擎
- 离线计算: Spark, Hive(早期)
- 实时计算: Spark Structured Streaming, Flink
- 即席分析
- ROLAP关系型 : Presto, ClinkHouse, Doris
- MOLAP多维度: Kylin, Druid
- 在线查询
- ElasticSearch, Redis, MySQL, TiDB, HBase
- 数据调度 解决任务依赖
- Azkaban, AirFlow, DolphinScheduler
实战
需要采集的数据内容
采集方式
实时同步
举例: 手机流量的实时提醒, 电商和新闻类的实时排行, 设备的监控报警
数据库的实时同步 : 通过增量日志的捕获, 对数据库影响代价小
日志类文件同步: 访问日志, 埋点, IOT, 爬虫
离线同步
安全可靠, 可调整
周期性的定时任务