百度于2017年开源的框架,之前叫palo。结合了Impala和Mesa的优点。
主要由FE和BE构成。
FE由Java编写,BE由C++编写
存储模型
Delta
数据在delta中展现是 一个二维表。
Aggregation Key
聚合先沟通Key的值,但是会丢失明细数据。
Unique Key
Duplicate Key
物化视图Meterialized View
对用户透明
Share Nohting存储
两阶段提交
两层分区
分区独立管理
MPP
基于Impala
列式存储
使用位图bitmap 精确去重count
Doris生态
高度内聚,可以不依赖其他系统,支持Hadoop、自动订阅Kafka数据、本地文件数据导入、
案例
百度统计
是lambda架构
美团外卖
维度表:商家不同时间的维度信息
数据冗余,每天大量操作
Doris可以实时join
作业帮
改造前
改造后
贝壳
贝壳的OLAP的应用场景。
Update功能支持,实时场景一般有这种需求。
ClickHouse的Update支持的也不是很好
如果是宽表,数据的改变需要刷数据