百度于2017年开源的框架,之前叫palo。结合了Impala和Mesa的优点。
主要由FE和BE构成。
FE由Java编写,BE由C++编写
存储模型
Delta
数据在delta中展现是 一个二维表。
Aggregation Key
聚合先沟通Key的值,但是会丢失明细数据。
Unique Key
Duplicate Key
物化视图Meterialized View
对用户透明

Share Nohting存储
两阶段提交

两层分区
分区独立管理
MPP
基于Impala

列式存储

使用位图bitmap 精确去重count

Doris生态
高度内聚,可以不依赖其他系统,支持Hadoop、自动订阅Kafka数据、本地文件数据导入、
案例
百度统计
是lambda架构

美团外卖
维度表:商家不同时间的维度信息
数据冗余,每天大量操作
Doris可以实时join
作业帮
改造前

改造后

贝壳
贝壳的OLAP的应用场景。



Update功能支持,实时场景一般有这种需求。
ClickHouse的Update支持的也不是很好

如果是宽表,数据的改变需要刷数据


