百度于2017年开源的框架,之前叫palo。结合了Impala和Mesa的优点。

主要由FE和BE构成。

FE由Java编写,BE由C++编写
image.png

使用起来和MySQL类似,兼容了MySQL协议。
image.png

存储模型

Delta

数据在delta中展现是 一个二维表。

Aggregation Key
聚合先沟通Key的值,但是会丢失明细数据。

Unique Key

Duplicate Key

物化视图Meterialized View

对用户透明
image.png

image.png
Share Nohting存储

两阶段提交

image.png

两层分区

分区独立管理
image.png

MPP

基于Impala

image.png

列式存储

image.png

使用位图bitmap 精确去重count

image.png

Doris生态

高度内聚,可以不依赖其他系统,支持Hadoop、自动订阅Kafka数据、本地文件数据导入、
image.png

案例

百度统计

是lambda架构
image.png
image.png

美团外卖

维度表:商家不同时间的维度信息
数据冗余,每天大量操作
Doris可以实时join
image.png

作业帮

改造前

image.png

改造后

image.png

贝壳

贝壳的OLAP的应用场景。
image.png

image.png
image.png

image.png

Update功能支持,实时场景一般有这种需求。
ClickHouse的Update支持的也不是很好

image.png

如果是宽表,数据的改变需要刷数据
image.png

image.png

image.png