学了大数据能干啥

面向业务
面向架构
改进自研
前沿探索

组件类型

我想把大数据组件分为:基本存储,传输计算,OLAP,数据湖四个大方向

基本存储

大数据底层存储基本都在用Hadoop,用HDFS存储数据,但是大多数公司HDFS基建比较完善,如果招这块的一般是改进Hadoop,需要对原理十分清楚。
在Hadoop之上有hive和hbase。学习离线数据仓库,那么必须学会hive,熟练掌握hive sql。hbase是一种列式数据库,目前我基本没接触过,应该当前列式数据库种类很多,各有特点。
存储路线的另一个方向是对象存储,云存储,ceph,swift,S3,其中ceph最流行,性能也强。学这些基本是做云存储,要掌握对象存储的原理,看源码。
另外还有兼顾存储和查询的ES;rocksdb也有用的

传输计算

传输

当下流行的传输组件就是Kafka和rmq两个消息队列,以Kafka为主,应用更广。要明白Kafka为什么性能好,怎么处理丢数据的情况,怎么做到exactly-once语义,总之是对Kafka特性,优势的原理清楚。

计算

离线计算

离线计算大厂基本以spark为主,要掌握编程框架,各种特性和原理。学会spark+hive可以做离线数据仓库。现在大多数公司都没有实时数仓,即便有也不成熟,还在建设阶段,离线目前看更多些,但是实时的好处很大,这些公司离线数仓建设好后绝对要做实时的

实时计算

实时计算非flink莫属,主要学习datastreamAPI和flinkSQL,现在flink SQL很火。学kafak+flink可以做实时数仓。
离线+实时都学会了很牛逼,可以探索批流一体,属于前沿工作,不过目前看批流一体主要还是用flink来做

OLAP

以ClickHouse为主,当前大公司也在摸索Doris。OLAP应该都是列式数据库,要明白列式的优缺点。将来肯定会有更好的OLAP引擎出现,但是他们原理是有很多相通之处,现在如果能掌握OLAP,将来在追求技术的公司应该挺吃香。

数据湖,湖仓一体

数据治理是大难题,数据多了不好利用。数据胡面向多源异构数据,是现在和未来的方向,大厂数据湖都在起步阶段,自己摸索,未来会很有用
hudi,iceburg,kylin,druid