大数据开发工作涉及大数据处理的完整流程,包括:数据采集、ETL、数据存储、计算分析/挖掘、可视化展示。

- 数据来源层
- 结构化数据:比如存储在RDBMS,如MySQL中的数据
- 半结构化数据:如Json格式数据,非关系型数据,但也有一定的格式
- 非结构化数据:图片、视频、mp3等
- 结构化数据:比如存储在RDBMS,如MySQL中的数据
- 数据传输层:Flume、Sqoop、Scribe、Logstash、Kibana、Filebeat等
- 数据存储层:HDFS、Tachyon、KFS、Kafka、HBase、Redis、MongoDB等
- 资源管理层:Yarn、Mesos等
- 数据计算分析层:MapReduce、Spark、Flink、Tez、Hive、ClickHouse、Kudu、Kylin、Druid、Python、Spark MLLib、Tensorflow等
- 任务调度层:Oozie、Azkaban、Airflow等
另外,还会涉及到一些基础服务
- 分布式协调服务:Zookeeper
- 集群管理与监控:Ambari、Ganglia、Nagios、Cloudera Manager
- 网关:Knox
- 安全管理框架:Ranger

