大数据开发工作涉及大数据处理的完整流程,包括:数据采集、ETL、数据存储、计算分析/挖掘、可视化展示。

    技能树 - 图1

    • 数据来源层
      • 结构化数据:比如存储在RDBMS,如MySQL中的数据
      • 半结构化数据:如Json格式数据,非关系型数据,但也有一定的格式
      • 非结构化数据:图片、视频、mp3等
    • 数据传输层:Flume、Sqoop、Scribe、Logstash、Kibana、Filebeat等
    • 数据存储层:HDFS、Tachyon、KFS、Kafka、HBase、Redis、MongoDB等
    • 资源管理层:Yarn、Mesos等
    • 数据计算分析层:MapReduce、Spark、Flink、Tez、Hive、ClickHouse、Kudu、Kylin、Druid、Python、Spark MLLib、Tensorflow等
    • 任务调度层:Oozie、Azkaban、Airflow等

    另外,还会涉及到一些基础服务

    • 分布式协调服务:Zookeeper
    • 集群管理与监控:Ambari、Ganglia、Nagios、Cloudera Manager
    • 网关:Knox
    • 安全管理框架:Ranger

    技能树 - 图2