• 什么是Hadoop

    Hadoop是适合大数据分布式存储和计算平台
    狭义上Hadoop就是一个框架平台
    广义上Hadoop是指以,Hadoop薇代表的大数据生态,包括很多其他软件框架

    1. Hadoop生态圈技术栈
    2. Hadoop (HDFS + MapReduce + Yarn)
    3. Hive 数据仓库工具
    4. HBase 海量列式非关系型数据库
    5. Flume 数据采集工具
    6. Sqoop ETL工具
    7. Kafka 高吞吐消息中间件
    • Hadoop的特点

      • 扩容能力
        • Hadoop是在计算机集群内分配数据并完成计算任务,集群可以方便的扩展到数以千计个节点
      • 低成本
        • Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低
      • 高效率
        • Hadoop可以在节点之间动态并行移动数据,使得速度非常快
      • 可靠性
        • 能自动维护数据的多份复制,并在任务失败后能自动的重新部署(redeploy)计算任务
    • Hadoop的发行版本

      • Apache Hadoop原始版本
        • 开源版本,代码版本更新频繁
      • 软件收费版本ClouderaManager
        • CDH版本,生产环境使用
      • 免费开源版本HortonWorks
        • HDP版本,生产环境使用
    • Hadoop的优缺点
      • Hadoop的优点
        • Hadoop具有存储和处理数据能力的高可靠性
        • Hadoop通过可用的计算机集群分配数据,完成存储和计算任务,这些集群可以方便地扩展到数以千计的节点中,具有高扩展性
        • Hadoop能够在节点之间进行动态的移动数据,并保证各节点的动态平衡,处理数据非常快,具有高效性
        • Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配,具有高容错性
      • Hadoop的缺点
        • Hadoop不适用于低延迟数据访问(T+1数据)
        • Hadoop不能高效存储大量小文件
        • Hadoop不支持多用户写入并任务修改文件