Hadoop初识 01 - 图2

hadoop是apache下开源项目。

解决大数据海量的存储、计算

创始人,Doug Cutting

hadoop优势

高可靠性、

高扩展性、

高效性、

高容错性

hadoop核心组件

核心组件(基础组件)HDFS、MapReduce、Yarn。 存储、计算、资源调度任务管理

其他常用组件HBase、Hive、Streaming、Zookeeper。Hadoop初识 01 - 图3

HDFS:分布式存储。

Yarn:资源调度与任务管理

Hive:(比数据库大很多)数据仓库

Streaming:hadoop平台的语言

ZooKeeper:管理分布式数据

Hadoop生态圈

Hadoop初识 01 - 图4

Ambari 平台环境

Ambari是hadoop的平台,支持很多hadoop的组件。

同类产品有:Cloudera Manager的CDH

优点:web安装图形化界面,社区资源丰富,支持整个hadoop家族组件。

缺点:bug多(安装,运维易出错)一般重启可解决。 安装速度慢,搭建集群慢。

今日份小坑

System.out.println(“”); 中第一个S大写。

谷歌上安装插件结束后,配置 自动匹配Hadoop初识 01 - 图5