一、Hadoop概述

hadoop是 Apache公司在2005年作为Lucene的一个子项目Nuthc的一部分,收到谷歌公司的启发

二、Hadoop核心组件与应用

1、核心组件 :

HDFS、MapReduce和Yarn

常用组件:

Hbase、Hive、hadoop streaming、 Zookeeper等

2、组件介绍

HDFS:分布式数据的海量存储
Yarn: 资源调度与任务管理
MapReduce: 解决分布式编程门槛高的问题,可以轻松实现分布式计算程序
Zookeeper: 解决分布式下数据管理问题

三、Hadoop生态圈

应用:

pig sqoop mlib Mahout Streaming Hive Hbase(同时属于计算)

计算:

Spark Tez MapReduce

资源调度与管理

yarn

数据存储

HDFS

特殊存在

ZooKeeper Ambari

四、集群平台 Ambari

Ambari简介

Apache Ambari 是一种web工具,支持Hadoop集群的供应、管理和监控等

相同产品

Cloudera Manager 的 CDH

优点

1、web界面操作简便
2、Hapdoop组件支持全面
3、社区资源丰富

缺点

1、Bug较多,重启解决
2、安装时较吃网络环境
3、搭建时长较长

五、外网通过代理访问星云集群设置方法

1、Chrome安装SwtichyOmega插件

下载地址:下载 SwitchyOmega_Chromium.crx
https://github.com/FelisCatus/SwitchyOmega/releases
下载完成将后缀改为zip 解压即可
进入Chrome进入扩展程序,并且打开开发者模式,选择加载以解压的扩展程序、

2、配置SwitchyOmega

a.首先新建新的代理模式,并且输入数据
b.在swtich中新建新的模式,并且输入数据,代理模式选择之前配置好的代理模式
c.保存设置

3、通过密码登陆服务器集群

此时在浏览器选择该插件,并且模式选择Switch此时会根据情况自动代理
这时就可以通过代理访问服务器集群内部网络

六、服务器集群的各计算机的角色

1、 跳板机

2、入口机

3、集群节点机器

4、开发机

5、测试机

七、Hadoop集群新增用户操作

1、新增用户的原因

a.防止用户权限过高,避免破坏集群的风险
b.多人同时使用一个用户不专业
c.各大公司平台,都是各自使用自身的账户

2、分组后进行添加用户

1、添加用户脚本

  1. #! /bin/sh
  2. #创建组
  3. groupadd $1 #$1 位输入的第一个参数 以此类推
  4. #创建用户并且添加组
  5. useradd -g $1 $2
  6. passwd $2
  7. useradd -g $1 $3
  8. passwd $3
  9. #以此类推

2、给每个新用户新建家目录

  1. #! /bin/sh
  2. hdfs dfs -mkdir /user/$1
  3. hdfs dfs -chown -R $1 /user/$1

八、外网穿透到星云集群3.0

1、通过外网进入跳板机

a.确定跳板机地址
b.确认端口密码等
c.xhell登陆

2、通过跳板机进入入口机

a.确认自己的入口机名称
b.通过账户@入口机名称(入口机地址)
c.输入密码,即可登陆

3、测试Hadoop命令

1、hdsf

2、yarn

3、mapreduce