Hadoop安装 - 《大数据》

第一步：上传apache hadoop包并解压
第二步：修改配置文件
第三步：配置Hadoop的环境变量
第四步：启动集群

集群规划：

第一步：上传apache hadoop包并解压

cd /export/softwares/
tar -zxvf hadoop-2.7.5.tar.gz -C ../servers/
注意这里上传的一定要是前面编译好的安装包
因为原始包不支持很多压缩算法，前面编译过的包就已经支持了
进入到hadoop-2.7.5
输入命令：bin/hadoop checknative可以检测本地库，可以看到前面做的一些压缩算法都
true，说明已经支持了。

第二步：修改配置文件

因为要修改八个配置文件，在linux里面修改容易出错，所以用Notepad++连接虚拟机来修改
Notepad++的连接方法：
NppFTP -> settings->Profile settings->Add new -> 输入要连接的ip->hostname也输入要连接的ip->Connection Type选择SFTP->username输入root，然后输入密码->close->点击最左侧->就有刚刚连接的主机ip，点击就可以连接了，就可以看到该主机中的文件

2.1、修改core-site.xml

这是核心配置文件
在Notepad++中打开core-site.xml文件，在里面配置：

注意：第一条配置错误，是192.168.174.100，不是52.100

2.2、修改hdfs-site.xml

在Notepad++中打开core-site.xml文件，在里面配置：

2.3、修改hadoop-env.sh

到虚拟机里，执行：
cd /export/servers/jdk1.8.0_141/
pwd
将得到的路径复制到hadoop-env.sh文件的{JAVA_HOME}的地方

2.4、修改mapred-site.xml

会发现没有这个配置文件，会有mapred-site.xml.template
对mapred-site.xml.template重命名，将后面的template给去掉即可。

2.5、修改yarn-site.xml

2.6、修改mapred-env.sh

export JAVA_HOME=/export/servers/jdk1.8.0_141

2.7、修改slaves

修改slaves文件，然后将安装包发送到其他机器，重新启动集群即可
进到slaves文件中，将localhost删掉，在里面加入
node01
node02
node03
即可

2.8、创建目录

第一台机器执行以下命令：

2.9、安装包的分发：

第一台机器执行以下命令：

第三步：配置Hadoop的环境变量

三台机器都要进行配置Hadoop的环境变量
三台机器执行以下命令：

配置完成后生效：
source /etc/profile

第四步：启动集群

要启动Hadoop集群，需要启动HDFS和YARN两个模块。注意：首次启动HDFS时，必须对其进行格式化操作，本质上是一些清理和准备工作，因为此时的HDFS在物理上还是不存在的。
hdfs namenode -format 或hadoop namenode -format
准备启动：
第一台机器执行以下命令：

注意：第一条命令格式化只有在第一次启动的时候需要用
使用jps命令可以查看与java相关的进程，那么就可以看到是否已经启动
如果有某个启动错误，可以先停止了，然后再重新启动
停止HDFS的命令：
sbin/stop-dfs.sh
三个端口查看界面：

若三个网页都可以进去，则说明hadoop集群启动成功