Hadoop环境搭建

下载hadoop 压缩包拷贝到目标目录
伪分布式
- 初始化
完全分布式

下载hadoop 压缩包拷贝到目标目录

mkdir /opt/bigdata
tar xf hadoop-3.2.1.tar.gz
// 配置hadoop_home 环境变量
vim /etc/profile
export HADOOP_HOME=/opt/bigdata/hadoop-3.2.1
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile

伪分布式

参考: https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html#Pseudo-Distributed_Operation

core属性配置参考: https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/core-default.xml

hdfs属性配置参考: https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

修改 {Hadoop_home}/etc/hadoop/hadoop-env.sh 中的JAVA_HOME 的值，替换成本地的java_home的绝对路径。
修改 {hadoop_home}/etc/hadoop/core-site.xml 添加配置属性。[配置NameNode]

<property>
  <name>fs.defaultFS</name>
  <value>hdfs://node1:9000</value>
</property>

修改{hadoop_home}/etc/hadoop/core-site.xml

<property>
  <name>dfs.replication</name>
  <value>1</value>
</property>

// 修改持久化存储的路径. 默认的路径是存放在 /tmp 下的。存在清除风险
<property>
        <name>dfs.namenode.name.dir</name>
        <value>/var/bigdata/hadoop/local/dfs/name</value>
</property>

    <property>
        <name>dfs.datanode.name.dir</name>
        <value>/var/bigdata/hadoop/local/dfs/data</value>
</property>

// 配置secondaryNameNode 的地址和存储路径
<property>
    <name>dfs.namenode.checkpoint.dir</name>
    <value>/var/bigdata/hadoop/local/dfs/secondary</value>
</property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>node1:50090</value>
</property>

修改 {hadoop_home}/etc/hadoop/workers [配置哪台服务器启动DataNode]
node1

初始化

// 创建目录, 
hdfs namenode -format

start-dfs.sh

访问ui界面:
访问端口参考dfs配置参数中的 dfs.namenode.http-address
http://node1:9870

hdfs 操作命令

// 在dfs 中创建/usr/data 目录
hdfs dfs -mkdir -p /usr/data 

// 上传文件到dfs
hdfs dfs -put upload.txt  /usr/data

下载hadoop 压缩包拷贝到目标目录

伪分布式

初始化

完全分布式