本次实验中所有命令,不在任何docker容器当中。

准备

Anaconda的安装和配置

  1. 安装

    1. wget https://repo.anaconda.com/archive/Anaconda3-5.3.0-Linux-x86_64.sh
    1. sudo bash Anaconda3-5.3.0-Linux-x86_64.sh

    上面命令输入完之后不停回车,直到下面这种情况出现,输入yes
    image.png

  2. 安装完之后,有两个选项

第一个是让你把Anaconda添加到root环境变量中,输入yes
第二个是是否安装vscode,yes和no都可以

  1. 添加并激活环境变量
    1. sudo vim /etc/profile
    在文件末尾添加如下配置
    1. export PATH=/usr/loacl/anaconda3:$PATH
    激活变量:
    1. source /etc/profile
    2. source ~/.bashrc

    安装JDK

    1. sudo apt-get update
    2. sudo apt-get install default-jre
    3. sudo apt-get install default-jdk
    查看jdk版本
    1. java -version
    image.png

实现

  1. 获取Spark安装包

    1. wget https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.2.3/spark-3.2.3-bin-hadoop3.2.tgz
  2. 复制安装包

    1. sudo cp -r spark-3.2.3-bin-hadoop3.2.tgz /usr/local/spark
  3. 解压安装包

    1. cd /usr/local/spark
    2. sudo tar -zxvf spark-3.2.3-bin-hadoop3.2.tgz
  4. 修改配置

    1. vim ~/.bash_profile

    修改配置如下

    1. export SPARK_HOME=/usr/local/spark/spark-3.2.3-bin-hadoop3.2
    2. export PATH=$PATH:$SPARK_HOME/bin

    激活配置文件:

    1. source ~/.bash_profile
  5. 验证是否安装成功

    1. spark-shell

    image.png

  6. 修改配置

输入以下命令退出spark

  1. :quit
  1. 接下来修改配置
  1. cd /usr/local/spark/spark-3.2.3-bin-hadoop3.2/conf
  2. sudo cp log4j.properties.template log4j.properties
  3. sudo vim log4j.properties

修改内容如下:

  1. # http://www.apache.org/licenses/LICENSE-2.0
  2. #log4j.logger.org.apache.spark.repl.Main=INFO

image.png

  1. 安装PySpark
    1. pip install pyspark
    2. pip install findspark