安装显卡驱动

首先在终端输入如下命令(检查显卡驱动)

  1. nvidia-smi

弹出如下

  1. root@work01:~# nvidia-smi
  2. Command 'nvidia-smi' not found, but can be installed with:
  3. apt install nvidia-340 # version 340.108-0ubuntu5.20.04.2, or
  4. apt install nvidia-utils-390 # version 390.151-0ubuntu0.20.04.1
  5. apt install nvidia-utils-450-server # version 450.191.01-0ubuntu0.20.04.1
  6. apt install nvidia-utils-470 # version 470.129.06-0ubuntu0.20.04.1
  7. apt install nvidia-utils-470-server # version 470.129.06-0ubuntu0.20.04.1
  8. apt install nvidia-utils-510 # version 510.73.05-0ubuntu0.20.04.1
  9. apt install nvidia-utils-510-server # version 510.73.05-0ubuntu0.20.04.1
  10. apt install nvidia-utils-435 # version 435.21-0ubuntu7
  11. apt install nvidia-utils-440 # version 440.82+really.440.64-0ubuntu6
  12. apt install nvidia-utils-418-server # version 418.226.00-0ubuntu0.20.04.2

安装驱动: (检测你的NVIDIA显卡型号和推荐的驱动程序的模型)

  1. apt install ubuntu-drivers-common
  2. ubuntu-drivers devices

以下是可安装的驱动

这里安装推荐的驱动 nvidia-utils-470

apt install nvidia-utils-470

安装完成后一定要重启服务器,然后在终端输入nvidia-smi 出现下面图片说明安装成功。

显卡驱动报错:NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver.
使用nvidia-smi报错:
NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running

这是一个常见问题,经常出现在ubuntu系统中,主要原因还是系统内核升级了,导致新版本内核和原来显卡驱动不匹配
解决方法一(我使用的方法):
只需执行两条命令就好:

sudo apt-get install dkms
sudo dkms install -m nvidia -v 440.44(440.44表示的是驱动版本号)

利用命令 ll /usr/src/ 可查看下面有一个nvidia-440.44/文件夹,版本号因电脑而异

安装cuda

下载cuda

输入nvidia-smi命令查看支持的cuda版本
image.png
https://developer.nvidia.com/cuda-toolkit-archive下载对应版本的cuda,选择20.04的版本即可。
image.png

gcc降级

Ubuntu20.04自带的gcc版本为9.7.0,需要添加gcc7才可安装cuda10.2,输入命令安装gcc7 sudo apt-get install -y build-essential

apt-get install gcc-7 g++-7

cuda11.6: 要求gcc9, ubuntu20,04, 默认自带的gcc版本为9.7.0

sudo apt-get install -y build-essential

安装cuda sdk

安装命令如下

wget https://developer.download.nvidia.com/compute/cuda/11.6.0/local_installers/cuda_11.6.0_510.39.01_linux.run
sudo sh cuda_11.6.0_510.39.01_linux.run

输入命令进行安装

sudo sh cuda_11.6.0_510.39.01_linux.run

输入accept
image.png

cuda安装包是自带显卡驱动的,所以这一步按空格去掉安装显卡驱动的选项,然后选择install
, 但是我安装的cuda11.6, 并没有携带驱动, 所以直接安装即可
image.png

配置环境变量

输入vim ~/.bashrc命令打开文件,在文件结尾输入以下语句,保存。

export PATH=/usr/local/cuda-11.6/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-11.6/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}

更新环境变量配置

source ~/.bashrc

至此cuda安装完成,输入nvcc -V命令查看cuda信息
image.png

安装cuDNN

https://developer.nvidia.com/cudnn下载相应版本的cudnn,需要登陆。

cuDNN同样提供了多种安装方式。这里与CUDA一样选择deb方式。注意cuDNN的版本需要与CUDA版本匹配。如果你需要编译TensorFlow或者PyTorch,安装开发时库,否则安装运行时库即可。(cudnn11 没有分运行时和开发时库)
image.png

安装for cuda10.2, 下载解压之后

  • 将cuda/include/cudnn.h 文件复制到usr/local/cuda/include文件夹
  • 将cuda/lib64/下所有文件复制到/usr/local/cuda/lib64文件夹中
  • 并添加读取权限:
    sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*
    

安装 for cuda11.x,我采用deb安装方式

sudo dpkg -i cudnn-local-repo-ubuntu2004-8.4.1.50_1.0-1_amd64.deb

至此cuDNN安装完成
image.png