安装显卡驱动
首先在终端输入如下命令(检查显卡驱动)
nvidia-smi
弹出如下
root@work01:~# nvidia-smi
Command 'nvidia-smi' not found, but can be installed with:
apt install nvidia-340 # version 340.108-0ubuntu5.20.04.2, or
apt install nvidia-utils-390 # version 390.151-0ubuntu0.20.04.1
apt install nvidia-utils-450-server # version 450.191.01-0ubuntu0.20.04.1
apt install nvidia-utils-470 # version 470.129.06-0ubuntu0.20.04.1
apt install nvidia-utils-470-server # version 470.129.06-0ubuntu0.20.04.1
apt install nvidia-utils-510 # version 510.73.05-0ubuntu0.20.04.1
apt install nvidia-utils-510-server # version 510.73.05-0ubuntu0.20.04.1
apt install nvidia-utils-435 # version 435.21-0ubuntu7
apt install nvidia-utils-440 # version 440.82+really.440.64-0ubuntu6
apt install nvidia-utils-418-server # version 418.226.00-0ubuntu0.20.04.2
安装驱动: (检测你的NVIDIA显卡型号和推荐的驱动程序的模型)
apt install ubuntu-drivers-common
ubuntu-drivers devices
以下是可安装的驱动
这里安装推荐的驱动 nvidia-utils-470
apt install nvidia-utils-470
安装完成后一定要重启服务器,然后在终端输入nvidia-smi 出现下面图片说明安装成功。
显卡驱动报错:NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver.
使用nvidia-smi报错:
NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running
这是一个常见问题,经常出现在ubuntu系统中,主要原因还是系统内核升级了,导致新版本内核和原来显卡驱动不匹配
解决方法一(我使用的方法):
只需执行两条命令就好:
sudo apt-get install dkms
sudo dkms install -m nvidia -v 440.44(440.44表示的是驱动版本号)
利用命令 ll /usr/src/ 可查看下面有一个nvidia-440.44/文件夹,版本号因电脑而异
安装cuda
下载cuda
输入nvidia-smi命令查看支持的cuda版本
从https://developer.nvidia.com/cuda-toolkit-archive下载对应版本的cuda,选择20.04的版本即可。
gcc降级
Ubuntu20.04自带的gcc版本为9.7.0,需要添加gcc7才可安装cuda10.2,输入命令安装gcc7 sudo apt-get install -y build-essential
apt-get install gcc-7 g++-7
cuda11.6: 要求gcc9, ubuntu20,04, 默认自带的gcc版本为9.7.0
sudo apt-get install -y build-essential
安装cuda sdk
安装命令如下
wget https://developer.download.nvidia.com/compute/cuda/11.6.0/local_installers/cuda_11.6.0_510.39.01_linux.run
sudo sh cuda_11.6.0_510.39.01_linux.run
输入命令进行安装
sudo sh cuda_11.6.0_510.39.01_linux.run
输入accept
cuda安装包是自带显卡驱动的,所以这一步按空格去掉安装显卡驱动的选项,然后选择install
, 但是我安装的cuda11.6, 并没有携带驱动, 所以直接安装即可
配置环境变量
输入vim ~/.bashrc
命令打开文件,在文件结尾输入以下语句,保存。
export PATH=/usr/local/cuda-11.6/bin${PATH:+:${PATH}}
export LD_LIBRARY_PATH=/usr/local/cuda-11.6/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
更新环境变量配置
source ~/.bashrc
至此cuda安装完成,输入nvcc -V命令查看cuda信息
安装cuDNN
从https://developer.nvidia.com/cudnn下载相应版本的cudnn,需要登陆。
cuDNN同样提供了多种安装方式。这里与CUDA一样选择deb方式。注意cuDNN的版本需要与CUDA版本匹配。如果你需要编译TensorFlow或者PyTorch,安装开发时库,否则安装运行时库即可。(cudnn11 没有分运行时和开发时库)
安装for cuda10.2, 下载解压之后
- 将cuda/include/cudnn.h 文件复制到usr/local/cuda/include文件夹
- 将cuda/lib64/下所有文件复制到/usr/local/cuda/lib64文件夹中
- 并添加读取权限:
sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*
安装 for cuda11.x,我采用deb安装方式
sudo dpkg -i cudnn-local-repo-ubuntu2004-8.4.1.50_1.0-1_amd64.deb
至此cuDNN安装完成