说实话,在使用GPU训练模型的过程中踩了不少坑,最主要是在环境配置上的问题。

在此,详细说下GPU环境的配置。

安装CUDA

首先需要安装CUDA,详细的文档参考:https://docs.nvidia.com/cuda/archive/10.0/index.html

直接到此下载地址下载CUDU:
📃 使用GPU训练模型 - 图1
注意版本,Paddle最新GPU版本只支持10.0 (截止2020-08-25情人节夜晚):
📃 使用GPU训练模型 - 图2
这个地方一定得小心了,我是踩过坑的,不按照文档中的版本来是会出问题的。

下载注意选择本地版,网络版我试过,安装时下载奇慢。
📃 使用GPU训练模型 - 图3
下载后,安装完,检查安装的版本是否正确:

  1. PS C:\Users\quanzaiyu> nvcc -V
  2. nvcc: NVIDIA (R) Cuda compiler driver
  3. Copyright (c) 2005-2018 NVIDIA Corporation
  4. Built on Sat_Aug_25_21:08:04_Central_Daylight_Time_2018
  5. Cuda compilation tools, release 10.0, V10.0.130

以及环境变量是否配置正确 (安装时会自动配置):
📃 使用GPU训练模型 - 图4

安装cuDNN

安装cuDNN,详细的文档参考:https://docs.nvidia.com/deeplearning/sdk/cudnn-install/#install-windows

直接到此下载地址下载cuDNN:
📃 使用GPU训练模型 - 图5
同样需要注意版本,Paddle需要cuDNN7.6+
下载完后,是一个压缩包,将其包内的三个文件夹拖到CUDA的安装目录即可:
📃 使用GPU训练模型 - 图6

安装Paddle GPU版本

根据官网的教程来:https://www.paddlepaddle.org.cn/install/quick

安装命令如下:

  1. pip install paddlepaddle-gpu==1.8.4.post107 -i https://mirror.baidu.com/pypi/simple

安装好后进入python交互式命令行检查安装情况:

  1. (python_37_venv) D:\Workplace\deep_learning>python
  2. Python 3.7.7 (default, May 6 2020, 11:45:54) [MSC v.1916 64 bit (AMD64)] :: Anaconda, Inc. on win32
  3. Type "help", "copyright", "credits" or "license" for more information.
  4. >>> import paddle.fluid
  5. >>> paddle.fluid.install_check.run_check()
  6. Running Verify Fluid Program ...
  7. W0825 22:07:37.499102 13280 device_context.cc:252] Please NOTE: device: 0, CUDA Capability: 61, Driver API Version: 11.0, Runtime API Version: 10.0
  8. W0825 22:07:37.538996 13280 device_context.cc:260] device: 0, cuDNN Version: 7.6.
  9. Your Paddle Fluid works well on SINGLE GPU or CPU.
  10. W0825 22:07:46.430886 13280 build_strategy.cc:170] fusion_group is not enabled for Windows/MacOS now, and only effective when running with CUDA GPU.
  11. Your Paddle Fluid works well on MUTIPLE GPU or CPU.
  12. Your Paddle Fluid is installed successfully! Let's start deep Learning with Paddle Fluid now

如果CUDA或cuDNN哪个环节安装出了问题,则会出现以下错误提示:

  1. >>> paddle.fluid.install_check.run_check()
  2. Running Verify Fluid Program ...
  3. Traceback (most recent call last):
  4. File "<stdin>", line 1, in <module>
  5. ......
  6. RuntimeError: cudnn64_7.dll not found.

进行训练时,通过 fluid.CUDAPlace(0) 设置在GPU上进行训练,部分代码如下:

  1. #在使用GPU机器时,可以将use_gpu变量设置成True
  2. use_gpu = True
  3. place = fluid.CUDAPlace(0) if use_gpu else fluid.CPUPlace()
  4. with fluid.dygraph.guard(place):
  5. ......

观察任务管理器可以看到,已经是在使用GPU进行训练了:
📃 使用GPU训练模型 - 图7