利用TVM优化ARM GPU上的移动深度学习
随着深度学习的巨大成功,对移动设备部署深度神经网络的需求正在迅速增长。与我们在桌面平台上的工作类似,在移动设备中使用GPU可以同时提高推理速度和能效。但是,大多数现有的深度学习框架都不能很好地支持移动GPU。难点在于移动GPU架构和桌面GPU架构之间的差异。这意味着在移动GPU上进行优化需要花费更多精力。导致移动GPU在大多数深度学习框架中的支持不友好。
TVM通过引入统一的IR堆栈解决了部署不同硬件的难度,通过该堆栈可以轻松完成对不同硬件的优化。在这篇文章中,我们将展示如何使用 TVM / NNVM为ARM Mali GPU生成高效的内核并进行端到端编译。在我们对Mali-T860 MP4的测试中,与Arm Compute Library相比 ,我们的方法在VGG-16上快了1.4倍,在MobileNet上快了2.2倍。图形级和操作级优化都有助于提高速度。
Mali Midgrad GPU
我们将使用Firefly-RK3399和Mali-T860 MP4作为我们的测试环境,因此我们主要关注下面的Mali T8xx。
架构
图1是T860和T880上Mali Architecture的概述。GPU可扩展至16个相干着色器核心。在每个着色器核心内部,有2或3个算术管道,1个加载/存储管道和1个纹理管道(所谓的TriPipe)。每个算术流水线中的ALU具有四个128位向量单元和一个标量单元。
我们使用OpenCL进行GPU计算。映射到OpenCL模型时,每个着色器核心都会执行一个或多个工作组。每个着色器核心最多支持384个并发执行的线程。OpenCL中的每个工作项通常映射到Mali GPU上的单个线程。Mali GPU使用VLIW(超长指令字)架构。每个指令字包含多个操作。Mali GPU也使用SIMD,因此大多数算术指令同时对多个数据元素进行操作。
与NVIDIA的GPU不同
与为NVIDIA的GPU编写代码相比,在为Mali GPU编写OpenCL代码时,我们应该关注一些差异。
- Mali GPU使用统一的全局内存。在NVIDIA的GPU中,我们通常将数据复制到共享内存,因为NVIDIA的GPU具有物理上独立的全局内存,共享内存和寄存器。在马里,此副本不会提高性能,可以删除。此外,Mali GPU通常与CPU共享全局内存,因此不需要在CPU和GPU之间进行复制。
- Mali Midgrad GPU基于SIMD(单指令多数据)并需要显式矢量化。在NVIDIA CUDA中,并行性是通过SIMT(单指令多线程)实现的,不需要显式矢量化。但另请注意,较新的Mali Bitfrost GPU基于四元矢量化,不需要显式矢量化。
- Mali GPU中的所有线程都有单独的程序计数器。它意味着
warp size
是1,因此分支差异不是主要问题。优化:卷积为例
卷积层是大多数深度神经网络的核心,占用了大部分的计算时间。因此,我们以卷积层为例,演示如何在TVM中应用包装,平铺,展开和矢量化等常用优化技术。Im2Col与GEMM
众所周知的卷积层算法是im2col,它将小的3D输入立方体转换为矩阵的列并执行GEMM。该方法的优点是易于利用高度优化的BLAS库。但是,内存冗余(3x3内核的9倍内存)非常糟糕。空间包装
相反,我们采用一种方法来计算卷积,并逐步应用优化技术。VGG-16中的卷积层用作调谐情况,其配置如下所示。我们假设批量大小为1用于推断。 | input shape
| —- | —- | —- | —- | —- | | 56x56x256| output shape
| kernel size
| stride
| pad
|
| 56x56x256
| 3×3
| (1,1)
| (1,1)
|
作为baseline,我们还在Arm Compute Library中列出了该层的性能。 | kernel | cost(second) | GFLOPS | | —- | —- | —- | | ARM Compute Lib中的GEMM方法 | 0.1821 | 20.3111 |
声明计算:平铺和打包(tiling and packing)
平铺和打包是两种旨在更好地访问内存的方法。平铺将整个计算分成小块以获得更好的数据使用。打包根据平铺重新排列输入矩阵,以便我们可以顺序访问内存,从而降低缓存未命中率。
我们对输入图像的宽度尺寸和滤波器矩阵的CO尺寸进行平铺。这是由tvm.compute
描述。
1. 1# set tiling factor
1. 21
1. 34
1. 4
1. 5# get input shape
1. 6
1. 7
1. 82
1. 92
1. 10
1. 11# calc output shape
1. 122// H_STR + 1
1. 132// W_STR + 1
1. 14
1. 15# data shape after packing
1. 16// (VH*H_STRIDE), TW // (VW*W_STRIDE), CI, VH*H_STRIDE+HCAT, VW*W_STRIDE+WCAT)
1. 17
1. 18# kernel shape after packing
1. 19// VC, CI, KH, KW, VC)
1. 20
1. 21// VC, OH // VH, OW // VW, VH, VW, VC)
1. 22
1. 23
1. 24# define packing
1. 25
1. 26'data_vec'
1. 27
1. 28
1. 29'kernel_vec'
1. 30
1. 31# define convolution
1. 320'ci'
1. 330'kh'
1. 340'kw'
1. 35
1. 36
1. 37
1. 38
1. 39'conv'
1. 40
1. 41# unpack to correct layout
1. 42
1. 43//VC][h/VH][w//VW][h%VH][w%VW][co%VC],
1. 44'output_unpack''direct_conv_output'
我们可以检查定义的IR
print(tvm.lower(s, [data, kernel, output], simple_mode=True))
我在这里选择卷积部分。
1. 1
1. 2for064
1. 3for056
1. 4for014
1. 5forinit04
1. 6forinit04
1. 756144init4init0
1. 8
1. 9
1. 10for0256
1. 11for03
1. 12for03
1. 13for04
1. 14for04
1. 155614445614441425636256334
1. 16
1. 17
1. 18
1. 19
1. 20
1. 21
1. 22
1. 23
1. 24
内核1:绑定线程
在TVM中,我们首先声明计算然后安排它。该机制将算法和实现细节分离。(这个想法来自Halide)。
以下计划简单地将轴绑定到GPU线程,以便我们的代码可以在Mali GPU上运行。
1. 1# helper function for binding thread
1. 2def tile_and_bind3d(s, tensor, z, y, x, z_factor=2, y_factor=None, x_factor=None):
1. 3""" tile and bind 3d """
1. 4or
1. 5or
1. 6
1. 7
1. 8
1. 9"blockIdx.z"
1. 10"threadIdx.z"
1. 11"blockIdx.y"
1. 12"threadIdx.y"
1. 13"blockIdx.x"
1. 14"threadIdx.x"
1. 15
1. 16# set tunable parameter
1. 178
1. 18
1. 19# schedule data packing
1. 20
1. 211
1. 22
1. 23# schedule kernel packing
1. 24
1. 251
1. 26
1. 27# schedule conv
1. 28
1. 29
1. 30
1. 31
1. 3211
1. 33
1. 34
1. 3511
使用这个计划,我们的代码现在可以运行,但性能很糟糕。 | 核心 | 成本(秒) | GFLOPS | 加速 | | —- | —- | —- | —- | | ARMComputeLib中的GEMM方法 | 0.1821 | 20.3111 | 1X | | 内核1:简单绑定 | 5.6154 | 0.6588 | 0.03X |
内核2:展开
循环展开可以减少循环控制的指令,减少分支惩罚并隐藏读取内存中的延迟。在TVM中,这可以通过呼叫轻松完成s.unroll(axis)
1. 1# set tunable parameter
1. 28
1. 3
1. 4# schedule data packing
1. 5
1. 61
1. 7
1. 8"""!! ADD UNROLL HERE !!"""
1. 9
1. 10
1. 11# schedule kernel packing
1. 12
1. 131
1. 14
1. 15"""!! ADD UNROLL HERE !!"""
1. 16
1. 17
1. 18
1. 19
1. 20# schedule conv
1. 21
1. 22
1. 23
1. 24
1. 2511
1. 26
1. 27"""!! ADD UNROLL HERE !!"""
1. 28
1. 29
1. 30
1. 31
1. 32
1. 33
1. 3411
| 核心 | 成本(秒) | GFLOPS | 加速 | | —- | —- | —- | —- | | ARMComputeLib中的GEMM方法 | 0.1821 | 20.3111 | 1X | | 内核1:简单绑定 | 5.6154 | 0.6588 | 0.03X | | 内核2:+展开 | 0.3707 | 9.9796 | 0.49x |
Kernel3:矢量化
如前所述,我们需要明确地进行矢量化,以便在Mali GPU上实现最佳性能。
1. 1# set tunable parameter
1. 28
1. 3
1. 4# schedule data packing
1. 5
1. 61
1. 7
1. 8# unroll
1. 9
1. 10
1. 11# schedule kernel packing
1. 12
1. 131
1. 14
1. 15# unroll
1. 16
1. 17
1. 18"""!! VECTORIZE HERE !!"""
1. 19
1. 20
1. 21# schedule conv
1. 22
1. 23
1. 24
1. 25
1. 2611
1. 27
1. 28# unroll
1. 29
1. 30
1. 31
1. 32"""!! VECTORIZE HERE !!"""
1. 33
1. 34
1. 35
1. 3611
| 核心 | 成本(秒) | GFLOPS | 加速 | | —- | —- | —- | —- | | ARMComputeLib中的GEMM方法 | 0.1821 | 20.3111 | 1X | | 内核1:简单绑定 | 5.6154 | 0.6588 | 0.03X | | 内核2:+展开 | 0.3707 | 9.9796 | 0.49x | | 内核3:+矢量化 | 0.1304 | 28.3679 | 1.40x |
如何设置可调参数
至于上面的可调参数,可以计算一些。对于矢量化维度VC
,我们应该填充128位寄存器,因此对于float32可以设置为128/32 = 4,对于float16,可以设置为128/16 = 8。
但由于运行时间复杂,我们更常无法确定最佳值。我们在TVM中使用网格搜索。由于我们在TVM的高级IR而不是直接的OpenCL代码中编写python代码,因此它可以非常有效。
生成的OpenCL代码
我们可以通过查看生成的OpenCL代码
print(func.imported_modules[0].get_source())
OpenCL代码太长而无法在此处粘贴,并且由于大量展开而难以阅读。如果有兴趣,可以 在这里查看。
端到端基准测试
在本节中,我们比较了一些流行的深度神经网络上不同后端之间的综合性能。我们的测试环境是
1. 1Firefly-RK3399G
1. 2CPUdual-coreCortex-A72quad-coreCortex-A53
1. 3GPUMali-T860MP4
1. 4
1. 5ArmComputeLibraryv17.12
1. 6MXNetv1.0.1
1. 7Openblasv0.2.18
我们使用NNVM和TVM进行端到端编译。
性能
图2. ImageNet上不同后端的推理速度
如图2所示,我们测试了ImageNet上的推理速度。在Firefly-RK3399上,Mali GPU比6核big.LITTLE CPU快2倍~4倍。我们的端到端管道比Arm Compute Library快1.4倍~2.2倍。我们在Arm Compute Library中尝试了GEMM和卷积层的直接方法,在这些测试用例中GEMM方法总是比直接方法快,所以我们只绘制GEMM方法的结果。
一些结果,如Arm Compute Library上的resnet18,在图2中缺失。这是因为Arm Compute Library的图形运行时当前不支持跳过连接,并且深度卷积的霓虹灯实现很差。这也反映了NNVM软件堆栈的优势。
半精度性能
深度神经网络的精度不是很重要,特别是对于移动设备的推断。使用低精度算法可以使推理更快。我们还测试了Mali GPU上的半精度浮点数。 | 模型 | 后端 | 每张图像的时间成本(秒) | 加速到FP32 | | —- | —- | —- | —- | | vgg16 | ACM-马里 | 0.9694 | 1.69 | | vgg16 | TVM-马里 | 0.6896 | 1.87x | | MobileNet 1.0 | TVM-马里 | 0.0479 | 1.60x | | ResNet18 | TVM-马里 | 0.1183 | 1.73x |
表1. ImageNet上FP16的推理速度
从理论上讲,FP16可以使峰值计算加倍,并使内存消耗减半,从而使速度加倍。但它需要良好的输入形状,以实现更长的矢量化和微调某些参数。