基本准则

  1. 最小化在主机和设备之间传输的数据量
  2. 需要高带宽时,使用page-locked或者pinned内存
  3. 将许多小数据batch起来,打包发送,将会消除大多数开销
  4. 主机和设备之间的数据传输可以和kernel执行或者其他数据传输重叠