如何让消息传递更高效?

  • 封装高端接口,如update_all, 多个调用在一个调用中完成
  • 点和边上的并行:
    • apply_edges -> gSDDMM
    • update_all -> gSPDMM
  • 数据拷入边时的优化-> 使用entry index从点采样feature并拷贝,而不是完全拷贝
  • 避免边上的特征序列化,如update_all中message和reduce操作都是在一个kernel中完成的?