如何让消息传递更高效?如何让消息传递更高效? 封装高端接口,如update_all, 多个调用在一个调用中完成点和边上的并行: apply_edges -> gSDDMMupdate_all -> gSPDMM 数据拷入边时的优化-> 使用entry index从点采样feature并拷贝,而不是完全拷贝避免边上的特征序列化,如update_all中message和reduce操作都是在一个kernel中完成的?