ABSTRACT

目的:解决物流领域资源均衡问题
方法:引入创新性的state与reward设计
结果:在性能和稳定性方面带来显著改进

INTRODUCTION

问题1:现实物流中存在各种各样资源失衡问题,由于实际问题中存在建模困难,未来需求与模型调度存在差异等问题,传统OR模型方法并不牢靠。
方法1:分别设计 agent 集、联合action空间、state集、reward函数、转移概率函数和折扣因子。

问题2:盲目使用RL的效果不一定会好,因为无法加强高度依赖资源的agents之间的合作:
方法2:引入了三个层次的合作度量,并改善了状态和奖励设计

场景:一个复杂海洋运输网络中的空箱重新定位任务