设计
job 生产一个podgroup, 一个podgroup根据hash指向一个调度器。一个调度负责调度固定节点资源。如果节点数目少量,资源差异,导致一个调度器资源使用满了。hash到这个调度器时候就会调度失败。
注意
由于job按照hash切分到不同调度器上,每个调度器都会负责调度一批资源,如果job刚好落在调度器资源分配完了,就会导致任务pending无法调度。
建议:
- 划分多个调度器,节点数目和调度器数目可以整除,否则某些调度器资源缺少,导致快满时候分配失败问题
- 10个节点一下,不建议使用多实例,防止资源碎片化导致调度失败,资源利用率不高
- GPU机器,由于一台机器GPU数目有限,50 ~ 100 节点使用一个调度器就足够了。CPU资源除外