KubernetesKubernetes调度器
导语 | kubernetes调度器,通过watch机制来发现集群中新创建且未调度的pod,通过过滤node列表,打分策略,以及各个时机的插件调用机制,选择合适的node与之绑定。

一、调度队列

同一时刻会有多个pod等待调度,会把等待调度的pod放到activeQ中(PriorityQueue),然后周期性(1s)的进行调度,对于调度超时( DefaultPodMaxInUnschedulablePodsDuration 5m)会放入队列中,再次重新调度。

二、单次调度

用下图来说明单个调度的流转逻辑。

k8s调度器 - 图1

注意:一个集群中可以有多个调度器,所以首先需要根据pod中的spec参数获取调度器名称

跳过<font style="color:rgb(34, 34, 34);">pod:skipPodSchedule</font>, 过滤调不需要调度的pod,比如正在删除中的pod,上个调度周期正在处理中的pod 筛选<font style="color:rgb(34, 34, 34);">pod:SchedulePod</font>,计算并预选出适合的node 如果筛选失败,则调用<font style="color:rgb(34, 34, 34);">RunPostFilterPlugins</font>; 如果筛选成功,则调用插件:<font style="color:rgb(34, 34, 34);">RunXXXPlugins</font>,开始调用配置的插件列表,从Reserve插件到<font style="color:rgb(34, 34, 34);">MultiPoint</font>依次按照埋点调用。 对于大规模集群,单此调度要遍历所有的node么?这是一个值得思考的问题。默认调度器给出的答案是根据集群规模自适应调度数量。
  • 对于小规模集群,node数小于100, 遍历所有node。
  • 对于大规模集群,node数大于100,且配置的百分比小于100%时:按照node数量的一定百分比遍历,区间范围是[5,100]。
  • 计算公式是
prePercent :=50-numAllNodes/125 percent :=max(5,prePercent)

三、调度过程

调度过程分为3个步骤:过滤,打分,筛选,代码步骤如下: 省略非必要代码
  1. // node快照
  2. if err := sched.Cache.UpdateSnapshot(sched.nodeInfoSnapshot); err != nil {
  3. return result, err
  4. }
  5. // 过滤
  6. feasibleNodes, diagnosis, err := sched.findNodesThatFitPod(ctx, fwk, state, pod)
  7. if err != nil {
  8. return result, err
  9. }
  10. // 打分
  11. priorityList, err := prioritizeNodes(ctx, sched.Extenders, fwk, state, pod, feasibleNodes)
  12. if err != nil {
  13. return result, err
  14. }
  15. // 随机筛选
  16. host, err := selectHost(priorityList)

(一)过滤

可用的node列表:
  • 插件过滤:<font style="color:rgb(34, 34, 34);">RunPreFilterPlugins</font>如果插件执行失败,那么返回所有node可用,如果插件返回不可调度,则返回失败,终止本次调度。
  • 获取<font style="color:rgb(34, 34, 34);">node allNodes, err := sched.nodeInfoSnapshot.NodeInfos().列表()</font>
  • 抢占式pod的status字段中<font style="color:rgb(34, 34, 34);">NominatedNodeName</font>设置后,会优先抢占同名的node。
  • <font style="color:rgb(34, 34, 34);">allNode</font><font style="color:rgb(34, 34, 34);">preFilter</font>返回的node求交集。

(二)打分

根据优先级选择合适的node列表:<font style="color:rgb(34, 34, 34);">prioritizeNodes</font> + 如果没有开启打分插件,返回所有node list。 + 打分插件逐次调用<font style="color:rgb(34, 34, 34);">RunPreScorePlugins</font>—><font style="color:rgb(34, 34, 34);">RunScorePlugins</font> ### (三)筛选 相同优先级列表下,获取score最大值的node,如果存在多个相同分数,则随机一个。

四、插件机制

插件分为了调度和绑定两大类,划分成了多个时机调用,如下图:

k8s调度器 - 图2

(一)插件类型

对于pod的调度过程,划分了多个点,每个点调用对应的插件列表,目前支持如下多种类型插件:
  1. // QueueSort is a list of plugins that should be invoked when sorting pods in the scheduling queue.
  2. QueueSort PluginSet `json:"queueSort,omitempty"`
  3. // PreFilter is a list of plugins that should be invoked at "PreFilter" extension point of the scheduling framework.
  4. PreFilter PluginSet `json:"preFilter,omitempty"`
  5. // Filter is a list of plugins that should be invoked when filtering out nodes that cannot run the Pod.
  6. Filter PluginSet `json:"filter,omitempty"`
  7. // PostFilter is a list of plugins that are invoked after filtering phase, but only when no feasible nodes were found for the pod.
  8. PostFilter PluginSet `json:"postFilter,omitempty"`
  9. // PreScore is a list of plugins that are invoked before scoring.
  10. PreScore PluginSet `json:"preScore,omitempty"`
  11. // Score is a list of plugins that should be invoked when ranking nodes that have passed the filtering phase.
  12. Score PluginSet `json:"score,omitempty"`
  13. // Reserve is a list of plugins invoked when reserving/unreserving resources
  14. // after a node is assigned to run the pod.
  15. Reserve PluginSet `json:"reserve,omitempty"`
  16. // Permit is a list of plugins that control binding of a Pod. These plugins can prevent or delay binding of a Pod.
  17. Permit PluginSet `json:"permit,omitempty"`
  18. // PreBind is a list of plugins that should be invoked before a pod is bound.
  19. PreBind PluginSet `json:"preBind,omitempty"`
  20. // Bind is a list of plugins that should be invoked at "Bind" extension point of the scheduling framework.
  21. // The scheduler call these plugins in order. Scheduler skips the rest of these plugins as soon as one returns success.
  22. Bind PluginSet `json:"bind,omitempty"`
  23. // PostBind is a list of plugins that should be invoked after a pod is successfully bound.
  24. PostBind PluginSet `json:"postBind,omitempty"`
  25. // MultiPoint is a simplified config section to enable plugins for all valid extension points.
  26. MultiPoint PluginSet `json:"multiPoint,omitempty"`

(二)插件列表

默认调度器,实现了多种插件不用特性的插件,目前支持的列表如下,下面举几个例子说明。
  1. "PrioritySort" :
  2. "DefaultBinder"
  3. "DefaultPreemption"
  4. "ImageLocality"
  5. "InterPodAffinity"
  6. "NodeAffinity"
  7. "NodeName"
  8. "NodePorts"
  9. "NodeResourcesBalancedAllocation"
  10. "NodeResourcesFit"
  11. "NodeUnschedulable"
  12. "NodeVolumeLimits"
  13. "AzureDiskLimits"
  14. "CinderLimits"
  15. "EBSLimits"
  16. "GCEPDLimits"
  17. "PodTopologySpread"
  18. "SelectorSpread"
  19. "ServiceAffinity"
  20. "TaintToleration"
  21. "VolumeBinding"
  22. "VolumeRestrictions"
  23. "VolumeZone"
对于打分插件,必须实现如下接口,且每个插件打分范围是[0, 100]
  1. type ScorePlugin interface {
  2. Plugin
  3. // Score is called on each filtered node. It must return success and an integer
  4. // indicating the rank of the node. All scoring plugins must return success or
  5. // the pod will be rejected.
  6. Score(ctx context.Context, state *CycleState, p *v1.Pod, nodeName string) (int64, *Status)
  7. // ScoreExtensions returns a ScoreExtensions interface if it implements one, or nil if does not.
  8. ScoreExtensions() ScoreExtensions
  9. }

(三)插件特性

图像定位

<font style="color:rgb(34, 34, 34);">ImageLocality</font>:本地镜像打分插件,计算分数规则如下:

sumScore :=(拥有镜像的node数/node总数)*镜像大小 得分 := (总和分数容器数- 23mb)/(1000mb 3-23mb)

注意:这里不是指单个containner,而是一个pod中的所有container的打分之和。为什么范围是23mb到1000mb?可以想一想。

节点关联

<font style="color:rgb(34, 34, 34);">NodeAffinity</font>:node亲和性和反亲和性,提供了两种策略配置

  • 对于必选策略<font style="color:rgb(34, 34, 34);">RequiredDuringSchedulingIgnoredDuringExecution</font>,如果匹配未成功,则在<font style="color:rgb(34, 34, 34);">PreFilter</font>阶段返回失败,终止调度。
  • 对于首先策略<font style="color:rgb(34, 34, 34);">PreferredDuringSchedulingIgnoredDuringExecution</font>,如果匹配未成功,则尝试其他node也失败,调度器仍然会调度改pod。亲和性,反亲和性是用来影响打分数值(正负分)weight
逻辑代码如下:
  1. // 亲和性,反亲和性判定判定
  2. if hasPreferredAffinityConstraints || hasPreferredAntiAffinityConstraints {
  3. for _, existingPod := range podsToProcess {
  4. pl.processExistingPod(state, existingPod, nodeInfo, pod, topoScore)
  5. }
  6. topoScores[atomic.AddInt32(&index, 1)] = topoScore
  7. }
比如业务逻辑中的配置如下图,期望是一个node上只调度一个这种pod,但是配置了首选策略。所以当node数小于pod数时,是会出现一个node上有多个此类pod,会有一定的影响。

k8s调度器 - 图3

污点耐受

<font style="color:rgb(34, 34, 34);">TaintToleration</font>:污点插件,提供了过滤,预打分,打分,打分标准化(平行扩展到0到100)接口。

污点标记提供了3种类型
  1. // 尽可能不调度
  2. TaintEffectPreferNoSchedule TaintEffect = "PreferNoSchedule"
  3. // 一定不调度
  4. TaintEffectNoSchedule TaintEffect = "NoSchedule"
  5. // 一定不调度且驱逐
  6. TaintEffectNoExecute TaintEffect = "NoExecute"
比如业务中打了污点,那么一般pod是不会调度到此pod上的。

k8s调度器 - 图4

五、调度器配置

一般情况下,scheduler会起多副本进行容灾。

k8s调度器 - 图5

  1. {
  2. "name": "BalancedResourceAllocation",
  3. "weight": 1
  4. },
  5. {
  6. "name": "EvenPodsSpreadPriority",
  7. "weight": 1
  8. },
  9. {
  10. "name": "InterPodAffinityPriority",
  11. "weight": 1
  12. },
  13. {
  14. "name": "LeastRequestedPriority",
  15. "weight": 1
  16. },
  17. {
  18. "name": "NodeAffinityPriority",
  19. "weight": 1
  20. },
  21. {
  22. "name": "NodePreferAvoidPodsPriority",
  23. "weight": 10000
  24. },
  25. {
  26. "name": "SelectorSpreadPriority",
  27. "weight": 1
  28. },
  29. {
  30. "name": "TaintTolerationPriority",
  31. "weight": 1
  32. }

六、如何自定义pod调度

目前有2种常用方法:

(一)扩展模式

实现t<font style="color:rgb(34, 34, 34);">ype Extender struct</font>接口,并且在策略文件scheduler-policy-config中配置扩展访问方式
  1. "extenders": [{
  2. "urlPrefix": "http://xxx/prefix",
  3. "filterVerb": "filter",
  4. "weight": 1,
  5. "bindVerb": "bind",
  6. "enableHttps": false
  7. }]

(二)多调度器

在需要自定义调度的pod中,指定pod的<font style="color:rgb(34, 34, 34);">spec.schedulerName</font> 为自定义的调度器名称。实现自定义调度器。部署自定义的调度器deployment。 在新版本1.19之后建议扩展自定义调度框架,如下例:
  1. import (
  2. scheduler "k8s.io/kubernetes/cmd/kube-scheduler/app"
  3. )
  4. func main() {
  5. command := scheduler.NewSchedulerCommand(
  6. scheduler.WithPlugin("my-plugin", MyPlugin))
  7. if err := command.Execute(); err != nil {
  8. fmt.Fprintf(os.Stderr, "%v\n", err)
  9. }
  10. }

七、总结

在深入schedule源码之后,对于调度器有了剖丝抽茧的理解,了解背后的设计初衷。对于高性能,提供了自适应集群规模的调度策略。对于可靠性,kube-scheduler提供了多副本选主机制,由master提供调度功能。对于扩展性,它提供了丰富的扩展接口和时机用,且提供了灵活而实用插件策略配置。