当节点离开时延迟分配

不论什么原因（有意还是无意）当一个节点离开集群时，主节点的反应是：

这些操作旨在通过确保每个分片尽快完全复制，以保护集群避免数据丢失。

即使我们在节点级别和集群级别限制并发恢复，这种“分片洗牌”仍然会给集群带来大量额外负载，如果丢失的节点可能会很快返回，这可能是不必要的。想象以下场景：

如果主节点仅等待了几分钟，那么丢失的分片就可以用最少的网络流量重新分配给节点 5。对于已自动同步刷新的空间分片（未接收索引请求的分片），此过程将更快。

由于一个节点已离开，副本分片分配变为未分配，可以使用 index.unassigned.node_left.delayed_timeout 动态设置，默认为 1m。

这个设置可以活动索引（或者所有索引）上更新：

PUT _all/_settings
{
  "settings": {
    "index.unassigned.node_left.delayed_timeout": "5m"
  }
}

如果允许延迟分配，以上的场景会变成这样：

?> 此设置不会影响将副本升级为主分片，也不会影响以前未分配副本的分配。特别是，延迟分配在集群重启后不会生效。另外，在主节点故障切换的情况下，已消耗的延迟时长会被忽视（即，重置为完全初始的延迟）。

分片迁移取消

如果延迟分配超时，主节点分配丢失的分片到另一个节点，此节点将开始恢复。如果丢失的节点重加入集群，且它的分片仍然有与主分片相同的同步id，那么分片迁移将取消，并使用同步的分片进行恢复。

同于这个原因，默认的 timeout（超时）只设置为 1 分钟：即使分片迁移开始了，取消恢复而采用同步的分片也是低成本的。

按照超时设置延迟分配的分片数量，可以通过集群健康 API查看：

GET _cluster/health

如果一个节点不打算返回，且你希望 Elasticsearch 立即分配丢失的分片，只需要将超时设置为 0 ：

PUT _all/_settings
{
  "settings": {
    "index.unassigned.node_left.delayed_timeout": "0"
  }
}

一旦丢失的分片开始恢复，就可以重置超时。

原文链接