概述

    SRE:Site Reliability Engineering 网站可靠性工程师

    SRE需要负责可用性、时延、性能、效率、变更管理、监控、应急响应和容量管理等相关的工作。

    这样看SRE的门槛实在是太高了,别说是传统的运维,就算是优秀的SWE可能也很被Google选中。所以按照这种模式来组建SRE或者向SRE借鉴什么经验的话,我们基本是玩不转的,因为具备这种技术能力的人太少,实在是太少,而且具备了技术能力,还需要有一定的产品sense、良好的沟通协作能力、良好的规范标准制定意识,这些偏软性的东西又可能是很多技术神人所不擅长的。

    SRE团队成员具有如下特点:
    (a)对重复性、手工性的操作有天然的排斥感
    (b)有足够的技术能力快速开发出软件系统以替代手工操作。

    DevOps 还是 SRE ?

    这个名词的核心思想是尽早将IT相关技术与产品设计和开发过程结合起来,着重强调自动化而不是人工操作,以及利用软件工程手段执行运维任务等。这些思想与许多SRE的核心思想和实践经验相符合。我们可以认为DevOps是SRE核心理念的普适版,可以用于更广范围内的组织结构、管理结构和人员安排。同时,SRE是DevOps模型在Google的具体实践,带有一些特别的扩展。