论文地址: 压力下的权衡:解决internet服务中断团队的启发和观察 Allspaw, Masters thesis, Lund University, 2015

    STELLA报告之后,今天我们将回顾研究关键业务互联网服务中事件管理的人和组织方面的第一项主要工作:John Allspaw的2015年硕士论文。这份文件长达87页,所以我将在两篇文章中介绍这些材料。今天我们将讨论背景和文献回顾部分,这些部分将活动放在一个丰富的背景中,并为深入了解您感兴趣的领域提供许多起点。在下一篇文章中,我们将详细分析Etsy的一个团队是如何在2014年12月4日处理一个特定事件的,看看我们能从中学到什么。

    为什么这是一件事?
    **
    也许很明显事故管理很难。但值得一提的是,为什么会出现这种情况,以及是什么让它成为一个值得研究的领域。
    互联网服务的运行环境包含了许多在诊断和应对不良突发事件时产生歧义和错误后果的必要因素。

    Allspaw强调了四个关键挑战:

    • 系统是独一无二的不透明的,多层抽象隐藏了底层的复杂性、正常情况下的性能可变性,以及服务之间日益增加的相互依赖性,包括跨组织边界。
    • 这些系统运行的因特网本身是一个动态分布的网络,跨越国界和政策,没有中央协调机构。例如,路由是不确定的。业务关键型互联网系统继承了分布式系统的所有挑战。
    • 构建和操作这些系统的组织本身往往是地理分布的,并且实际上是在通信。
    • 环境是开放的,与内容和信息的消费者和生产者有着持续的交互。

    所有的标准都是将这些系统归类为复杂的自适应系统:连通性、多样性、自适应性和相互依赖性。此外:

    • 因果关系是复杂的、网络化的
    • 有很多可行的选择
    • 系统行为可能在某种程度上是一致的(重复的模式和趋势),但系统不是固定的,因此这些模式和趋势随时间而变化。
    • 可预测性降低了:我们不能总是预测一个行动的所有后果,对于一个给定的预期结果,我们也不能总是确定什么行动会产生它。
    • 当事情失败时,很难判断到底是什么在失败(有时甚至根本就没有失败)。

    总而言之,当软件工程师试图用他们的服务来解决中断时,他们发现自己处于一个非常不利的位置。
    可以帮助我们思考事件管理的构建块和先前的研究
    从安全科学的角度来看,目前在web和Internet工程领域中试图研究基于团队的异常响应问题的文献还很缺乏。然而,对于团队在高节奏、高后果条件下理解和解决异常现象的课题,并不缺乏人为因素和系统安全研究。

    Klein告诉我们,团队比个人有一些优势:

    • 更广泛的关注
    • 更广泛的专业知识
    • 内置可变性
    • 更大的重组能力
    • 以及并行工作的能力

    Patterson等人。提供有关参与合作认知的团队中出现的模式的见解:

    • 协作中的故障是由意外发出的信号
    • 在监视的流程中发生意外事件后,活动升级
    • 投资于共同理解以促进有效沟通
    • 为应对突发事件,本地参与者调整远程主管的计划
    • 在出现意外情况时召集其他人员
    • 异常反应中认知过程的功能分布

    分布式认知的研究将机器的所有组成部分都加入到混合体中(“将人和人工物的某些排列视为认知系统”)。在这种情况下开展的联合活动具有许多性质:

    • 认知分布在多个自然和人工认知系统中
    • 认知是一系列活动的一部分,而不是在对一个事件作出反应之前的一瞬间发生的事情
    • 它植根于一个社会环境和背景中,约束活动并提供资源
    • 活动水平波动
    • 几乎所有的活动都是由个体认知主体以外的某个或某个人所辅助的。

    在信息技术系统的背景下,[计算机介导通信杂志][JCMC]发表了一系列关于使用基于计算机的工具(如聊天)进行通信的研究。

    伍兹1995给了我们在联合活动中出现的集体推理模式:

    • 在诊断过程中,人们根据他们对所发生事情的最好解释来计划他们的反应
    • 响应计划包括采取纠正措施,然后对其成功进行监控
    • 如果在监测过程中发现异常情况,则将这些观察结果反馈到响应计划中
    • 可以采取安全措施来控制或限制异常行为,这些措施还可以生成更多的信息用于响应计划
    • 任何意外行为都会进一步用于通知诊断

    woods-patterns.jpeg

    当活动展开时,参与者不断形成假设并做出决定。

    在一个可供探索的信息量(以及信息生成速度)大大超过团队控制集体注意力的能力的环境中,许多应对策略应运而生。其中一个策略是使用启发式方法。

    Hollnagel列举了一组经常在涉及不确定性和多个冲突目标的场景中使用的判断启发法:

    • 相似性匹配——判断触发条件和适当动作的存储属性之间的相似性
    • 频率押注-根据发生频率在部分匹配的选项中进行选择
    • 代表性——如果它看起来像X,那么它可能是X
    • 可用性——根据选择的容易程度来选择
    • 专注的押注——机会主义地从一种假设转变为另一种假设
    • 保守的押注-缓慢地、渐进地建立一个假设
    • 同时扫描-同时尝试几个假设

    因为这些启发式方法是捷径,所以它们是ETTO(效率彻底性权衡)原则的一种表现:它们权衡彻底性和效率,效率有时会产生好的一面和坏的一面。
    在两个选择之间跳得太多会导致主题性的流浪——在任何一个领域都不够深入。它的双重危险是认知定势,即人们可能会专注于某个特定的想法或解决方案,甚至排除了其他信号。
    站在启发式旁边的是专家直觉的概念,这是在自然决策(NDM)社区中研究的。直觉来自于对在给定情况下发现的线索的模式识别。依靠直觉做出决策被称为认知引导决策(RPD)。
    本文的关键是要认识到,这两种观点都表明,在包含不确定性(如互联网服务中断)的情况下使用的认知策略远远不够全面,而且会包含心理捷径。不管这些捷径被称为“启发法”还是“熟练直觉”都很重要;目标是确定它们在野外使用。

    预防性设计还不够
    我要用最后一个想法来结束这篇文章。作为一个社区,我们花费了大量的集体精力来解决这个问题:“设计能够防止或限制灾难性故障的系统需要什么?”这一切都很好,但要意识到这与问题不同:
    当我们的预防性设计失败时,运营商团队成功解决这些灾难的方法是什么?