上下文感知的注意力集中的知识追踪
ABSTRACT 摘要
1 INTRODUCTION 介绍
- 1.1 Contributions 贡献
2 KNOWLEDGE TRACING PROBLEM SETUP 知识跟踪问题设置
- 2.1 Question and Response Embeddings 问题和回答嵌入
3 THE AKT METHOD AKT方法
4 EXPERIMENTAL RESULTS 实验结果
5 CONCLUSIONS AND FUTURE WORK 结论和下一步工作

tags: [知识追踪, AKT]
categories: [知识追踪, AKT]

上下文感知的注意力集中的知识追踪

ABSTRACT 摘要

知识追踪(KT)指的是根据学习者过去在教育应用中的表现来预测其未来表现的问题。使用灵活的深度神经网络模型的KT的最新发展擅长于这一任务。然而，这些模式的可解释性往往有限，因此不足以满足个性化学习的需要。个性化学习需要使用可解释的反馈和可操作的建议来帮助学习者获得更好的学习结果。在本文中，我们提出了注意力知识追踪(AKT)，它将灵活的基于注意力的神经网络模型与一系列受认知和心理测量模型启发的新颖的、可解释的模型组件相结合。AKT使用了一种新的单调注意机制，将学习者未来对评估问题的反应与他们过去的反应联系起来；除了问题之间的相似性外，还使用指数衰减和上下文感知的相对距离度量来计算注意力权重。此外，我们使用Rasch模型来规则化概念和问题嵌入，这些嵌入能够在不使用过多参数的情况下捕捉同一概念上问题之间的个体差异。我们在几个真实的基准数据集上进行了实验，结果表明，AKT在预测未来学习者的反应方面优于现有的KT方法(在某些情况下AUC高达6%)。我们还进行了几个案例研究，表明AKT表现出极好的可解释性，因此在现实世界的教育环境中具有自动反馈和个性化的潜力。

1 INTRODUCTION 介绍

数据分析和智能导学系统[32]的最新进展使大规模学习者数据的收集和分析成为可能；这些进步暗示了大规模个性化学习的潜力，方法是通过分析每个学习者的学习历史数据，自动向每个学习者提供个性化反馈[24]和学习活动建议[11]。
学习者数据分析中的一个关键问题是根据学习者过去的表现来预测他们未来的表现(他们对评估问题的反应)，这被称为知识追踪(KT)问题[3]。在过去的30年里，基于两个共同的假设发展了许多解决KT问题的方法：i)学习者过去的表现可以用一组变量来概括，这些变量代表了他们在一组概念/技能/知识组件上的当前潜在知识水平；ii)学习者的未来表现可以用他们当前的潜在概念知识水平来预测。具体地说，让t表示一组离散的时间指数，我们有以下关于学习者知识和表现的通用模型。

其中rt∈{0,1}表示学习者在时间步长t上对评估问题的评分响应，通常是二进制值（1对应正确的答案，0对应不正确的答案）并得到观察。潜在变量ht表示学习者当前的知识水平，不会被观察到。 f（·）和g（·）是表征学习者知识如何决定其反应以及其发展方式的函数；它们有时分别称为响应模型和知识演化模型。
2010年前KT方法的早期发展可以分为两类。第一类以贝叶斯知识追踪(BKT)方法[19，35]为中心，其中知识(ht)是表征学习者是否掌握问题所涵盖的(单个)概念的二进制标量。由于响应(rt)也是二进制值的，响应和知识演化模型简单地是噪声的二进制通道，由猜测、滑动、学习和遗忘概率来参数化。第二类以项目反应理论(IRT)模型[16]为中心，使用这些模型(特别是S型连接函数)作为反应模型f(·)；然后将学习者的知识水平建模为涵盖多个概念的问题的实值向量(ht)。在这些方法中，SPARFA-Trace方法[13]使用一个简单的仿射变换模型作为显式知识演化模型g(·)。其他方法，例如，加法因素模型[1]、性能因素分析[22]、难度、能力和学生历史(DASH)模型[15]，以及包括知识分解机器[30]和DAS3H模型的扩展的一些最近的方法，使用手工制作的特征，例如在其知识进化模型中的每个概念上的先前尝试、成功和失败的次数。这两个类中的方法都依靠专家标签将问题与概念关联起来，由于它们可以有效地估计每个学习者对专家定义的概念的知识水平，因此具有极好的可解释性。
KT的最新发展集中在使用更复杂和更灵活的模型来充分利用大规模学习者反应数据集中包含的信息。深度知识追踪(DKT)方法[23]是通过使用长期短期记忆网络[7]作为知识进化模型g(·)来探索(可能是深度)神经网络用于KT的第一种方法。由于LSTM单元是非线性的、复杂的函数，它们比仿射变换更灵活，更能捕捉真实数据中的细微差别。
动态键值记忆网络(dynamic key-value memory networks, DKVMN)方法扩展了DKT，利用外部记忆矩阵(external memory matrix, Ht)来表征学习者知识[36]。这个矩阵被分为两部分:一个静态的“键”矩阵，它包含每个概念的固定表示;一个动态的“值”矩阵，它包含每个学习者对每个概念的不断发展的知识水平。DKVMN还在响应和知识演化模型的外部矩阵上使用单独的“读”和“写”过程;这些过程使它比DKT更加灵活。DKT和DKVMN在预测未来学习者表现[9]上拥有最先进的性能，并已成为新的KT方法的基准。
自我注意知识追踪(self-attentive knowledge tracing , SAKT)方法[18]是第一个在KT上下文（情境）中使用注意机制的方法。注意机制比循环和基于记忆的神经网络更灵活，在自然语言处理任务中表现出更好的性能。SAKT的基本设置与变压器(Transformer)模型[29]有许多相似之处，后者是许多序列到序列(sequence-to-sequence)预测任务的有效模型。然而，我们观察到，在我们的实验中，SAKT的性能并不优于DKT和DKVMN；有关详细信息，请参阅第4节。这可能的原因包括：i)不像在语言任务中，单词之间强烈的长距离依赖更为普遍，未来学习者表现对过去的依赖可能被限制在更短的窗口内，以及ii)学习者响应数据集的大小比自然语言数据集低几个数量级，并且不太可能从高度灵活和大规模的注意模型中受益。
(研究问题)更重要的是，没有一种现有的KT方法能够真正在未来性能预测和可解释性两方面出类拔萃。早期的KT方法表现出很好的可解释性，但对未来学习者的成绩预测没有提供最先进的性能。最近的基于深度学习的知识理论方法在这方面表现出色，但提供的解释力有限。因此，这些KT方法并不能完全满足个性化学习的需要，个性化学习不仅需要准确的成绩预测，还需要能够提供自动化的、可解释的反馈和可操作的建议，以帮助学习者获得更好的学习结果。[喻清尘1]

1.1 Contributions 贡献

对于预测学习者对当前问题的反应的任务，我们提出了注意力知识追踪(AKT)方法，它使用一系列的注意力网络来将这个问题与学习者过去回答的每一个问题联系起来。我们将我们的主要创新总结如下：(本文贡献)
(1)与现有的使用原始问题和答案嵌入的注意方法相反，我们将原始嵌入放在上下文中，并通过考虑学习者的整个练习历史来使用针对于过去问题和答案的上下文感知表示。
(2)受认知科学关于遗忘机制研究的启发，我们提出了一种新的单调注意机制，该机制使用指数衰减曲线来降低问题在遥远过去的重要性。我们还开发了一种上下文感知措施来表征学习者过去回答过的问题之间的时间距离。
(3)利用Rasch模型这一简单且可解释的IRT模型，在不引入过多模型参数的情况下，使用一系列基于Rasch模型的嵌入来捕捉问题之间的个体差异。
我们在几个真实世界的基准教育数据集上进行了一系列实验，比较了AKT和最新的KT方法。我们的结果表明，AKT在预测未来学习者的表现方面(有时非常显著)优于其他KT方法。此外，我们对AKT模型的每个关键组件进行了消融研究(ablation studies)，以证明它们的价值。我们还进行了几个案例研究，以表明AKT表现出极好的可解释性，并具有自动反馈和练习问题推荐的潜力，这两个都是个性化学习的关键要求。

2 KNOWLEDGE TRACING PROBLEM SETUP 知识跟踪问题设置

每个学习者的成绩记录由每个离散时间步的一系列问题和回答组成。对于时间步长t的学习者i，我们将他们回答的问题、这个问题涵盖的概念以及他们的评分答案表示为一个元组 2020-AKT: Context-Aware Attentive Knowledge Tracing(Aritra Ghosh et al.) - 图2 ，其中是问题索引，是概念索引，是答案。在这种记号下，表示学习者i在时间t对基于概念的问题做出了正确的回答。我们注意到，这种设置与以往的一些深度知识追踪工作不同，这些工作往往忽略问题索引，将学习者的表现概括为 2020-AKT: Context-Aware Attentive Knowledge Tracing(Aritra Ghosh et al.) - 图9 。此选择是为了避免过度参数化；有关详细分析，请参见第3.3节。在下面的讨论中，当我们讨论如何预测单个学习者的未来表现时，我们省略了上标i。给定他们到时间t−1的过去历史为{(q1，c1，r1)，.…，(qt−1，ct−1，rt−1)}，我们的目标是预测他们在当前时间步长t对概念ct上的问题qt的反应rt。

2.1 Question and Response Embeddings 问题和回答嵌入

在前人工作的基础上，我们使用实值嵌入向量xt∈RD和yt∈RD分别表示每个问题和每个问答对(qt，rt)。xt表示关于问题的信息，yt表示学习者通过回答问题获得的知识，正确和错误的回答嵌入为两个单独的嵌入向量。D表示这些嵌入的维度。因此，用Q表示问题的数量，总共有Q个问题嵌入向量和2Q个问题-回答嵌入向量。在大多数现实世界的教育设置中，题库比概念集大得多，许多问题被分配给很少的学习者。因此，现有的KT方法大多使用概念来索引问题，以避免过度参数化；覆盖同一概念的所有问题都被视为单个问题。在这种情况下，qt=ct，Q=C。

3 THE AKT METHOD AKT方法

AKT方法由四个组件组成：两个自注意编码器，一个用于问题，一个用于知识获取，一个基于注意力的知识检索器，以及一个前馈响应预测模型；图1显示了AKT方法及其相关组件。
我们使用两个自我注意的编码器来学习问题和回答的上下文感知表示。我们将第一个编码器称为问题编码器，它根据学习者之前练习过的问题序列，生成每个问题的修改后的上下文表示形式。类似地，我们将第二个编码器称为知识编码器，它产生学习者在回答过去的问题时所获知识的修改的、上下文的表示。或者，我们可以使用与以前的工作类似的问题和回答的原始嵌入。我们发现，上下文感知表示在大多数数据集中表现得更好。我们将知识演化模型称为知识检索器，它使用注意力机制检索过去获得的与当前问题相关的知识。最后，响应预测模型使用检索到的知识预测学习者对当前问题的响应。AKT方法是由三种根植于认知科学和心理测量学的直觉驱动的；我们将在下面详细介绍这些直觉。[喻清尘2]

3.1 Context-aware Representations and The Knowledge Retriever 上下文感知表示和知识检索器

如上所述，我们在模型中使用了两个编码器。问题编码器采用原始问题嵌入{x1，……，xt}作为输入，并输出使用单调注意机制(在下一小节中详细描述)的上下文感知问题嵌入序列{ˆx1，……ˆxt}。每个问题的上下文感知嵌入既取决于其本身，也取决于过去的问题，即 ˆxt=fenc1(x1，……，xt)。类似地，知识编码器采用原始问题-答案嵌入{y1，……，yt−1}作为输入，并输出使用相同的单调注意机制所获取的实际知识序列{ˆy1，……，ˆyt−1}。所获知识的上下文感知嵌入取决于学习者对当前问题和过去问题的回答，即ˆyt−1=fenc2(y1，……，yt−1)。
（三大直觉）选择使用上下文感知嵌入而不是原始嵌入反映了我们的第一个直觉：学习者在回答问题时理解和学习的方式取决于学习者。这些修改后的表征反映了每个学习者对问题的实际理解和他们实际获得的知识，给出了他们的个人反应历史。这种模式的选择是基于这样一种直觉，即对于两个过去回答顺序不同的学习者来说，他们理解同一问题的方式以及他们从练习中获得的知识可能会有所不同。
知识检索器将上下文感知问题和问题-回答对嵌入ˆx1：t和ˆy1：t−1作为输入，并输出当前问题的检索到的知识状态ht。我们注意到，在AKT中，学习者的当前知识状态也是上下文感知的，因为它取决于他们正在回答的当前问题；这种模型选择与包括DKT在内的大多数现有方法不同。我们还注意到，知识检索器只能使用关于过去问题的信息、学习者对这些问题的反应以及当前问题的表示，而不能使用学习者对当前问题的反应，即ht=fkr(ˆx1，……，ˆxt， ˆy1，……，ˆyt−1)。响应预测模型使用检索到的知识来预测当前响应。

3.2 The Monotonic Attention Mechanism 单调注意机制

对于编码器和知识检索器，我们使用一种改进的、单调版本的缩放点积注意机制(the scaled dot-product attention mechanism)。我们首先简要总结一下最初的缩放点积注意机制。在此框架下，每个编码器和知识检索器都有一个键、查询和值嵌入层，分别将输入映射到维度Dq=Dk、Dk和Dv的输出查询、键和值。设 2020-AKT: Context-Aware Attentive Knowledge Tracing(Aritra Ghosh et al.) - 图10 表示对应于学习者在时间t回答的问题的查询，使用Softmax函数[5]计算缩放的点积关注值：（一般注意机制相关公式）

然后，由出缩放的点积注意机制的输出。分别表示在时间步长τ的问题的键和值。根据特定组件的不同，输出要么取决于过去和当前(问题和知识编码器的τ≤t)，要么仅取决于过去(知识检索器的τ 两个编码器都使用自我注意机制，即使用相同的输入计算qt、kt和vt；问题编码器使用{x1，……，xt}，而知识编码器使用{y1，……，yt−1}。另一方面，知识检索器不使用自我注意。如图1所示，在时间步，它使用ˆxt(当前问题的修改嵌入)，{ˆx1，……，ˆxt−1}(过去问题的上下文感知嵌入)和{ˆy1，……，ˆyt−1}(过去问题-回答对的上下文感知嵌入)作为输入，以分别生成查询、键和值。我们注意到，SAKT使用问题嵌入来映射查询，而响应嵌入来映射键和值。在我们的实验中，我们发现使用问题嵌入来映射查询和键要有效得多。
然而，对于KT来说，这种基本的缩放点积注意机制可能是不够的。原因是学习是短暂的，记忆力会衰退[21]；当我们预测学习者对当前问题的反应时，他们在遥远过去的表现并不像最近的表现那样能提供信息。因此，我们开发了一种新的单调注意机制，它反映了我们的第二直觉：当学习者面临一个新的问题时，i)关于无关概念和ii)来自太久以前的过去经验不太可能是高度相关的。具体地说，我们将乘法指数衰减项添加到注意力得分中，如下所示：

其中θ>0是可学习衰减率参数，d(t，τ)是时间步长t和τ之间的时间距离度量。换言之，当前问题对过去问题的关注度不仅取决于对应的查询和键之间的相似度，还取决于它们之间的相对时间步数。总而言之，我们的单调注意机制采取的是随着时间推移呈指数衰减曲线的基本形式，当过去的问题与现在的问题高度相似时，可能会在时间步长上出现峰值。我们注意到，我们对注意力权重应用指数衰减，而不是潜在知识，这是现有学习者模型中常用的方法(参见[17，26])。
我们注意到，还有许多其他可能的方法来表征注意力的时间动态。首先，在注意力网络擅长的语言任务中，可以使用加性位置嵌入(additive positional embeddings)或可学习嵌入对时间动态进行建模[29]。其次，在我们的单调注意机制中，我们还可以将指数衰减参数化为。然而，这两个变化都不会带来与我们选择的模型设置相当的性能；在我们的实验中，我们将使用位置编码(而不是单调注意)来将AKT与其变体进行比较。
情境感知的距离测量(A context-aware distance measure)。指数衰减函数决定了随着当前时间指数与之前时间指数之间的距离增加，注意权重衰减的速率。定义两个时间指标之间的距离的一种直接方法是它们的绝对值差，即d(t,τ)= |t−τ|。然而，这种距离是不受上下文影响的，并且忽略了每个学习者的练习历史。例如，考虑以下两个序列的概念，学习者练习:维恩图(VD)1,VD2，…，VD8，素数(PN)9,PN10和PN1,VD2,VD3,… ,VD9,PN10, 其中符号“V D2”表示学习者在时间步长2时练习了维恩图的概念。在这个例子中，t = 10（即当前时间索引）时，学习者在这两个序列中都回答了一个质数的问题，在这个例子中，学习者在这两个序列中回答了关于t=10的质数(即当前时间索引)的问题，但是最近关于质数的过去练习来自不同的时间索引。由于维恩图和素数的概念关系不大，因此在预测当前习题的答案时，学习者以前关于素数的练习比最近关于维恩图的练习更适合我们。在这种情况下，使用直接的绝对值差异，指数衰减曲线将显著降低分配给t=1的素数练习的注意力权重。
因此，对于指数衰减机制(在编码器中)，我们提出以下上下文感知的时间步长d(t,τ)与τ≤t之间的距离度量：

对于知识检索器，我们将τ＇≤t替换为τ 多头注意和子层(Multi-head attention and sub-layers)。我们还结合了多头注意力，多头关注和子层。我们还加入了多头注意，这对在多个时间尺度[29]上注意过去的位置是有效的。因此，我们使用H个独立注意头，每个头都有自己的衰减率θ，将最终输出连接成(Dv·H)×1向量，并将其传递给下一层。这种模型设计使AKT能够在多个时间尺度上总结学习者过去的表现，这与多尺度上下文、DASH和DAS3H模型中的多个时间窗口有一些相似之处[2，15，21]。我们还在每个编码器和知识检索器中使用几个子层，包括一个用于层归一化[14]，一个用于丢弃[27]，一个完全连接的前馈层，以及一个剩余连接层[6]。

3.3 Response Prediction 响应预测

AKT方法的最后一个组成部分是预测学习者对当前问题的反应。预测模型的输入是检索到的知识(知识检索器输出ht)和嵌入当前问题xt的连接向量；该输入在最终通过Sigmoid函数[5]之前通过另一个完全连接的网络，以生成学习者正确回答当前问题的预测概率ˆrt∈[0，1]。通过最小化所有学习者响应的二进制交叉熵损失，以端到端方式训练整个AKT方法中的所有可学习参数，即

图1：AKT方法概述。我们使用基于Rasch模型的嵌入作为问题和回答的原始嵌入。问题和知识编码器计算问题和回答对的上下文感知表示。知识检索器使用这些表示作为输入，并计算学习者的知识状态。为简单起见，我们没有展示编码器中的单调注意机制。我们也不显示子层。

3.4 Rasch Model-Based Embeddings 基于Rasch模型的嵌入

如前所述，现有的KT方法使用概念来索引问题，即设置qt= ct。由于数据稀少，这种设置是必要的。设Q为问题总数，L为学习者人数。在大多数真实世界的学习者回答数据集中，学习者回答的数量与CL相当，但比QL少得多，因为许多问题分配给少数学习者。因此，使用概念对问题进行索引可以有效地避免过度参数化和过拟合。然而，这种基本设置忽略了覆盖同一概念的问题之间的个体差异，从而限制了KT方法的灵活性和它们的个性化潜力。[喻清尘3]
我们使用心理测量学中一个经典而强大的模型，Rasch模型(也称为1PL IRT模型)[16，25]，来构建原始问题和知识嵌入。Rasch模型使用两个标量来描述学习者正确回答问题的概率：问题的难度和学习者的能力。尽管它很简单，但在正式评估中，当知识是静态的时，它在学习者表现预测上取得了与更复杂的模型相当的性能[12，31]。具体地说，我们将来自概念ct的问题qt在时间步t的嵌入构造为

其中， 2020-AKT: Context-Aware Attentive Knowledge Tracing(Aritra Ghosh et al.) - 图22 是本问题涵盖的概念的嵌入，是总结涉及此概念的问题的变化的向量，是控制此问题与其涵盖的概念的偏离程度的标量难度参数。使用标量难度参数对每个概念ct中的问题-回答对(qt，rt)进行类似地扩展：

其中e(ct，rt)∈RD和f(ct，rt)∈RD是概念反应嵌入和变异向量。这种模式选择反映了我们的第三个直觉：被标记为涵盖相同概念的问题密切相关，但具有重要的个体差异，不应被忽视。这种模型选择在一定程度上受到了融合KT和IRT模型的另一项工作的启发[8]。
这些基于Rasch模型的嵌入在对单个问题差异建模和避免过度参数化之间取得了适当的平衡。对于问题嵌入，由于C≪Q和D≫1，该模型的嵌入参数总数为2CD+Q，略多于使用概念索引问题的模型(CD)，但远低于每个问题单独参数化的模型(QD)。我们进一步定义概念-回答嵌入为 2020-AKT: Context-Aware Attentive Knowledge Tracing(Aritra Ghosh et al.) - 图26 ，其中g1和g0分别表示正确答案和错误答案的嵌入(与概念无关)。因此，对于概念-反应嵌入，我们只引入了总共(C+2)D+Q个新嵌入参数，而没有引入2CD+Q个新参数。我们注意到，我们的问题和问题-回答嵌入共享一组参数 2020-AKT: Context-Aware Attentive Knowledge Tracing(Aritra Ghosh et al.) - 图27 ；这种设置不同于现有的基于神经网络的KT方法，在现有的KT方法中，两者是相互独立的。这些紧凑的嵌入表示法不仅显著减少了AKT中的参数数量，而且还显著减少了其他一些KT方法中的参数数量，从而提高了对未来学习者成绩预测的性能；有关详细信息，请参见表5。

表5：基于Rasch模型的嵌入(有时非常重要)提高了KT方法的性能。

4 EXPERIMENTAL RESULTS 实验结果

在本节中，我们将详细介绍我们在几个真实数据集上进行的一系列实验。我们通过预测学习者未来的反应对AKT进行定量评估，并通过一系列可视化和案例研究对AKT进行定性评估。

4.1 Experimental Setup 实验设置

   **数据集。**我们使用四个基准数据集：ASSISTments2009、ASSISTments2015、ASSISTments2017和Statics2011评估了AKT的性能和几个预测未来学习者反应的基线。ASSISTments数据集是从一个在线教学平台收集的，特别是ASSISTments2009数据集在过去十年中一直是KT方法的标准基准。Statics2011数据集是从一门大学级别的静力学工程课程中收集的。在所有这些数据集上，我们遵循文献中的一系列标准预处理步骤。对于ASSISTments2009数据集，我们删除与命名概念没有关联的所有交互。对于ASSISTments2015数据集，我们删除了“isGent”字段不是0或1的所有交互。我们在表1中列出了学习者、概念、问题和问题回答对的数量。在这些数据集中，只有ASSISTments2009和ASSISTments2017数据集包含问题ID；因此，基于Rasch模型的嵌入仅适用于这两个数据集。<br />       **基线方法和评估指标。**我们将AKT与几种基线KT方法进行了比较，包括BKT+[35]，DKT，DKT+(它是DKT的改进版本，具有预测一致性的正则化[34])，DKVMN[36]，以及最近提出的自关注KT(SAKT)方法[18]，它使用了一种可以被视为AKT的特例的注意机制，而没有对问题和回答的上下文感知表示和单调注意机制。我们使用接收器操作特征曲线(AUC)下的面积作为度量来评估所有KT方法在预测二值未来学习者对问题的反应方面的性能。<br />       **训练和测试。**为了评估目的，我们对所有模型和所有数据集执行标准的k折交叉验证(k = 5)。因此，对于每一个fold，使用20%的学习者作为测试集，20%的学习者作为验证集，60%的学习者作为训练集。对于每一个fold，我们使用验证集对每一个KT方法进行早期停止和调整参数。<br />       由于计算效率的原因，我们截断了超过200的学习者反应序列[23,36]。如果一个学习者有超过200个反应，我们就把他们的整个反应序列分解成多个更短的反应序列。我们使用Adam优化器训练所有模型[10]，批量大小为24个学习者，以确保我们的机器(配备了一个NVIDIA Titan X GPU)能够容纳整个批处理。我们在PyTorch中实现了AKT的所有版本;我们还重新实现了DKT、DKT+和SAKT，因为包含问题id需要新的数据集分区，并导致新的实验结果。我们对AKT, DKT, DKT+，和SAKT使用Xavier参数初始化方法[4];对于DKVMN，我们遵循他们的工作，使用来自正态分布的样本来初始化参数[36]。我们不重新实现BKT+;其在各种数据集上的性能均来自于[36]。对于大多数数据集和算法，一个epoch需要少于10秒。我们将最大纪元数设置为300。

4.2 Results and Discussion 结果与讨论

表2列出了所有KT方法在预测未来学习者反应方面在所有数据集中的表现;我们报告了五次测试的平均值和标准偏差。AKT- r和AKT- nr分别表示基于Rasch模型的嵌入和不嵌入AKT模型的变体。我们看到AKT(有时显著)在ASSISTments数据集上优于其他KT方法，而DKT+在最小的Statics2011数据集上略微优于AKT。总的来说，AKT在更大的数据集上表现更好;这一结果表明，注意机制比递归神经网络更灵活，因此更有能力捕捉包含在大规模真实世界学习者反应数据集中的丰富信息。在ASSISTments2015和ASSISTments2017数据集上，AKT-NR比最近的基线提高了6%和1%的AUC。它在Statics2011和ASSISTments2009数据集上的性能与最佳基线不相上下。更重要的是，在有问题id的ASSISTments2009和2017数据集上，AKT-R显著优于其他KT方法，分别比最近的基线高出2%和6%。我们注意到，在我们的实现中，DKT的性能优于更高级的DKVMN方法。虽然我们能够使用相同的实验设置[36]复制DKVMN的性能，但我们发现DKT的性能比之前在该研究中报告的要好得多。DKT+与DKT的性能相当，对Statics2011数据集做了少许改进。我们还观察到，基于rnn的模型DKT在所有数据集上的性能都优于SAKT。

表2:所有KT方法在所有数据集上预测未来学习者反应的表现。AKT(有时显著)在所有数据集上优于所有基线方法。最好的模特是粗体，第二好的模特是斜体。
消融研究。为了证明AKT方法中的三个关键创新，即问题和回答的上下文感知表示、单调注意机制和基于Rasch模型的嵌入，我们进行了三个额外的消融实验，比较了AKT方法的几种变体。第一个实验比较了使用上下文感知问题和响应表示(使用问题和知识编码器)的AKT-NR和AKT-R与两个变体AKTraw-NR和AKTraw-R；在这些变体中，我们使用原始的问题和响应嵌入作为它们的表示，而不是上下文感知表示(即，不通过编码器传递它们)。第二个实验比较了AKT-NR和几个没有单调注意机制的变体。这些变体包括AKT-NRpos和AKT-NRfix，AKT-NRpos使用(可学习的)位置编码来捕获学习者响应数据中的时间依赖性，AKT-NRfix使用(固定)位置编码，使用不同频率的正弦和余弦函数[29]。第三个实验将AKT-R与AKT-NR、DKT、DKT-R、DKT+、DKT+-R、DKVMN、DKVMN-R、SAKT和SAKT-R在有问题ID的ASSIST 2009和2017数据集上进行比较；DKT-R、DKT+-R、DKVMN-R和SAKT-R指的是DKT、DKT+、DKT-R
表3显示了上下文感知表示(即问题编码器和知识编码器)的第一次消融实验的结果(由于空间限制，仅测试折叠的平均值，而不是标准偏差)。在所有数据集上，AKT-R和AKTNR的性能都优于AKTraw-NR和AKTraw-R，后者只使用一种指数衰减的自我注意机制(即知识检索器)。这些结果表明，我们对问题和回答的语境感知表征在总结每个学习者的练习历史时是有效的。

表3：AKT的表现优于不使用上下文感知问题和响应表示的变体。
表4显示了单调注意机制的第二次消融实验结果。我们发现，AKT-NR在所有数据集上的表现明显优于其他使用位置嵌入的注意机制，包括SAKT，大约1%到6%。我们假设这一结果的原因是，与语言任务不同的是，在语言任务中，单词之间强烈的远程依赖更常见，未来学习者对过去表现的依赖被限制在更短的时间窗口内。因此，在注意力权重中使用不同指数衰减率的多头注意可以有效地捕捉不同时间尺度上对过去的短期依赖。

表4：AKT显著优于不使用单调注意的变种。
表5显示了基于Rasch模型的嵌入在两个ASSISTments数据集(其中有问题ID)上的第三次消融实验结果。所有添加了基于Rasch模型嵌入的基线KT方法都优于它们的常规版本，特别是在ASSISTments2017数据集上。这些结果证实了我们的直觉，即将涵盖同一概念的所有问题视为一个问题是有问题的；只要可以避免过度参数化，这些问题之间的个体差异就不应该被忽视。

表5：基于Rasch模型的嵌入(有时非常重要)提高了KT方法的性能。
注意。我们的标准实验设置遵循[23，36]中使用的设置。在此设置中，对于带有多个概念的问题(在ASSISTments2009数据集中)，单个学习者的回答重复多次，每个概念一个。其他研究对这些问题使用了不同的实验设置；在[31]中，作者去掉了这些问题，结果，DKT的成绩降到了0.71。在[33]中，作者为共现的单个概念的每个组合建立了新的概念，结果，DKT的性能下降到0.73。因此，我们还在ASSISTments2009数据集上使用了另一种实验设置。对于带有多个概念的问题，我们平均相应的概念嵌入，并将其用作输入嵌入和响应预测。表6列出了此设置下ASSISTments2009数据集上所有KT方法的性能。使用平均嵌入时，DKT的性能下降到0.76，比[31，33]下的设置要好。与所有KT方法的标准实验设置相比，我们观察到类似的性能下降，而AKT-R仍然轻松地超过所有基线。

表6：AKT在ASSISTments2009数据集上的性能仍然优于其他KT方法，在使用多个概念标记的问题的另一种实验设置下，AKT仍然优于其他KT方法。

4.3 Visualizing Learned AKT Parameters 可视化学习的AKT参数

单调注意。图2显示了AKT使用ASSISTments2009数据集的单调注意机制提供的可解释性。图2(A)以一个学习者为例，可视化了知识检索器中的注意力权重；我们绘制了用于预测他们在三个注意力头部的20个连续练习问题上的表现的注意力权重。我们看到，每个注意力头部都有自己的时间尺度：它们都有不同宽度的注意力窗口。例如，第二个头能够关注整个过去，最多20个时间点(在本例中)；相反，第三个头只能关注最近的过去，主要关注最后3-5个时间点。这一观察表明，过去的一些问题和回答包含了高度预测学习者对当前问题的反应的信息；这些信息可以被具有不同衰减率的多个注意力头脑有效地捕捉到。

图2：对学习者来说，(A)AKT解码器中三个注意力头部的注意力权重和(B)三个连续练习问题的注意力权重的可视化。概念相似度和新近度是控制注意力权重的关键因素。
图2(B)显示了知识检索器中针对单个学习者连续三个时间步的归一化注意力权重。在第一排，学习者在从−10到T−5练习了概念30之后，正在回答关于概念30的问题，然后休息一下练习概念42，然后回到TIMET−1的概念30。我们看到，AKT预测他们对当前问题的反应是通过更多地关注以前对这个概念的练习(无论是在最近的过去还是更早的过去)，而不是对同样是在不久的过去的另一个概念的练习。在中间一排，学习者再次切换到练习概念42。同样，在T−2和T−1的时候，AKT学习将注意力集中在同一概念上的过去练习，而不是刚刚过去的不同概念上。在最下面的一排，学习者连续第二次练习概念42，AKT显示出与第一行相似的焦点模式，概念30和42的角色互换了。这些观察表明，AKT的单调注意机制有可能通过将学习者当前的反应与他们过去的反应联系起来，向教师提供反馈；这些信息可能使教师能够选择他们已经练习过的特定问题，让他们在继续学习之前重新练习并清除误解。我们还注意到，AKT使用数据驱动的方法，学习这些与现有KT方法中手工制作的特征相匹配的注意模式(例如，对该概念的总尝试次数和正确尝试次数)[15，22]。
基于Rasch模型的嵌入。图3显示了使用ASSISTments2009数据集使用t-SNE[28]对几个概念学习的基于Rasch模型的问题嵌入，以及它们对选定问题(学习者的正确答案的一部分)的经验困难。我们还强调了每个概念的最难和最简单的问题，这是基于它们的经验困难。我们看到，同一概念上的问题形成一条曲线，并按其难度级别排序：对于大多数概念，线段一端的问题很容易，而另一端的问题很难。这一结果证实了我们的直觉，即来自同一概念的问题不是完全相同的，而是密切相关的；这种关系可以通过Rasch模型的难度参数很好地捕捉到。

图3：可视化的学习问题嵌入，学习者对所选概念的部分正确回答。
表7列出了针对三个不同概念（“正序十进制”，“单个事件的概率”和“分数到百分比的转换”）的样本问题，以及它们的学习难度参数。对于每个概念，我们显示三个问题：一个简单的问题，一个平均的问题和一个困难的问题。以“单个事件的概率”概念为例，学习的难度参数值（µq）对于简单事件为-0.0515，对于平均事件为0.0088，对于困难事件为0.0548。这些学习的难度级别与我们对这些问题的难度级别的理解相符。
这些结果表明，AKT有潜力应用于现实世界的教育环境中。使用估计的难度参数，计算机化学习平台可以i)根据每个学习者过去的反应自动选择具有适当难度级别的问题，或者ii)通过向教师提供关于从真实数据中学习的问题难度级别的反馈来支持教师调整课程计划。因此，AKT不仅提供最先进的预测性能，而且表现出可解释性和个性化学习的潜力，从而改进了现有的KT方法。

表7：关于三个概念的选定问题的问题文本和学习难度参数(µQ)。习得的难度水平符合我们对这些问题难度的直觉。

5 CONCLUSIONS AND FUTURE WORK 结论和下一步工作

本文提出了一种新的完全依赖注意力网络的知识追踪方法—注意力知识追踪(Attensitive Knowledge Tracing)。我们的方法改进了现有的知识跟踪方法，通过建立问题和回答的上下文感知表示，使用单调的注意机制来总结过去学习者在正确的时间尺度上的表现，并使用Rasch模型来捕捉覆盖相同概念的问题之间的个体差异。在一系列基准真实学习者反应数据集上的实验结果表明，该方法的性能优于最先进的KT方法，并表现出良好的可解释性。未来工作的途径包括：i)纳入问题文本，以进一步增强问题和概念嵌入的可解释性；ii)测试我们的方法是否可以提高对发生记忆衰退的语言学习数据集的预测性能[26]。

[喻清尘1]研究问题1

1、 [喻清尘2]选择使用上下文感知嵌入而不是原始嵌入反映了我们的第一个直觉：学习者在回答问题时理解和学习的方式取决于学习者。这些修改后的表征反映了每个学习者对问题的实际理解和他们实际获得的知识，给出了他们的个人反应历史。这种模式的选择是基于这样一种直觉，即对于两个过去回答顺序不同的学习者来说，他们理解同一问题的方式以及他们从练习中获得的知识可能会有所不同。
2、第二直觉：当学习者面临一个新的问题时，i)关于无关概念和ii)来自太久以前的过去经验不太可能是高度相关的。
3、第三个直觉：被标记为涵盖相同概念的问题密切相关，但具有重要的个体差异，不应被忽视。

[喻清尘3]研究问题2