Abstract
KEYWORDS
1 INTRODUCTION
2 RELATED WORK
3 PROPOSED METHOD
4 EXPERIMENTAL SETTINGS
5 RESULTS AND DISCUSSION
6 CONCLUSION AND FUTURE WORK
REFERENCES

tags: [知识追踪, RKT]
categories: [知识追踪, RKT]

Abstract

为了应对最近的Covid19大流行，世界已经过渡到在线学习的新阶段。现在，比以往任何时候都更重要的是，以各种方式推动在线学习的极限，以保持教育系统的繁荣。在线学习的一个重要组成部分是知识追踪(KT)。KT的目的是根据学生对一系列练习(称为互动)的回答来模拟学生的知识水平。学生在解决习题的同时获得技能，每一次这样的互动都会对学生未来解决习题的能力产生明显的影响。这种影响的特征是：1）互动中涉及的练习之间的关系； 2）学生的遗忘行为。传统的知识追踪研究没有明确地对这两个组成部分进行联合建模，以估计这些交互作用的影响。

本文提出了一种新的基于关系感知的自我注意知识追踪模型(RKT)。我们引入了一个包含上下文信息的关系感知自我关注层。该上下文信息通过文本内容整合了练习关系信息、学生成绩数据以及通过指数衰减的核函数建模的遗忘行为信息。在三个真实世界的数据集上进行了大量的实验，其中两个新的集合向公众发布，表明我们的模型比最先进的知识追踪方法性能更好。此外，可解释的注意力权重有助于可视化人类学习过程中交互和时间模式之间的关系。

KEYWORDS

教育数据挖掘，知识追踪，关系感知模型，注意力网络

1 INTRODUCTION

现实世界的教育服务系统，如大规模在线公开课(MOOC)和网上智能辅导系统的在线平台，提供了数百万门在线课程和练习，吸引了公众的注意[1，19]。这些在线系统允许学生按照自己的节奏独立学习和做练习[11]。然而，这样的系统需要一种机制来帮助学生认识到自己的长处和短处，以便他们能够进行相应的练习。除了帮助学生，该机制还可以帮助教师和系统创建者根据学生的需要主动建议补救材料和推荐练习[18]。为了发展这样一种机制，知识追踪(KT)被认为是至关重要的，它被定义为对学生随时间变化的知识状态进行建模的任务[11]。这是一个天生的难题，因为它依赖于人脑的复杂性和获取知识的能力等因素[28]。

图1显示了一个学生按顺序进行解题练习的示例。当学生遇到一个新的练习(例如，‘e5’)时，她会应用与知识概念(例如，二次方程式)相对应的知识来回答它。对特定KC的掌握是由过去的互动决定的，其中这些互动对目标KC有明显的影响。此外，在不同的情况下，影响是不同的。通常，有两个因素决定了预测任务中过去互动的影响：(1)练习关系(反映过去练习和新练习之间的关系)；(2)从过去互动到现在已经过去的时间。直观地说，如果交互中的两个练习相互关联，那么其中一个练习的表现会影响另一个练习。此外，在互动中解决习题所获得的知识会随着时间的推移而衰减，这归因于学生的遗忘行为。使用此信息将KT模型置于上下文环境中非常重要。
2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图1
在贝叶斯知识追踪(BKT)[11]及其变体[5，40]中，传统上使用隐马尔可夫模型对学生知识的演化进行建模。最近，使用深度学习的顺序建模的进展启发了深度知识跟踪(DKT)[28]、动态键值记忆网络(DKVMN)[41]和自注意知识跟踪(SAKT)[24]，它们被设计用来捕捉交互之间的长期依赖关系。像[9，17]这样的模型已经表明了明确地将KC之间的关系作为KT模型的输入的重要性。特别地，[17]使用动态贝叶斯网络对KC之间的先决条件关系进行建模，而[9]将其并入DKT模型中。然而，他们假设KC之间的关系是先验的。事实上，手动标注关系是一项劳动密集型工作。为了自动估计练习之间的关系，[20]估计了每个练习和相应KC之间的映射，并认为属于同一KC的练习是相关的。而[22，33]则利用练习的文本内容来建模练习之间的语义相似关系。然而，由于学生学习过程的动态行为，这些模型没有考虑影响过去互动重要性的时间因素。

知识追踪中的时间因素在[23，27，29]中已经讨论过。这些方法主要关注从同一KC的最后一次交互或之前的交互以来所经过的时间，而没有对这些交互中涉及的练习之间的关系进行建模。然而，正如所讨论的那样，之前的交互作用对预测任务有明显的影响，这既归因于练习关系，也归因于学习的时间动态。

在本文中，我们提出了一种新的基于关系感知的知识追踪自我注意模型(RKT)，该模型适应了KT任务的自我注意机制[37]。具体地说，我们引入了一个包含上下文信息的关系感知自我关注层，同时保持了自我注意机制的简单性和灵活性。为此，我们使用一种表示法来捕获关系信息，称为关系系数。特别地，关系系数是通过练习关系建模和遗忘行为建模得到的。前者从习题的文本内容和学生成绩数据中提取习题之间的关系。而后者使用了一个关于时间的衰减曲线的核函数来模拟学生的遗忘倾向。我们的实验表明，我们的模型在三个真实数据集上的性能优于最先进的算法。此外，我们对我们的模型进行了全面的消融研究，展示了关键组件的影响，并可视化了注意力权重，以定性地揭示模型的行为。

本论文的贡献在于：

我们认为，序列中的每一次互动都会对未来的互动产生适应性影响，其中应该同时考虑练习和遗忘行为之间的关系。
我们开发了一种方法来学习练习之间的潜在关系，即使用文本内容和学生在练习上的表现，这是以前没有探索过的。
我们自定义了自我注意模型，以纳入上下文信息，从而使该模型能够从根本上适应KT。
我们在三个真实世界的数据集上进行了广泛的实验，并说明我们的模型除了显示出优越的性能外，还为其预测提供了解释。

2 RELATED WORK

2.1 Cognitive Diagnosis

认知模型是指旨在发现每个学生对特定知识点的潜在掌握情况的模型。目前广泛使用的方法可以分为两类：一维模型和多维模型。在这些模型中，Rasch模型30是一种典型的一维模型，它根据学生的能力和习题难度，用Logistic回归方法计算出习题答对的概率。为了改进预测结果，其他一维模型包括加性因素模型[7，26]，这些模型假设Kcs“加性”地影响绩效。这些模型包括学生的熟练程度参数，以解释学生学习能力的差异性。相比之下，多维模型，如确定性输入，噪声与门模型，通过一个二元潜在向量来对学生进行特征描述，该向量描述了她是否使用先验的Q矩阵掌握了KCs[12]。

与认知模型类似，RKT也模拟了过去互动对学生表现的影响。然而，从过去的交互中建模人类知识是一项复杂的任务，我们利用注意力机制来捕捉过去交互动态中涉及的复杂性，以用于预测任务。

2.2 Knowledge Tracing

KT任务根据学生的表现数据评估其知识状态。文献[11]提出了一个基于隐马尔可夫的模型BKT。它将学习者的潜在知识状态建模为一组二元变量，每个变量代表对单个概念的理解或不理解。当学生回答练习时，隐马尔可夫模型(HMM)被用来更新这些二元变量中的每一个的概率。BKT的进一步扩展包括，结合个别学生的先验知识[40]、每个概念[5]的失误概率和猜测概率[5]以及每个练习的难度[25]。一些方法[34，36]使用因式分解方法将每个学生映射到描述其知识状态的潜在向量。为了捕捉学生知识演化随时间的变化，[35]提出了一种通过添加时间作为附加维度的张量分解方法。另一项研究包括基于递归神经网络的方法，如深度知识追踪(DKT)[28]，它利用长期短期记忆(LSTM)对学生的知识状态进行建模。深度知识追踪加(DKT+)[39]是DKT的扩展，以解决DKT所面临的问题，例如不能重构输入和预测的KC不能随时间流畅。动态键值记忆网络(DKVMN)[41]引入了记忆增强神经网络[31]来解决KT问题，key是练习，而value是学生们的掌握。最近，自我注意知识追踪(SAKT)[24]模型被开发出来，它首先从学生过去的活动中识别出与要预测其表现的目标KC相关的KCs。然后，SAKT利用过去KCs的表现信息来预测学生在下一KC的掌握情况。

我们的方法是SAKT的扩展，这样我们还考虑了互动中涉及的练习与自上次互动以来经过的时间之间的关系，以告知自我注意机制。

2.3 Relation Modeling in KT

练习关系建模:练习关系建模在教育心理学中得到了广泛的研究。有研究者利用q -矩阵来映射带有知识概念的练习[6,12]。同一KC的两个练习是相关的，除了基于q矩阵的方法外，最近研究者开始关注利用练习的内容推导练习之间的关系。例如[21,22,33]利用练习的内容来预测练习之间的关系。在预测了练习之间的语义相似度分数之后[22,33]，使用这些分数作为注意权重来衡量过去交互的重要性。据我们所知，在KT中整合练习关系建模是一个有待探索的领域。为此，我们利用练习的文本内容和学生成绩数据，探讨了建模练习关系的方法。

遗忘行为建模:已经有一些研究探索学生的遗忘行为[10,23]。遗忘曲线理论在[13]中引入，并在[10]中应用，该理论声称学生的记忆随着时间以指数速率衰减，衰减的速率由学生的认知能力强弱决定。最近，DKT-Forget[23]在DKT模型中引入了不同的基于时间的特征。DKT-Forgetting考虑了重复和序列的时间间隔，以及过去练习的次数，这是一种具有时间信息的最先进的方法。在我们的工作中，我们利用了KT任务中的练习关系建模和遗忘行为建模，这是以前没有做过的。

2.4 Attention Mechanism

注意机制[37]被证明在涉及序列建模的任务中是有效的。这一机制背后的想法是在预测输出时将重点放在输入的相关部分上。这使得模型往往更容易解释，因为人们可以找到导致做出特定预测的特定输入的权重。在机器翻译任务中引入了注意力机制来检索输入序列中的单词以生成目标句子中的下一个单词。同样，在推荐系统中，它被用来根据一个人的购买历史来预测他将购买的下一件商品。一些模型[16，38]已经认识到，用上下文信息增强自我关注层提高了模型的性能。这样的上下文信息包括用于项目推荐的项目的共现[16]和用于机器翻译的句子的句法和语义信息[38]。在我们的任务中，我们使用自我注意机制来学习与前一次互动相对应的注意力权重，以预测学生是否会对下一练习提供正确的答案。在此基础上，增加学生的练习关系和遗忘行为，以提高模型的性能。

3 PROPOSED METHOD

知识追踪根据学生之前的交互序列X={x1,x2,…,xn-1}来预测他/她是否能够回答下一个练习en。每个交互的特征用元组xi=(ei，ri，ti)表示，其中ei∈{1，……，E}是尝试的练习，ri∈{0，1}是学生答案的正确性，ti∈R+是交互发生的时间。为了准确预测，确定在time tn尝试的en和之前的交互之间的潜在关系非常重要。如图1所示，在预测学生是否能够正确回答下一个练习时，过去互动的重要性取决于两个因素：1)过去互动中已解决的练习与下一个练习之间的关系；2)自过去互动以来所经过的时间。受此启发，我们开发了一种关系感知的知识跟踪模型，该模型将关系合并为上下文信息，并将其传播到使用自我注意机制计算的注意力权重[37]。然后，使用更新后的关注权重来计算表示对应于第n个交互的输出的过去交互的表示的加权和。为了学习参数，我们使用二元交叉熵损失作为我们的目标函数。表1总结了本文中使用的数学符号。 2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图2

3.1 Exercise Representation

我们从每个练习的文本内容中学习其语义表示。为此，我们利用词嵌入技术并学习函数f:M→ $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图3$ ，其中M表示word的字典，f是将单词映射到d维分布向量的参数化函数。在查找层中，练习内容被表示为词嵌入矩阵。然后，通过使用平滑反频(SIF)[2]对练习i的文本中出现的所有单词的嵌入进行加权组合来获得练习i的嵌入, $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图4$ [2]。SIF将不重要的单词(如But、Just等)降级，并保留对练习的语义贡献最大的信息。因此，练习i的练习嵌入如下所示：

其中，a是可训练参数，si表示第i个练习的文本，p(w)是单词w的概率。

3.2 Exercise-Relation Matrix Computation

我们模型的一个重要创新是我们探索了识别练习之间潜在关系的方法。由于习题之间的关系是不明确的，我们首先从数据中推断出这些关系，并建立一个习题关系矩阵 $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图6$ ，使得 $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图7$ 表示习题j的成绩对习题i的成绩的重要性。我们利用两个信息源来发现习题之间的关系：学生的成绩数据和习题的文本内容。前者用来捕捉在解决习题j中获得的知识与解决习题i的相关性，而后者用来捕捉两个习题之间的语义相似性。

现在我们将描述如何使用学习者的成绩数据来得到从练习j获得的知识与解决练习i的相关性。我们首先通过只考虑i和j对(其中j在学习序列中出现在i之前)来构建如表2所示的列联表。如果在学习序列中i之前有j的多次出现，我们只考虑最新出现的。然后，我们计算Phi系数，该系数通常用作两个二元变量的关联度量。在数学上，描述从j到i的关系的Phi系数计算为： 2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图8
$2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图9$ 的值介于−1和1之间，高的 $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图10$ 分数意味着学生在j的表现对他们在i的表现起着重要的作用。我们在其他相关度量中选择Phi系数来计算练习之间的关系，因为：1)它易于解释，2)当两个变量不相等时，它会明显地进行惩罚。 2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图11

我们用来计算两个练习之间关系的另一个数据来源是练习的文本内容，它表明了两个练习的语义相似性。我们首先从第3.1节获得i和j的练习嵌入Ei，Ej，然后使用嵌入的余弦相似度计算练习之间的相似度。形式上，练习之间的相似度计算如下:
2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图12
最后，练习j与练习i的关系计算如下：

其中 𝜃 是控制关系矩阵稀疏性的阈值。

3.3 Personalized Relation Modeling

在这里，我们模拟上下文信息来计算过去交互的相关性，用关系系数来表示，以预测学生在下一次练习中的表现。具体来说，我们在这一步结合了下面描述的练习关系建模和遗忘行为建模。

练习关系建模:这个组件涉及到对交互中练习之间的关系进行建模。给定一个学生解决的过去的练习，(e1，e2，…，en−1)和我们想要预测其表现的下一个练习en，我们从练习关系矩阵的第en行( $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图14$ )计算基于练习的关系系数， $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图15$

遗忘行为建模:学习理论揭示了学生随着时间的推移而遗忘所学的知识[3，13]，称为遗忘曲线理论，在知识追踪中起着重要作用。自然地，如果一个学生忘记了在一次特殊的互动i之后所获得的知识，那么这种互动对于预测下一次互动中学生表现的相关性应该被减弱，不管所涉及的练习之间的关系如何。挑战在于找出学生已经忘记其中知识的互动。由于学生会随着时间而遗忘，我们使用了一个核函数来模拟交互相对于时间间隔的重要性。根据遗忘曲线理论的思想，核函数被设计成随时间呈指数衰减的曲线，以随着时间间隔的增加而降低相互作用的重要性。具体来说，给定学生对应于互动的时间序列t = (t1，t2，…，tn-1)和学生尝试下一次练习的时间tn，我们将下一次互动和第i次互动之间的相对时间间隔计算为 $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图16$ .因此，我们计算基于遗忘行为的关系系数,其中S_u表示学生u记忆的相对强度，是我们模型中可训练的参数。

在[38]之后，我们还通过简单地添加从各个信息源获得的权重来获得过去交互的修正重要性。因此，我们将相关系数计算为
2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图18
相关程度越高的交互对应的相关系数越高。

3.4 Input Embedding Layer

交互的原始数据仅由表示练习、交互正确性和交互时间的元组组成。我们需要嵌入互动的信息和互动的位置。为了获得过去交互j，(ej，rj，tj)的嵌入，我们首先使用公式(1)获得相应的练习表示。为了合并正确分数rj，我们将其扩展为特征向量 $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图19$ ，并将其连接到练习嵌入。我们还定义了一个位置嵌入矩阵 $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图20$ ，以引入交互的顺序排序信息，其中l是允许的最大序列长度。位置嵌入在知识追踪问题中尤为重要，因为学生在特定时刻的知识状态不应该呈现波浪形转变[39]。

然后，我们将输入提供给RKT，这些输入应该表示序列中的交互和位置。因此，交互嵌入的获得方式为：
2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图21
最后，通过将交互嵌入E和位置嵌入P相结合输入交互序列表示为 $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图22$ 。

3.5 Relation-Aware Self-attention Layer

RKT的核心成分是包含关系结构的注意结构。为此，我们修改注意力机制的对齐分数(alignment score)以更多地关注由关系系数R标识的相关交互。设 $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图23$ 是使用缩放的点积注意力机制学习的注意力权重[37]，使得
其中 $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图25$ 和 $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图26$ 分别是用于query和key的投影矩阵。最后，我们通过将两个权重相加，将注意力权重与关系系数相结合:其中Rj是关系系数R的第j个元素。我们使用加法运算来避免计算成本的任何显著增加。 $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图28$ 是一个可调参数。通过线性变换后的交互嵌入和位置嵌入的加权和获得第i个交互的输出表示，o ∈ $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图29$ :其中 $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图31$ 是value空间的投影矩阵。
逐点前馈层:我们按每个位置将the PointWise Feed-Forward Layer (FFN) (FFN)应用于RKT的输出。FFN有助于在模型中加入非线性，并考虑不同潜在维度之间的交互。它由两个线性变换组成，在这两个线性变换之间有一个ReLU非线性激活函数。FFN的最终输出为 $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图32$ %7D%2Bb%5E%7B(1)%7D)W%5E%7B(2)%7D%2Bb%5E%7B(2)%7D#card=math&code=F%3DReLU%28oW%5E%7B%281%29%7D%2Bb%5E%7B%281%29%7D%29W%5E%7B%282%29%7D%2Bb%5E%7B%282%29%7D&height=24&id=MbqSW)，其中 $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图33$ %7D%E2%88%88R%5E%7Bd%C3%97d%7D#card=math&code=W%5E%7B%281%29%7D%E2%88%88R%5E%7Bd%C3%97d%7D&id=VNV2x)， $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图34$ %7D%E2%88%88R%5E%7Bd%C3%97d%7D#card=math&code=W%5E%7B%282%29%7D%E2%88%88R%5E%7Bd%C3%97d%7D&id=IBa3v)为权重矩阵， $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图35$ %7D%E2%88%88R%5Ed#card=math&code=b%5E%7B%281%29%7D%E2%88%88R%5Ed&id=OuWAD)和 $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图36$ %7D%E2%88%88R%5Ed#card=math&code=b%5E%7B%282%29%7D%E2%88%88R%5Ed&id=BF4KD)为偏置向量。

除了上述建模结构外，我们在自注意层和前馈层之后都增加了残差连接[14]，以训练更深层次的网络结构。在[37]之后，我们还对每一层的输出应用了层归一化[4]和dropout[32]。

3.6 Prediction Layer

最后，为了获得学生正确回答练习的能力，我们将上面获得的学习表示F通过具有Sigmoid激活的全连接网络，以预测学生的表现。 2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图37 这里p是一个标量，表示学生对练习en提供正确响应的概率， $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图38$ %20%3D%201%2F(1%2Be%5E%7B-z%7D)#card=math&code=%5Csigma%28z%29%20%3D%201%2F%281%2Be%5E%7B-z%7D%29&id=iyw8c)。

3.7 Network Training

由于自注意模型适用于固定长度的序列，因此在将其输入到RKT之前，我们将输入序列 $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图39$ 转换为固定长度l的序列。如果序列长度，|X|小于l，我们在序列的左侧重复添加填充。但是，如果|X|大于l，我们将序列划分为长度为l的子序列。训练的目标是最小化模型下观察到的学生反应序列的负对数似然。通过最小化每个交互的p和r之间的交叉熵损失来学习参数。 2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图40
其中I表示训练集中的所有交互。

4 EXPERIMENTAL SETTINGS

在本节中，我们将介绍我们的实验设置来回答以下问题：
RQ1 RKT能否超越最先进的知识追踪方法？
RQ2 RKT架构中的各种组件有什么影响？
RQ3 注意力权重能够在计算嵌入时学习到有意义的模式吗？

4.1 Datasets

为了评估我们的模型，我们使用了三个真实世界的数据集。
ASSISTment2012（ASSIST2012）**1**：此数据集由ASSISTment在线辅导平台提供，并广泛用于KT任务。我们还利用问题主体进行实验。
JunyiAcademy（Junyi）**2**：此数据集由JunyiAcademy3 在2015年收集[8]。可用的数据集仅包含学生的练习记录。为了获取文字内容，我们从他们的网站上抓取了数据。总体而言，该数据集包含838个不同的练习，并且我们删除了不包含文字内容的练习。
Peking Online Judge (POJ)：该数据集是从Peking 在线编码实践平台收集的，包含计算机编程问题。我们从网站上抓取了公开可用的数据4。

对于所有这些数据集，我们首先删除尝试少于两个练习的学生，然后删除少于两个学生尝试的那些练习。有关所有数据集的完整统计信息，请参见表3。代码和数据集可从https://github.com/shalini1194/RKT获得。
2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图41

1__https://sites.google.com/site/assistmentsdata/home/2012-13-school-data-withaffect 2__https://pslcdatashop.web.cmu.edu/DatasetInfo?datasetId=1275 3__https://www.junyiacademy.org/ 4__http://poj.org/

4.2 Implementation Details

4.2.1词嵌入。我们方法的第一步是嵌入练习内容并初始化练习内容中的每个单词。所有练习都被截断为不超过200个字。但是，数学练习由传统英语文章（例如新闻）中找不到的单词组成。例如，在数学练习中通常会找到诸如“ $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图42$ %7D%2B1#card=math&code=%5Csqrt%7B%28x%29%7D%2B1&id=tymHq)”之类的公式，其中包含有关该练习的重要信息。因此，为了保留数学语义，我们将每个公式转换为其TEX代码特征（将“ $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图43$ %7D%2B1#card=math&code=%5Csqrt%7B%28x%29%7D%2B1&id=Om8fK)”转换为“ sqrt x +1”）。初始化后，每个练习都将按顺序用词汇词和TEX符号表示。通过使用word2vec5 将每个单词嵌入到50维（即d = 50）的嵌入向量中来训练模型。
4.2.2框架设置。现在，我们在模型中指定网络初始化。我们将自注意的模型维数设置为64，将最大允许序列长度l设置为50。使用最小批量为128的模型进行训练。我们使用Adam优化器，其学习率为0.001。 dropout rate设置为0.1，以减少过度拟合。 L2权重衰减设置为0.00001。所有模型参数通常以0均值和0.01标准差初始化。公式4中使用的稀疏控制阈值 $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图44$ 值在我们的实验中设为0.8。我我们用80%的数据集训练模型，并在剩余的数据集上进行测试。我们执行5倍交叉验证，以评估所有模型，其中根据学生划分折叠(folds)。

5__https://radimrehurek.com/gensim/models/word2vec.htm

4.3 Metrics

对学生表现的预测是在二元分类设置中考虑的，即正确回答练习或不正确回答练习。因此，我们使用曲线下面积(AUC)和精度(ACC)度量来比较性能。与[23，28]中的评估过程类似，我们在训练阶段使用交互序列训练模型，在测试阶段，我们在收到每个练习响应后更新模型。然后，更新后的模型用于下一个练习的预测。通常，AUC或ACC的值0.5表示通过随机猜测得出的性能预测结果，数值越大越好。

4.4 Approaches

4.4.1知识跟踪（KT）。我们将模型与最新的KT方法进行了比较。

DKT[28]：这是一种开创性的方法，它使用单层LSTM模型来预测学生的表现。在我们的DKT实现中，我们使用了范数裁剪和早期停止来提高性能，就像在[41]中所采用的那样。·SAKT[24]该模型使用自我注意机制[37]为先前回答的练习分配权重，以预测学生在特定练习中的表现。
DKVMN[41]：这是一种基于记忆增强递归神经网络的方法，其中不同的KCs之间的关系由key矩阵表示，学生对每个KC的掌握程度由value矩阵表示。
DKT+Forget[23]：这是DKT方法的扩展，它同时使用学生的学习顺序和遗忘行为来预测学生的表现。
EERNN[33]：该模型利用练习的文本内容和学生的练习记录来预测学生的表现。他们使用RNN作为底层模型来学习习题的嵌入和学生知识的表示。此外，他们使用过去的互动和下一次练习之间的余弦相似性来参与过去的互动。
EKT[22]：该模型是EERNN模型的扩展，该模型还跟踪学生对多种技能的知识获取。具体地说，它对底层知识概念之间的关系进行建模，以增强EERNN模型。
5 RESULTS AND DISCUSSION
5.1 Student Performance Prediction (RQ1)

表4显示了所有基线方法和我们的RKT模型的性能。我们有以下观察：不同类型的基线显示出明显的性能差距。SAKT模型显示出对DKT和DKVMN模型的改进，这可以追溯到SAKT识别过去的互动和下一次练习之间的相关性的事实。DKT-Forget在大多数时候都得到了进一步的改进，这表明了考虑时间因素的重要性。此外，EERNN和EKT结合了练习的文本内容，以确定哪些历史交互更相关，因此比那些没有考虑这些关系的模型表现更好。RKT的表现始终好于所有基线。与其他基线相比，RKT能够明确地捕捉基于学生表现数据和文本内容的练习之间的关系。此外，它使用核函数对学习者的遗忘行为进行建模，与DKT+ forget模型相比，该函数是对人类记忆的建模更具解释力和可验证的方式[13]。 2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图45

其次，对于Junyi数据集，性能提升最低。我们认为，对Junyi练习改善不佳的一个可能原因是，由于Junyi练习的数量相当少，练习之间的关系可以用RNN和自我注意机制等顺序模型来建模。它不需要基于内容的显式关系学习。

我们还想指出的是，在RKT中将模型与上下文信息结合起来不会导致模型运行时间的任何显着增加，并且仍具有与SAKT模型一样的可伸缩性。 SAKT和RKT的并行化能力比其他顺序模型更具可扩展性[24]。

5.1.1性能比较 w.r.t 交互稀疏性。利用交互之间的关系的一个好处是，它使我们的模型对数据集的稀疏性具有鲁棒性。利用不同练习之间的关系可以帮助估计相关练习中的学生表现，从而缓解稀疏性问题。

为了验证这一点，我们对不同互动次数的学生群体进行了一项实验。特别地，我们根据每个用户的交互数量生成四组学生，从而分别生成少于10、100、1,000、10000个交互的组。图3显示了所有方法的性能。我们发现RKT在所有情况下都优于基线模型，这表明利用关系信息预测性能的重要性。此外，对于互动次数较少的学生群体，RKT的成绩提升更为显著。因此，我们可以得出结论，RKT利用了互动之间的关系，即使在互动较少的情况下也能有效地学习学生的知识表征。 2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图46

5.2 Ablation Study (RQ2)

为了深入了解RKT模型，我调研了模型中涉及的各个组件的贡献。因此，我们进行了一些消融实验，以显示我们方法的各个部分对最终结果的影响。在表5中，有七种RKT变体，每一种变体都从完整模型中去掉一个或多个组件。具体来说，PE、TE、RE分别指没有位置编码、遗忘行为建模和练习关系建模的RKT。PE+TE、PE+RE、TE+RE是指同时移除两个部件，分别是位置编码与遗忘行为建模、位置编码与练习关系建模、练习关系建模与遗忘行为建模。PE+RE+TE指的是不对位置编码、遗忘行为建模和练习关系建模进行交互表征的RKT。表5中的结果确实显示了许多有趣的结论。 2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图47
首先，模型编码的信息越多，性能越好，这与直觉相吻合。其次，对于所有数据集，删除练习关系建模会导致性能大幅下降。这证实了我们的观点，即明确学习练习关系对于提高KT模型的性能很重要。第三，将遗忘行为模型纳入RKT中，这会使学生在ASSIST2012和Junyi数据集方面比POJ有更多的改进。我们假设这可以归因于以下事实：解决POJ练习所涉及的概念比高中数学课程所涉及的概念（Junyi和ASSIST2012数据集）具有更少的多样性。结果，在大多数情况下，对POJ回答错误的原因是学生的困惑，而不是他们的遗忘行为。

5.2.1练习关系矩阵计算的影响。为了探索练习关系矩阵计算的影响，我们考虑了使用不同设置的RKT的变体。我们探索了以下计算练习关系矩阵的方法：
(1)前人的工作，如[15，20]，认为属于同一KC的两个练习是相关的。我们也采用了这一技术，并用布尔值构建了一个练习关系矩阵，使得如果i和j属于同一Kc，则 $2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图48$ ，否则为0。
(2)只使用两个练习的文本内容来估计它们之间的关系。我们只用公式(3)来计算两个练习之间的关系。
(3)利用学生成绩数据计算两个习题之间的关系。仅使用公式(2)来计算两个练习之间的关系。
(4)利用文本内容和学生成绩数据计算两个习题之间的相似度。我们使用公式(4)计算相关系数。
我们没有关于POJ数据从练习到KC映射的信息，因此不能对POJ应用方法(1)。具体地，表6总结了实验结果。研究结果表明：首先，方法(1)在所有四种方法中表现最差。这可以归因于这样一个事实，即仅基于KC的练习关联忽略了不属于同一KC的练习之间存在关系的事实。方法(3)也显示出比方法(2)更好的表现，因为学生表现数据是学生如何感知练习之间关系的良好指标。即使两个练习的文本内容不相似，解决这两个练习所涉及的知识关联性也可能很高。最后，同时利用学生成绩数据和练习文本内容数据的方法(4)优于其他方法。 2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图49

5.3 Attention weights visualization (RQ3)

得益于纯注意力机制，RKT和SAKT模型可以很好地解释预测结果。为此，我们比较了从这两个模型获得的注意力权重。我们从均益数据集中选择一名学生，并获得与过去的互动相对应的注意力权重，以预测其在练习e15时的表现。图4显示了SAKT和RKT分配的权重。我们发现，与SAKT相比，RKT在e2上赋予更多权重，e2与1515属于同一KC，并且具有更强的关系。由于学生对e2的回答有误，因此她尚未掌握“二次方程式”，因此RKT预测该学生将无法回答e15，因此，考虑KT练习之间的关系是有益的。 2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.) - 图50
我们还进行了实验，以可视化RKT在不同数据集上分配的注意力权重。回想一下，在时间步长ti中，我们模型中的关系感知自我注意层根据自交互以来所经过的时间以及所涉及的练习之间的关系来修改先前交互的注意力权重。为此，我们检查了所有序列，并试图通过显示先前交互的平均注意力权重来揭示有意义的模式。

图5显示了注意权重矩阵的热图，其中第（i，j）个元素表示在预测第i个交互序列的表现时第j个元素上的注意权重。注意，当我们计算平均权重时，分母是有效权重的数量，以避免填充对短序列的影响。我们考虑了热图之间的一些比较：

(b), （c）,(d)：表示与不同数据集有关的注意权重的热力图显示，与其他交互相比，最近的交互具有更高的权重。这可以归因于学习过程的遗忘行为，使得只有最近的互动才能告知学生知识状态。
(b) vs. (c）：此比较显示了RKT在两种不同类型的数据集上分配的权重。在ASSIST2012数据集中，对练习进行了排序以进行技能培养，即对它们进行了组织，以便学生可以先掌握一项技能，然后再学习下一项技能。结果，在ASSIST2012中，彼此相邻的练习是相关的。同时，在POJ数据集中，学生根据自己的需求选择练习。结果，与ASSIST2012数据集对应的热图的注意力权重集中在对角线元素上，而对于POJ，注意力权重分布在整个交互中。
(a) vs. (b) ：此比较显示了关系信息对于修改注意力权重的影响。如果没有关系信息，则注意力权重将在先前的交互上更加分散，而由于ASSIST2012中的相邻交互具有更高的关联度，因此关系信息会将注意力权重集中在更接近对角线的位置。

6 CONCLUSION AND FUTURE WORK

在这项工作中，我们提出了一种用于KT任务的关系感知的自我注意机制，RKT。它模拟了学生的互动历史，并通过考虑从过去练习间的关系中获得的上下文信息以及学生的遗忘行为来预测她在下一个练习中的表现。练习之间的关系是使用学生的表现数据和练习的文本内容来计算的。遗忘行为是使用时间衰减核函数来建模的。然后，上下文信息被合并到一个自我关注层，我们称之为关系感知自我注意。在真实数据集上的广泛实验表明，我们的模型可以超越最先进的方法。由于纯粹的自我注意机制，RKT是可以解释的。

作为未来工作的一部分，我们计划对练习之间的关系进行建模，而不是根据数据计算它们。这有助于预测新练习的关系。此外，我们还可以将学生知识的表示作为嵌入来学习，并使用这种嵌入来跟踪不同知识概念中学生的熟练程度。

2020-RKT: Relation-Aware Self-Attention for Knowledge Tracing(Shalini Pandey et al.)