tags: [知识追踪, GASKT]
categories: [知识追踪, GASKT]

知识跟踪(KT)是为学生定制个性化学习路径的基本工具，使他们能够掌握自己的学习节奏。KT的主要任务是对学生的学习状态进行建模，但过程相当复杂。首先，由于现实教育数据的稀疏性，以往的KT模型忽略了问题-技能中的高阶信息；其次，在处理长期依赖时，长序列的学生互动对KT模型提出了苛刻的挑战，最后，由于遗忘机制的复杂性。为了解决这些问题，本文提出了一种基于图的注意力知识搜索模型(GASKT)。该模型将问题和技能分为两类节点，利用R-GCN通过嵌入传播将问题-技能的相关性充分融入其中，降低了稀疏数据的影响。此外，它还采用改进的注意机制来解决长期依赖问题。对于问题间的注意力权重分数，在使用缩放点积的基础上，充分考虑了遗忘机制。我们在几个真实的基准数据集上进行了广泛的实验，我们的GASKT要优于最先进的KT模型，AUC至少提高了1%。

一、研究背景/目的

首先，由于现实教育数据的稀疏性，以往的KT模型忽略了问题-技能中的高阶信息；其次，在处理长期依赖时，长序列的学生互动对KT模型提出了苛刻的挑战（RNN缺点），最后，由于遗忘机制的复杂性。

二、解决方案

为了解决现有KT模型中存在的问题，在DKT-Forget[4]、EERNN[5]和GIKT[6]的启发下，我们提出的基于图的注意力知识搜索模型(GASKT)结合了记忆机制和高阶嵌入的优点。具体地说，与使用双向LSTM编码文本信息的EERNN不同，我们利用图神经网络来获得练习的嵌入。此外，注意到问题和技巧属于两种不同类型的节点，我们将它们之间的关系转化为一个异构图，并利用关系图卷积网络(R-GCN)[8]代替GCN(在GIKT中)来提取高阶信息。在使用LSTM对学生的知识状态进行建模的基础上，应用注意机制进一步增强了模型捕捉长期依赖的能力，并将其与遗忘行为有机地结合在一起。

三、主要贡献

１、我们使用R-GCN来提取问题和技能的高阶信息，并将问题和技能分为两类节点，然后构造相应的异构图。
2、我们充分考虑了遗忘机制，并采用修改后的注意机制来评价学生的未来表现。基于缩放的点积计算的相似度，我们在问题之间的注意力权重得分中加入了另外两个特征：时间距离和过去的试验次数。
３、在三个基准数据集上进行了实验，实验结果表明，GASKT与现有的解决方案相比，具有更好的性能和更高的可解释性。

四、问题定义&符号介绍

五、The GASKT Method

本节将详细说明我们的框架。GASKT由嵌入模块、知识演化模块、知识搜索模块和响应预测模块四个部分组成。图1显示了模型的整体框架。

5.1 Embedding Module

学生对新问题的回答是否正确，很大程度上取决于他们对类似问题和技能的掌握情况。因此，问题和技能之间的特征嵌入就显得尤为重要。然而，现有教育数据的稀缺性给KT的预测带来了严峻的挑战。在该模型中，为了迎接挑战，我们使用R-GCN[8]来完全提取问题-技能关联。

R-GCN[8]是GCN[7]的扩展，旨在处理大规模多关系数据。它们之间的关键区别在于，GCN包含相同类型的节点和边，因此它们共享相同的权重参数；而R-GCN具有不同类型的节点和边，只有属于相同类型的节点和边才会共享相同的参数。显然，问题和技巧属于不同类型的节点，因此我们选择R-GCN以异构图的形式表示它们之间的关系图。

我们构造了一个有向标签多图G=(V，E，R)，其中节点v_i∈V，标签边(关系)(v_i，r，v_j)∈ε，r∈R是关系类型。在该模型中，有问题节点和技能节点两种类型的节点；两种类型的边，即(Problem，Container，Skill)，(Skill，Conclude−by，Problem)。

the maximum number of the sampling layers L is set to 3 . multi-skilled problems are repeated multiple times, with each corresponding to a skill.

空间演化

R-GCN的计算包括以下两个步骤。首先，它计算并聚合每个关系的消息，其次，它聚合来自多个关系的结果。节点vi的l级的R-GCN公式可以表示如下：

5.2 Knowledge Evolution Module

交互嵌入

时间演化

5.3 Knowledge Search Module

在知识演化模块中，我们使用LSTM[2]对学生的知识状态进行建模。然而，LSTM在处理长序列时捕获长期依赖项的能力有限。为了克服这一局限性，我们应用修改后的注意力机制来增强模型的信息捕获能力。

问题嵌入作为Q、K，知识演化模块中LSTM层输出的ht作为K

5.4 Response Prediction Module

六、Experimental

6.1 Datasets

6.2 Baseline & Overall Performance

6.3 Ablation Studies

R-GCN层的效果。表3列出了GASKT在L变化时的性能。特别地，当l=0时，节点嵌入被随机初始化。

修改后的注意力机制的效果。为了验证这两个遗忘因素的有效性，我们进行了以下实验。实验的详细结果可以在表4中找到。

七、结论

在本文中，我们提出了GASKT模型，该模型侧重于预测学习者对当前练习的掌握程度。该方法通过R-GCN提取问题和技能之间的高阶信息，并将注意力机制与LSTM相结合，深入挖掘当前练习和之前练习之间的依赖关系。此外，为了考虑遗忘机制，我们加入了两个遗忘因素，时间距离和过去的试验次数。实验结果表明，我们的方法在三个基准数据集上的性能优于最新的KT模型，并且表现出出色的可解释性。

机器学习博客

2021-GASKT: A Graph-Based Attentive Knowledge-Search Model for Knowledge Tracing