我们将模仿学习(imitation learning)引入AI竞技场,因为我们相信人与人之间互动可以加速学习过程(也因为它很有趣)。然而,有时人工智能在学习模仿你的动作时,会注意到错误的东西。结果,在不同的情况下,它将不会按照你的意图行事。在这篇文章中,我们将探讨为什么会发生这种情况,以及我们如何解决这个问题。

假关系Spurious Relationships

假性关系是一个花哨术语,指在数据中发现的 “假 “关系。这种关系存在,但一个变量并没有导致另一个变量。这种关系纯粹是一种意外。

请记住,神经网络是从我们给它的例子(数据)中学习的。它们不能读懂我们的思想,知道我们在做某些决定时注意了什么,所以它试图通过查看数据来弄清楚。但有时,这可能会导致奇怪的事情发生(虚假关系)。比方说,我们试图教人工智能缩小差距,然后击中对手。我们的行动如下。向右跑,向右跑,向右跑,单拳。玩一玩下面的视觉效果,看看它是否学会了这个。
115.JPG你可能已经注意到了,AI学会了总是向右跑,不管它与其他战斗机的相对位置如何。然而,如果你拨动健康条,那么概率就会改变…… 看起来AI决定把注意力集中在健康状况上做决定,而不是相对距离。但我们在做决定时关注的是相对距离,那么我们怎样才能确保它关注的是我们所做的同样事情?在回答这个问题之前,我们必须首先了解为什么会发生这种情况。

为啥会发生这事?

为了理解为什么在上面的例子中会发生这种情况,我们需要看一下数据。我们的数据由两部分组成:状态和行动。前两列是指环境的状态。这是人工智能做决定时的背景。在这种情况下,它看的是相对距离(你的位置减去对手的位置)和它的健康状况。最后一栏是你采取的行动(这是人工智能正在学习复制的内容)。那么这里发生了什么?你向右跑,拉近你和对手之间的距离。然后,当你进入攻击距离时,对手打了你很多次,这降低了你的健康水平。然后最终你能够打一次。
116.JPG
在高段位上,机器学习算法通过识别数据中的模式来学习。如果你看一下上面的表格,最容易识别的模式是健康和行动之间的关系;当健康状况高时,我们向右跑,当健康状况低时,我们出拳。这不是很令人沮丧吗?我们想让人工智能学会拉近距离,但它却发现这种随机的关系根本不能帮助它成为一个更好的战士!下面我们展示了人工智能的可视化过程。

下面我们展示了一个学习过程的可视化。我们要检查的动作是 “向右跑”;我们将分析将相对距离和健康状况映射到向右跑的两个权重。在上一篇文章中,我们展示了一个只有一个输入变量的模型的损失景观。在这个例子中,我们有两个变量,所以我们用X轴和Y轴来表示权重,用轮廓线(颜色)来表示损失函数。颜色越深,就越接近于达到目标。
117.JPG在上面的视觉中,我们看到球在水平方向上相对接近于0,这意味着它与相对距离→向右跑几乎没有关系。另一方面,球在垂直方向上移动,这意味着它对健康→向右跑有很大的正向关系。事实上,这就是我们在第一个互动视觉中观察到的情况。我们如何改变损失景观,使我们的人工智能走上新的学习道路(即我们最初的想法)?

如何解决这问题?

如果我们想让我们的人工智能在做决定时注意相对距离而不是健康状况,我们就必须破坏健康状况→运行权利的关系。我们可以通过用随机数字取代健康状况的观察数据来做到这一点。通过这样做,我们破坏了这种关系,从而导致了这种新的损失情景。
118.JPG我们现在看到,映射健康→向右跑的权重的最佳值大约是0(即没有关系),而映射相对距离→向右跑的权重的最佳值是一个很大负数。这很好,因为当你在对手的左边时,相对距离是负数,这意味着将权重乘以输入会得到一个正数。换句话说,人工智能在远离对手的左边时,会赋予向右跑的高概率,而当它接近对手时,这个概率会减少(有利于攻击)。因此,现在我们的人工智能成功地忽略了它的健康状况,而把注意力集中在相对距离上—这就是我们一直想要的。自己看一下它学到了什么。
119.JPG在该应用程序中,我们允许用户选择他们希望他们的战士在特定的训练课程中专注于哪些功能。也许在某次训练中,你想让它在健康状况不佳时学会躲避对手的攻击。也许在另一次训练中,你希望它在拥有比对手更多的力量时更具攻击性。现在,你可以告诉你的人工智能应该关注哪些功能 有关可用功能的完整列表,请访问我们的文档。

在我们结束之前,你可能已经注意到一件事,那就是相对距离基本上只影响到 “向右跑 “和 “出单拳”。你可能会期望当AI在其对手的右边时,”向左跑 “会有很高的概率—但它仍然很低(假设健康状况没有变化)…… 这是因为我们没有向它展示任何向左跑的训练实例(即数据不够多样化)!我们将探讨多样性在人工智能中的重要性。我们将在未来的文章中探讨训练数据多样性的重要性。

结语

现在你知道我们在AI Arena使用的训练秘诀之一了… 然而,我们建议你谨慎使用它。否则,你的人工智能有可能 “撤销 “它之前学到的一些关系。你可能想知道如何正确地做到这一点,不是吗?在应用程序中尝试一些不同的东西,看看你是否能弄清楚—我们不能泄露所有AI霸主的秘密!