让我们使用 GPT 来解决一道 LSAT1LSAT(Law School Admission Test)是美国法学院用于评估潜在学生的批判性思维和分析推理能力的标准化考试。 问题!
以下是一道 LSAT (法学院入学考试) 问题的例子。考虑你如何回答它以及你的推理。
英国修道士 John of Worcester 在 1128 年 12 月 8 日记录了两个异常大的太阳黑子的出现。五天后,韩国南部观察到了一个明亮的极光。太阳黑子活动通常在平均五天的时间段之后,极光出现。因此,韩国的观测有助于证实 John of Worcester 的观测。以下哪项是正确的,如果是正确的,最能加强这个观点?a)即使在前一周没有重要的太阳黑子活动,极光也有时会发生。b)在 John of Worcester 之前的1000多年中,中国的资料记录了太阳黑子的出现。c)只有大规模的太阳黑子活动才能导致在韩国这样的纬度下看到的极光。d)由于在典型的日光条件下肉眼无法观察到太阳黑子,因此 John of Worcester 记录的观测必须发生在不寻常的天气条件下,如雾或薄云。e)John of Worcester 的记录包括一个太阳黑子的图画,这可能是太阳黑子活动的最早插图。
正确答案是 … c)只有大规模的太阳黑子活动才能导致在韩国这样的纬度下看到的极光。
尝试将问题粘贴到下面的演示中:
提示词:
英国修道士 John of Worcester 在 1128 年 12 月 8 日记录了两个异常大的太阳黑子的出现。五天后,韩国南部观察到了一个明亮的极光。太阳黑子活动通常在平均五天的时间段之后,极光出现。因此,韩国的观测有助于证实 John of Worcester 的观测。以下哪项是正确的,如果是正确的,最能加强这个观点?a)即使在前一周没有重要的太阳黑子活动,极光也有时会发生。b)在 John of Worcester 之前的1000多年中,中国的资料记录了太阳黑子的出现。c)只有大规模的太阳黑子活动才能导致在韩国这样的纬度下看到的极光。d)由于在典型的日光条件下肉眼无法观察到太阳黑子,因此 John of Worcester 记录的观测必须发生在不寻常的天气条件下,如雾或薄云。e)John of Worcester 的记录包括一个太阳黑子的图画,这可能是太阳黑子活动的最早插图。
AI 输出:
e)John of Worcester 的记录包括一个太阳黑子的图画,这可能是太阳黑子活动的最早插图。
为什么我的答案不同?
您的答案可能会因为以下原因而不同:
1)基础模型 GPT-3 的更新 2)文本生成过程中的随机性。我们可以通过将 temperature 设置为 0 来使输出更加一致。
模型失败了。这是否意味着该模型无法回答这种类型的问题?不一定。我们将深入探讨可以用来改进模型结果的技术。
魔法短语
上面我们使用的标准提示并没有为 GPT 的输出“推理”提供太多见解。我们可以尝试添加短语 让我们一步一步地解释,例如:
...e)John of Worcester 的记录包括一个太阳黑子的图画,这可能是太阳黑子活动的最早插图。让我们一步一步地解释
这个短语将增加模型的详细程度。您可能会得到类似这样的输出:
提示词:
英国修道士 John of Worcester 在 1128 年 12 月 8 日记录了两个异常大的太阳黑子的出现。五天后,韩国南部观察到了一个明亮的极光。太阳黑子活动通常在平均五天的时间段之后,极光出现。因此,韩国的观测有助于证实 John of Worcester 的观测。以下哪项是正确的,如果是正确的,最能加强这个观点?a)即使在前一周没有重要的太阳黑子活动,极光也有时会发生。b)在 John of Worcester 之前的1000多年中,中国的资料记录了太阳黑子的出现。c)只有大规模的太阳黑子活动才能导致在韩国这样的纬度下看到的极光。d)由于在典型的日光条件下肉眼无法观察到太阳黑子,因此 John of Worcester 记录的观测必须发生在不寻常的天气条件下,如雾或薄云。e)John of Worcester 的记录包括一个太阳黑子的图画,这可能是太阳黑子活动的最早插图。让我们一步一步地解释
AI 输出
A)此选项是不正确的。这个答案并没有加强观点,因为它提出了极光的另一种解释。B)此选项是不正确的。这个答案并没有加强观点,因为它与太阳黑子活动和极光观测之间的联系无关。C)此选项是正确的。这个答案通过表明 John of Worcester 记录的太阳黑子活动是观测到的五天后在韩国看到的极光的原因,从而加强了观点。D)此选项是不正确的。这个答案并没有加强观点,因为它与太阳黑子活动和极光观测之间的联系无关。E) 此选项是不正确的。这个答案与太阳黑子活动和极光的关系无关。正确答案是C) 只有重度太阳黑子活动才能导致在韩国这样低的纬度上可见的极光。
Info
注意,模型是如何逐步推理出答案的。
这种行为的具体术语是“思维链”1LSAT(Law School Admission Test)是美国法学院用于评估潜在学生的批判性思维和分析推理能力的标准化考试。 ,模型按顺序生成语句以达到答案。这类似于《思考,快与慢》(from Thinking Fast and Slow) 中的系统2的思维概念;模型默认为系统1思维,但可以将系统1思维连接起来,以得出更有方法论的答案。
改进
以下是一些多项选择题的基本提示变体:
重新排列问题选项
我们可以重新排列问题中的选项
...a) John of Worcester 的记录包括一个太阳黑子的图画,这可能是太阳黑子活动的最早插图b) 由于在典型的日光条件下肉眼无法观察到太阳黑子,因此 John of Worcester 记录的观测必须发生在不寻常的天气条件下,如雾或薄云。...
提示词
英国修道士 John of Worcester 在 1128 年 12 月 8 日记录了两个异常大的太阳黑子的出现。五天后,韩国南部观察到了一个明亮的极光。太阳黑子活动通常在平均五天的时间段之后,极光出现。因此,韩国的观测有助于证实 John of Worcester 的观测。以下哪项是正确的,如果是正确的,最能加强这个观点?a)John of Worcester 的记录包括一个太阳黑子的图画,这可能是太阳黑子活动的最早插图。b)由于在典型的日光条件下肉眼无法观察到太阳黑子,因此 John of Worcester 记录的观测必须发生在不寻常的天气条件下,如雾或薄云。c)即使在前一周没有重要的太阳黑子活动,极光也有时会发生。d)在 John of Worcester 之前的1000多年中,中国的资料记录了太阳黑子的出现。e)只有大规模的太阳黑子活动才能导致在韩国这样的纬度下看到的极光。让我们一步一步地解释
AI 输出:
A) 削弱 - 该选项削弱了观点,因为它暗示极光并不一定需要由太阳黑子活动引起,而这正是作者试图阐述的观点。B) 不影响 - 该选项对论点没有影响,因为它与太阳黑子和极光出现之间的联系无关。C) 增强 - 该选项增强了论点,因为它表明在韩国观察到极光的唯一方法是如果有大规模的太阳黑子活动,而这就是约翰·沃斯特的发现。D) 削弱 - 该选项削弱了观点,因为它暗示约翰·沃斯特观察太阳黑子的条件可能不可靠,这可能会对他的发现的准确性产生怀疑。E) 不影响 - 该选项对论点没有影响,因为它与太阳黑子和极光出现之间的联系无关。
改写问题
再来看看原来的问题是这样的:
如果以下哪个选项为真,最能加强这个观点?
我们可以将问题改成这样:
将每个选项标记为强化、削弱或不影响论点。
这样可以进一步了解答案的选择。
