也许在提示工程中更高级的技术之一是自我一致性。由 Wang等人(2022) 提出,自我一致性旨在“替换链式思维提示中使用的天真贪婪解码方法”。其想法是通过少样本 CoT 采样多个不同的推理路径,并使用生成结果选择最一致的答案。这有助于提高 CoT 提示在涉及算术和常识推理的任务中的性能。
让我们尝试以下算术推理示例:
提示:
当我 6 岁时,我的妹妹是我的一半年龄。现在我 70 岁了,我的妹妹多大?
输出:
35
输出是错误的!我们如何通过自我一致性来改进这个问题?让我们试试。我们将使用 Wang 等人 2022 年的少量样本范例(表 17 ):
提示:
Q:林中有 15 棵树。林业工人今天将在林中种树。完成后,将有 21 棵树。林业工人今天种了多少棵树?
A:我们从 15 棵树开始。后来我们有 21 棵树。差异必须是他们种树的数量。因此,他们必须种了 21-15 = 6 棵树。答案是 6。
Q:停车场有 3 辆汽车,又来了 2 辆汽车,停车场有多少辆汽车?
A:停车场已经有 3 辆汽车。又来了 2 辆。现在有 3 + 2 = 5 辆汽车。答案是 5。
Q:Leah 有 32 块巧克力,她的姐姐有 42 块。如果他们吃了 35 块,他们总共还剩多少块?
A:Leah 有 32 块巧克力,Leah 的姐姐有 42 块。这意味着最初有 32 + 42 = 74块巧克力。已经吃了 35 块。因此,他们总共还剩 74-35 = 39 块巧克力。答案是39。
Q:Jason 有 20 个棒棒糖。他给 Denny 一些棒棒糖。现在 Jason 只有 12 个棒棒糖。Jason 给 Denny 多少棒棒糖?
A:Jason 有 20 个棒棒糖。因为他现在只有 12 个,所以他必须把剩下的给Denny。他给 Denny 的棒棒糖数量必须是 20-12 = 8 个棒棒糖。答案是 8。
Q:Shawn 有五个玩具。圣诞节,他从他的父母那里得到了两个玩具。他现在有多少个玩具?
A:他有 5 个玩具。他从妈妈那里得到了 2 个,所以在那之后他有 5 + 2 = 7 个玩具。然后他从爸爸那里得到了 2 个,所以总共他有 7 + 2 = 9 个玩具。答案是 9。
Q:服务器房间里有 9 台计算机。从周一到周四,每天都会安装 5 台计算机。现在服务器房间里有多少台计算机?
A:从周一到周四有 4 天。每天都添加了 5 台计算机。这意味着总共添加了 4 * 5 =
20 台计算机。一开始有 9 台计算机,所以现在有 9 + 20 = 29 台计算机。答案是29。
Q:Michael 有 58 个高尔夫球。星期二,他丢失了 23 个高尔夫球。星期三,他又丢失了 2 个。星期三结束时他还剩多少个高尔夫球?
A:Michael 最初有 58 个球。星期二他丢失了 23 个,所以在那之后他有 58-23 = 35 个球。星期三他又丢失了 2 个,所以现在他有 35-2 = 33 个球。答案是33。
Q:Olivia 有 23 美元。她用每个 3 美元的价格买了五个百吉饼。她还剩多少钱?
A:她用每个 3 美元的价格买了 5 个百吉饼。这意味着她花了 15 美元。她还剩 8 美元。
Q:当我 6 岁时,我的妹妹是我的一半年龄。现在我 70 岁了,我的妹妹多大?
A:
输出 1:
当我 6 岁时,我的妹妹是我的一半年龄,也就是 3 岁。现在我 70 岁了,所以她是 70-3 = 67 岁。答案是 67。
输出 2:
当叙述者6岁时,他的妹妹是他年龄的一半,也就是3岁。现在叙述者70岁了,他的妹妹应该是70-3 = 67岁。答案是67。
输出 3:
当我6岁时,我的妹妹是我的一半年龄,也就是3岁。现在我70岁了,所以她是70/2 = 35岁。答案是35。
计算最终答案涉及几个步骤(详见论文),但为了简单起见,我们可以看到已经出现了大多数答案,因此这基本上将成为最终答案。