gpt为什么频繁给出错误答案

GPT们的数学智商终于不那么捉急了。

最新论文研究，数学能力提高从78.7% →92.5%。

大型语言模型 (LLM) 在解决算术推理任务时性能有限，并且经常提供错误答案。与自然语言理解不同，数学问题通常只有一个正确答案，这使得生成准确解决方案的任务对 LLM 更具挑战性。据我们所知，我们不知道有任何 LLM 表明他们对他们的反应有信心，这加剧了对这些模型的信任赤字，阻碍了他们的采用。为了解决这一缺陷，我们提出了“MathPrompter”，这是一种提高 LLM 在算术问题上的表现并增加对预测的依赖性的技术。 MathPrompter 使用零样本思维链提示技术生成多个代数表达式或 Python 函数，以不同的方式解决同一数学问题，从而提高输出结果的置信度。这与其他基于提示的 CoT 方法不同，后者不检查所遵循的中间步骤的有效性。我们的技术改进了使用 175B 参数基于 GPT 的 LLM 评估的 MultiArith 数据集 (78.7%→92.5%) 的最新技术。
论文链接：https://arxiv.org/abs/2303.05398