GPT们的数学智商终于不那么捉急了。
最新论文研究,数学能力提高从78.7% →92.5%。
大型语言模型 (LLM) 在解决算术推理任务时性能有限,并且经常提供错误答案。 与自然语言理解不同,数学问题通常只有一个正确答案,这使得生成准确解决方案的任务对 LLM 更具挑战性。 据我们所知,我们不知道有任何 LLM 表明他们对他们的反应有信心,这加剧了对这些模型的信任赤字,阻碍了他们的采用。 为了解决这一缺陷,我们提出了“MathPrompter”,这是一种提高 LLM 在算术问题上的表现并增加对预测的依赖性的技术。 MathPrompter 使用零样本思维链提示技术生成多个代数表达式或 Python 函数,以不同的方式解决同一数学问题,从而提高输出结果的置信度。 这与其他基于提示的 CoT 方法不同,后者不检查所遵循的中间步骤的有效性。 我们的技术改进了使用 175B 参数基于 GPT 的 LLM 评估的 MultiArith 数据集 (78.7%→92.5%) 的最新技术。
论文链接:https://arxiv.org/abs/2303.05398
最新论文研究,数学能力提高从78.7% →92.5%。
大型语言模型 (LLM) 在解决算术推理任务时性能有限,并且经常提供错误答案。 与自然语言理解不同,数学问题通常只有一个正确答案,这使得生成准确解决方案的任务对 LLM 更具挑战性。 据我们所知,我们不知道有任何 LLM 表明他们对他们的反应有信心,这加剧了对这些模型的信任赤字,阻碍了他们的采用。 为了解决这一缺陷,我们提出了“MathPrompter”,这是一种提高 LLM 在算术问题上的表现并增加对预测的依赖性的技术。 MathPrompter 使用零样本思维链提示技术生成多个代数表达式或 Python 函数,以不同的方式解决同一数学问题,从而提高输出结果的置信度。 这与其他基于提示的 CoT 方法不同,后者不检查所遵循的中间步骤的有效性。 我们的技术改进了使用 175B 参数基于 GPT 的 LLM 评估的 MultiArith 数据集 (78.7%→92.5%) 的最新技术。
论文链接:https://arxiv.org/abs/2303.05398