大模型推理最新论文及源码合集，涵盖多模态推理、逻辑推理、数学推理

大模型推理技术的发展帮我们解决了许多的难题，但如今的大模型在复杂推理上的表现仍然欠佳，为了突破这一瓶颈，研究者们提出了许多创新性的方法。

我整理了其中一部分个人认为很值得学习的论文来和大家分享，涵盖多模态推理、逻辑推理、数学推理三个细分方向，帮助同学们快速了解这一领域的最新研究进展。

目前共有14篇，篇幅原因只做简单介绍，需要论文及源代码的同学看文末

综述（3篇）

Reasoning with Language Model Prompting: A Survey

使用语言模型提示进行推理

简述：思维推理是复杂问题解决的基本能力，可以为各种实际应用提供支持，如医学诊断、谈判等。本文全面综述了使用语言模型提示进行推理的前沿研究，介绍了各项研究工作及其比较和总结，并提供了系统的资源帮助初学者。另外，论文还讨论了推理能力出现的潜在原因，并强调了未来的研究方向。

A Survey of Deep Learning for Mathematical Reasoning

数学推理的深度学习概述

简述：数学推理是人工智能一个关键而富有挑战性的研究方向。近年来，深度学习技术在数学推理任务上取得了长足进展，使我们更近一步地理解机器如何进行逻辑思维。本文综述了深度学习在数学推理领域的最新研究进展，包括关键的任务设置、数据集、模型方法等，并讨论了当前的挑战与未来研究方向。

Towards Reasoning in Large Language Models: A Survey

迈向大语言模型的推理：综述

简述：推理是人类智能的基本要素，在问题解决、决策制定和批判性思维等活动中发挥着关键作用。近年来，大规模语言模型在自然语言处理任务上的进步给人带来了它们可能具有推理能力的观察。但是，这些模型的推理能力到底有多强还不得而知。本文全面概述了大语言模型推理能力相关研究的当前状况，包括提高和激发这些模型推理能力的技术，评估推理能力的方法和基准，以前研究的发现和启示，以及未来研究方向的建议。

多模态推理（4篇）

Premise-based Multimodal Reasoning: Conditional Inference on Joint Textual and Visual Clues

基于前提的多模态推理：文本和视觉线索的条件推断

简述：最近的视觉语言跨模态推理研究，通常只给模型输入图像和文本查询，要求模型无条件地进行推理。论文认为这种做法存在局限，因为没有给出明确的前提背景。所以作者提出了一个新的基于前提的多模态推理任务，为每个图像设置一个文本前提作为推理的背景假设。论文构建了相应的多模态推理数据集，通过多阶段众包实现了高质量的标注。在这个数据集上，作者测试了各种多模态推理模型的性能。

Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering

科学问题回答中的思维链多模态推理

简述：最近，科学问题基准被用来诊断人工智能系统的多步推理能力和可解释性。但是，现有数据集未提供答案注释，或仅限于文本模式，规模小，领域有限。为此,，论文提出了ScienceQA，一个包含约21000个多模态多项选择科学问题及对应答案、讲解和解释注释的数据集。作者进一步设计语言模型来生成讲解和解释作为思维链，以模拟回答ScienceQA问题时的多步推理过程。

STaR: Bootstrapping Reasoning With Reasoning

通过推理引导推理

简述：论文提出一个让语言模型通过自己生成的推理链来逐步提高复杂推理能力的方法。该方法包含两个步骤：第一步是用少量样本提示语言模型生成回答问题的推理链。第二步是检查生成的推理链是否正确，如果错误，让模型根据正确答案重新生成推理链，然后用所有正确的推理链微调模型。反复上述步骤，模型就可以从自己生成的推理中学习，逐步提高复杂推理能力。

From Representation to Reasoning: Towards both Evidence and Commonsense Reasoning for Video Question-Answering

面向视频问答的证据与常识推理

简述：论文提出新的视频问答任务Causal-VidQA，包含从描述到证据推理和常识推理的四类问题，目标是推进视频理解从表示学习到深层推理。结果显示现有视频问答方法在描述很强，但推理很弱。新任务可以评估方法的推理能力，引导视频理解研究发展。

逻辑推理（3篇）

Language Models Are Greedy Reasoners: A Systematic Formal Analysis of Chain-of-Thought

推理链的系统形式分析

简述：作者通过构建新的合成问答数据集，形式化分析了大型语言模型的推理能力。结果发现，这些模型可以正确进行个别的推理步骤，总体上具备一定的推理能力。但是当需要在多个推理路径中进行选择时，语言模型表现出推理规划上的困难。这说明目前的语言模型更依赖贪心进行局部推理，而非全局规划推理链。这一结论有助于揭示语言模型推理能力的局限，为进一步提高其复杂推理能力提供指导。

FOLIO: Natural Language Reasoning with First-Order Logic

用一阶逻辑进行自然语言推理

简述：FOLIO是一个开放域的自然语言推理数据集，包含人工标注的一阶逻辑形式。该数据集可以用来系统评估语言模型在一阶逻辑推理任务上的能力。研究结果显示，即使是目前最强大的语言模型GPT-3，其在FOLIO数据集上的零样本推理表现也仅略优于随机猜测。这说明当前的语言模型在逻辑推理方面仍存在很大局限性。

Language Models as Inductive Reasoners

语言模型作为归纳推理器

简述：最近的研究表明，预训练语言模型具有进行归纳推理的能力。论文提出了一个新的框架，使用自然语言而不是逻辑语言来表示知识，并使用预训练语言模型作为“推理器”。通过构建自然语言事实和规则的数据集，作者分析了语言模型从自然语言事实中归纳规则的能力。实验结果显示，与其他方法相比，该框架可以更好地进行自然语言归纳推理。这表明预训练语言模型是一个有效的通用归纳推理器。

数学推理（4篇）

PAL: Program-aided Language Models

PAL：程序辅助语言模型

简述：论文提出了程序辅助语言模型(PAL)：一种新方法，使用LLM读取自然语言问题并生成程序作为中间推理步骤，但将解决步骤交给运行时环境如Python解释器。在PAL中，将自然语言问题分解成可运行步骤仍然是LLM的唯一学习任务，而解决则委托给解释器。该方法在13个数学、符号和算法推理任务上展示了神经LLM和符号解释器之间的协同效应。

NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning Tasks

NumGLUE：一个包含基础且富有挑战性的数学推理任务的测试集

简述：论文提出了一个名为NumGLUE的算术推理基准测试，用来评估AI在简单计算任务上的能力。该测试包含8个不同的任务，都需要对数字进行简单的推理。研究发现，目前的神经网络模型在这个基准测试上的表现远远落后于人类，显示它们在数字推理方面的能力还很脆弱。

LILA: A Unified Benchmark for Mathematical Reasoning

LILA: 数学推理任务的统一基准

简述：论文提出了LILA，一个统一的数学推理基准测试，它包含各种不同类型、难度不等的数学任务，可以全面评估AI系统在数学推理方面的能力。测试结果显示，当前最先进的AI模型在LILA基准上的表现仍远远落后于人类。这说明AI的数学推理能力还有很大提升空间。

ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering

对话式金融问答中数值推理链的探索

简述：ConvFinQA是一个针对对话式金融问答的大规模数据集，目的是研究对话中多步数值推理的能力。该数据集包含真实世界的复杂金融对话，需要模型进行长程复杂的数值推理。作者使用这一数据集，测试了神经符号方法和提示学习方法在对话式问答中的推理能力，结果表明，进行复杂实际推理仍然是一个巨大的挑战。