從系統(tǒng) 1 到系統(tǒng) 2:大語言模型推理的綜述


2025年2月來自阿聯(lián)酋 MBZUAI、中科院自動化所、香港城市大學(xué)、香港科技大學(xué)廣州分校、英國格拉斯哥的 Strathclyde 大學(xué)、小紅書、華東師范大學(xué)和南方科技大學(xué)的論文“From System 1 to System 2: A Survey of Reasoning Large Language Models”。
要實現(xiàn)人類水平的智能,需要改進(jìn)從快速、直觀、系統(tǒng) 1 到較慢、更慎重、系統(tǒng) 2 推理的過渡。雖然系統(tǒng) 1 擅長快速、啟發(fā)式?jīng)Q策,但系統(tǒng) 2 依靠邏輯推理來做出更準(zhǔn)確的判斷并減少偏見。基礎(chǔ)大語言模型 (LLM) 擅長快速決策,但缺乏復(fù)雜推理的深度,因為它們尚未完全接受真正系統(tǒng) 2 思維的逐步分析特征。最近,像 OpenAI 的 o1/o3 和 DeepSeek 的 R1 這樣的推理 LLM 在數(shù)學(xué)和編碼等領(lǐng)域表現(xiàn)出專家級的表現(xiàn),與系統(tǒng) 2 的深思熟慮推理非常相似,并展示類似人類的認(rèn)知能力。
本概述首先簡要概述基礎(chǔ) LLM 的進(jìn)展和系統(tǒng) 2 技術(shù)的早期發(fā)展,探討它們的結(jié)合如何為推理 LLM 鋪平道路。其討論如何構(gòu)建推理 LLM,分析其特性、實現(xiàn)高級推理的核心方法以及各種推理 LLM 的演變。此外,還概推理基準(zhǔn),對代表性推理 LLM 的性能進(jìn)行了深入比較。
要達(dá)到人類水平的智能,需要完善從系統(tǒng) 1 到系統(tǒng) 2 推理的過渡 [1]–[5]。雙-系統(tǒng)理論認(rèn)為,人類認(rèn)知通過兩種模式運(yùn)作:系統(tǒng) 1 快速、自動、直觀,能夠以最小的努力做出快速決策;系統(tǒng) 2 速度較慢,更具分析性和深思熟慮 [6],[7]。雖然系統(tǒng) 1 對于日常任務(wù)很有效,但它容易產(chǎn)生認(rèn)知偏差,尤其是在復(fù)雜或不確定的情況下,從而導(dǎo)致判斷錯誤。相比之下,系統(tǒng) 2 依賴于邏輯推理和系統(tǒng)思維,從而做出更準(zhǔn)確、更合理的決策 [8]–[11]。通過減輕系統(tǒng) 1 的偏差,系統(tǒng) 2 提供一種更精細(xì)的問題解決方法 [12]–[15]。
基礎(chǔ)大語言模型 (LLM)1 的開發(fā)標(biāo)志著人工智能 (AI) 的一個重要里程碑。 GPT-4o [16] 和 DeepSeek-v3 [17] 等模型在文本生成、語言翻譯和各種感知任務(wù)中表現(xiàn)出色 [18]–[28]。這些模型在大量數(shù)據(jù)集上進(jìn)行訓(xùn)練并采用高級算法,在理解和生成類似人類的反應(yīng)方面表現(xiàn)出色。然而,基礎(chǔ) LLM 的運(yùn)作方式類似于系統(tǒng) 1 推理,依賴于快速、啟發(fā)式驅(qū)動的決策。雖然它們在提供快速響應(yīng)方面表現(xiàn)異常出色,但在需要深度、邏輯分析和復(fù)雜推理任務(wù)精確性的場景中,它們往往達(dá)不到要求。這種限制在涉及復(fù)雜問題解決、邏輯分析或細(xì)微理解的情況下尤其明顯,因為這些模型尚未達(dá)到人類的認(rèn)知能力。
相比之下,推理 LLM 代表語言模型演變的重大進(jìn)步。 OpenAI 的 o1/o3 [29]、[30] 和 DeepSeek 的 R1 [31] 等模型旨在模擬與系統(tǒng) 2 思維相關(guān)的較慢、更慎重的推理。與基礎(chǔ) LLM 不同,推理 LLM 配備逐步處理信息的機(jī)制,從而使其能夠做出更準(zhǔn)確、更合理的決策。從快速思考、直覺過程轉(zhuǎn)變?yōu)楦袟l理、推理驅(qū)動的模型,推理 LLM 能夠以專家級表現(xiàn)處理復(fù)雜任務(wù),如高等數(shù)學(xué) [32]–[37]、邏輯推理 [38]–[44] 和多模態(tài)推理 [45]–[47],展現(xiàn)出類似人類的認(rèn)知能力。因此,人們越來越多地認(rèn)為推理 LLM 能夠?qū)崿F(xiàn)曾經(jīng)被認(rèn)為超出 AI 能力范圍任務(wù)所需的深度邏輯思維。如圖顯示推理 LLM 的近期時間表。

本綜述全面概述推理 LLM 開發(fā)中涉及的關(guān)鍵概念、方法和挑戰(zhàn),其結(jié)構(gòu)如圖所示:

一、推理 LLMs 的基礎(chǔ)如下:
1. 基礎(chǔ) LLM
隨著 2018-2019 年預(yù)訓(xùn)練 Transformers [18] 的引入,基礎(chǔ) LLM 的發(fā)展取得重大進(jìn)展,尤其是通過 BERT [19] 和 GPT [21]。這些模型利用對大量文本語料庫的無監(jiān)督預(yù)訓(xùn)練,然后針對特定任務(wù)的應(yīng)用程序進(jìn)行微調(diào)。這種方法使他們能夠在專注于情緒分析、實體識別和問答等任務(wù)之前發(fā)展廣泛的語言理解。BERT 的雙向上下文處理提高單詞理解能力,而 GPT 憑借其單向設(shè)計在文本生成方面表現(xiàn)出色。
2019 年發(fā)布的 GPT-2 [22] 擁有 15 億個參數(shù),標(biāo)志著生成性能的重大飛躍,盡管它也引發(fā)道德問題。 GPT-3 [23] 擁有 1750 億個參數(shù),進(jìn)一步展示無監(jiān)督預(yù)訓(xùn)練的強(qiáng)大功能,在少樣本學(xué)習(xí)中表現(xiàn)出色,并在各種 NLP 任務(wù)中表現(xiàn)出色。在隨后的幾年中,出現(xiàn) CLIP [60] 和 DALL-E [61] 等多模態(tài)模型,它們集成文本和視覺輸入。這些模型實現(xiàn)新的任務(wù),例如從文本生成圖像,并增強(qiáng)人機(jī)交互。
到 2023-2024 年,GPT-4/4o [16]、[62]、LLaMA [25] 和 LLaVA [27] 等模型展示推理、上下文理解和多模態(tài)推理方面的先進(jìn)能力,可處理文本和圖像 [63]–[65]。 DeepSeek-V3 [17] 采用 671B 混合專家架構(gòu) [66]–[68],在關(guān)鍵基準(zhǔn)測試中優(yōu)于其他幾種 LLM,同時在效率和處理速度方面也有顯著提升。基礎(chǔ) LLM 的發(fā)展徹底改變?nèi)斯ぶ悄埽拐Z言理解、問題解決和人機(jī)協(xié)作方面能夠?qū)崿F(xiàn)更復(fù)雜的應(yīng)用。
摘要:基礎(chǔ) LLM 的發(fā)展已經(jīng)從 BERT 等預(yù)訓(xùn)練 Transformer 發(fā)展到 GPT-4 等多模態(tài)模型,增強(qiáng)語言理解、文本生成和圖像處理。這一進(jìn)步帶來人工智能的重大突破,提高語言理解、問題解決和人機(jī)交互能力。基于深度學(xué)習(xí)的進(jìn)步 [18]、[69]–[83],基礎(chǔ) LLM 可以從大量文本或多模態(tài)數(shù)據(jù)中學(xué)習(xí)廣泛的世界知識和語義關(guān)系。這使得它們能夠展現(xiàn)出上下文學(xué)習(xí) (ICL) [84]、[85]、提示工程 [86]、[87] 和思維鏈 (CoT) 推理 [2] 等新興能力,從而顯著提高它們的適應(yīng)性和創(chuàng)造性解決問題的能力。
盡管取得這些進(jìn)展,基礎(chǔ) LLM 的運(yùn)作方式與系統(tǒng)-1 推理類似,依賴于快速、啟發(fā)式驅(qū)動的決策,缺乏系統(tǒng)-2 的逐步分析特征。然而,它們的發(fā)展為未來的推理 LLM 奠定堅實的基礎(chǔ)——尤其是與早期的系統(tǒng)-2 技術(shù)相結(jié)合時。這種結(jié)合為更通用、更靈活、更像人類的推理模型鋪平道路。
2. 符號邏輯系統(tǒng)
符號邏輯系統(tǒng)標(biāo)志著人工智能的早期階段,利用規(guī)則和邏輯原理來表示知識并得出結(jié)論 [88],[89]。它們在結(jié)構(gòu)化領(lǐng)域特別有效,在這些領(lǐng)域中,形式邏輯可以確保準(zhǔn)確性。
Prolog 是一種基于一階邏輯的邏輯編程語言,允許用戶定義事實、規(guī)則并通過查詢進(jìn)行推理。它在符號推理系統(tǒng)中起著關(guān)鍵作用,尤其是在 NLP 和專家系統(tǒng)中 [90]–[92]。基于邏輯的系統(tǒng)(如 Prolog)采用命題和謂詞邏輯進(jìn)行形式推理 [93],[94]。從 20 世紀(jì) 60 年代到 20 世紀(jì) 80 年代初,這種方法主導(dǎo)人工智能,IBM 的 LISP [95] 等系統(tǒng)用于符號計算,解析定理證明器 [96] 用于自動推理。 20 世紀(jì) 70 年代,馬文·明斯基 (Marvin Minsky) 提出框架理論,將知識組織成結(jié)構(gòu)化框架,對專家系統(tǒng)和認(rèn)知科學(xué)都產(chǎn)生影響 [97]。
摘要:符號邏輯系統(tǒng)是早期人工智能發(fā)展的關(guān)鍵里程碑。它們基于形式邏輯,在解決定義明確的問題方面表現(xiàn)出色,尤其是在結(jié)構(gòu)化環(huán)境中。然而,它們也暴露僵化的規(guī)則系統(tǒng)的局限性。盡管存在這些限制,符號邏輯仍然是人工智能進(jìn)步的基礎(chǔ)。
推理 LLM 的最新進(jìn)展,通過復(fù)雜的思維架構(gòu)(稱為宏觀動作框架)大大增強(qiáng)對類人系統(tǒng)-2 認(rèn)知過程的模擬。通過將符號模板或規(guī)則與基礎(chǔ) LLMs 相結(jié)合,宏觀動作顯著提高其推理能力。將宏觀動作融入基礎(chǔ) LLMs 已經(jīng)改變它們處理復(fù)雜推理任務(wù)的能力,因為分層規(guī)劃允許模型在深入研究特定問題細(xì)節(jié)之前做出高級決策,反映符號邏輯的結(jié)構(gòu)化方法。
3. 蒙特卡洛樹搜索
MCTS 是一種基于模擬的決策和規(guī)劃搜索算法 [98]。它通過四個步驟構(gòu)建搜索樹:選擇,使用 UCB1 公式選擇優(yōu)先級最高的子節(jié)點;擴(kuò)展添加新節(jié)點,模擬執(zhí)行隨機(jī)滾動以評估它們,反向傳播更新節(jié)點統(tǒng)計信息。MCTS 已廣泛應(yīng)用于圍棋等棋盤游戲中的策略優(yōu)化 [99] 和機(jī)器人路徑規(guī)劃等任務(wù),它可以幫助機(jī)器人有效地導(dǎo)航動態(tài)環(huán)境 [100]。
摘要:MCTS 在推理 LLM 的開發(fā)中發(fā)揮至關(guān)重要的作用,特別是在結(jié)構(gòu)搜索中。通過模擬潛在的未來推理路徑和反向傳播估計的獎勵,MCTS 可幫助基礎(chǔ) LLM 有效地識別最有希望的高獎勵路徑。這個過程反映類似人類的規(guī)劃,在采取行動之前會考慮決策的未來后果。通過動態(tài)探索多種推理軌跡,MCTS 可使模型避免陷入次優(yōu)路徑,從而更輕松地駕馭復(fù)雜的決策空間。這種集成顯著增強(qiáng) LLM 處理復(fù)雜和動態(tài)推理問題的能力,例如需要長期規(guī)劃或多步邏輯推理的問題。它使 LLM 能夠做出更具戰(zhàn)略性和更明智的決策,從而提高其在涉及細(xì)微推理和戰(zhàn)略探索任務(wù)中的整體表現(xiàn)。
4. 強(qiáng)化學(xué)習(xí)
RL 是一種機(jī)器學(xué)習(xí),其中智體通過與環(huán)境交互并以獎勵的形式接收反饋來學(xué)習(xí)做出決策,旨在隨著時間的推移最大化累積獎勵 [101]。RL 的早期突破,例如 Q-學(xué)習(xí) [102] 和 DQN [103],通過使用深度神經(jīng)網(wǎng)絡(luò) (DNN) [104] 處理復(fù)雜的狀態(tài)空間,徹底改變該領(lǐng)域。這些方法為將 RL 擴(kuò)展到現(xiàn)實世界的任務(wù)鋪平道路,而傳統(tǒng)的表格方法則無法滿足這些任務(wù)的需要。深度 RL 的出現(xiàn)標(biāo)志著向前邁出重要一步,它將深度學(xué)習(xí)與 RL 的強(qiáng)大功能結(jié)合起來,以處理高維輸入,例如圖像和非結(jié)構(gòu)化數(shù)據(jù)。
深度 RL 的一個里程碑式成就是 AlphaGo,它通過自我對弈在復(fù)雜的圍棋游戲中擊敗世界冠軍,展示 RL 的潛力 [105]。這一成功凸顯深度 RL 在具有巨大、連續(xù)動作空間和不確定性的環(huán)境中蓬勃發(fā)展的能力。在此基礎(chǔ)上,AlphaZero 通過自對弈、MCTS 和 DNN 掌握多種棋盤游戲(國際象棋、圍棋和將棋),從而改進(jìn)該方法 [106]。AlphaZero 能夠完全從頭開始學(xué)習(xí),無需人類的先驗知識,展示強(qiáng)化學(xué)習(xí)在需要長期戰(zhàn)略和規(guī)劃的環(huán)境中的能力。
AlphaStar 通過在實時戰(zhàn)略游戲《星際爭霸 II》中表現(xiàn)出色,進(jìn)一步拓展深度強(qiáng)化學(xué)習(xí)的界限。與棋盤游戲不同,《星際爭霸 II》呈現(xiàn)動態(tài)、部分可觀察的環(huán)境,需要多步驟、實時決策 [107]。AlphaStar 在這一領(lǐng)域的成功證明深度強(qiáng)化學(xué)習(xí)能夠適應(yīng)需要戰(zhàn)略規(guī)劃和戰(zhàn)術(shù)執(zhí)行的復(fù)雜決策場景。強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)的這些進(jìn)步極大地擴(kuò)展人工智能的潛力,從定義明確的靜態(tài)環(huán)境轉(zhuǎn)變?yōu)樾枰掷m(xù)學(xué)習(xí)和適應(yīng)的動態(tài)復(fù)雜環(huán)境。
摘要:深度強(qiáng)化學(xué)習(xí)已被證明在解決復(fù)雜的決策任務(wù)方面非常有效。AlphaGo 通過自我對弈學(xué)習(xí)策略并擊敗圍棋世界冠軍,就是一個例證。這種自我對弈概念為推理 LLM 中的自我改進(jìn)技術(shù)奠定基礎(chǔ),兩者都依賴于持續(xù)反饋和調(diào)整來優(yōu)化策略。
在強(qiáng)化學(xué)習(xí)中,獎勵塑造至關(guān)重要,尤其是對于多步驟推理任務(wù) [108]。通過調(diào)整獎勵信號以在中間步驟中提供更細(xì)粒度的反饋,它可以幫助智體導(dǎo)航復(fù)雜的決策路徑。這個概念啟發(fā)獎勵建模的發(fā)展,特別是推理 LLM 中的過程獎勵模型。該模型提供分步監(jiān)督來識別和糾正推理過程中的錯誤。通過模仿人類推理,過程獎勵模型可確保更穩(wěn)健、更可解釋的結(jié)果,尤其是在數(shù)學(xué)問題解決和代碼生成等任務(wù)中,其中分步評估至關(guān)重要。
此外,強(qiáng)化學(xué)習(xí)本身也是推理 LLM 的強(qiáng)大工具。通過獎勵機(jī)制,強(qiáng)化學(xué)習(xí)可以引導(dǎo)基礎(chǔ) LLM 找到最優(yōu)解,尤其是在動態(tài)推理問題中。它的簡單性和效率使強(qiáng)化學(xué)習(xí)在訓(xùn)練和優(yōu)化推理 LLM 方面具有不可估量的價值,增強(qiáng) AI 模型的智能性和自我進(jìn)化能力。正如 DeepSeek-R1 [31] 所展示的那樣,強(qiáng)化學(xué)習(xí)的集成已導(dǎo)致推理 LLM 取得重大進(jìn)展,提供更靈活、更高效的解決方案。
推理 LLM 的藍(lán)圖如下。如圖顯示傳統(tǒng)推理模型和推理 LLM 的全面比較:

二、推理 LLM 的特征分析
1. 輸出行為視角
探索和規(guī)劃結(jié)構(gòu):最近的實證研究表明,推理 LLM 在其輸出結(jié)構(gòu)中表現(xiàn)出強(qiáng)烈的探索性行為傾向,尤其是與主要依賴傳統(tǒng) CoT 推理方法的 WizardMath [109] 和 DeepSeekMath [110] 等模型相比時。這種探索性行為在制定新假設(shè)和尋求替代解決方案路徑方面顯而易見。[49] 的研究表明,慢思考模型參與潛在的生成過程,在預(yù)測后續(xù) token 時尤其明顯。[31] 支持這一說法,它觀察到在 RL 規(guī)模訓(xùn)練期間自然會出現(xiàn)類似的行為。此外,Quiet-STaR 框架 [111] 引入一個輔助預(yù)訓(xùn)練階段,專注于下一個 token 預(yù)測,強(qiáng)調(diào)內(nèi)部審議和探索機(jī)制在內(nèi)容生成之前的關(guān)鍵作用。總的來說,這些發(fā)現(xiàn)強(qiáng)調(diào)高級 LLM 中推理過程的復(fù)雜性和動態(tài)性,強(qiáng)調(diào)其操作框架內(nèi)探索與結(jié)構(gòu)化推理之間的相互作用。
驗證和檢查結(jié)構(gòu):對 OpenAI 的 o1 [29] 和 o3 [30] 模型的分析表明,它們的推理框架既包含長期戰(zhàn)略規(guī)劃的宏觀層面行動,也包含微觀層面行動,包括“等待”、“稍等”、“或者”和“讓我們暫停一下”。這些微觀操作有助于細(xì)致的驗證和迭代檢查過程,確保任務(wù)執(zhí)行的準(zhǔn)確性。這種雙層方法強(qiáng)調(diào)模型在總體目標(biāo)和細(xì)粒度、面向細(xì)節(jié)操作之間取得平衡的能力,從而增強(qiáng)模型的整體功能和可靠性。為了模仿這一特性,Marco-o1 [112] 在構(gòu)建 Long-CoT 的 MCTS 過程中,為每個樹節(jié)點分配“等一下!我可能犯了一些錯誤!我需要從頭開始重新思考”的狀態(tài),從而促進(jìn) Long-CoT 的反思性。Huatuo-o1 [113] 采用多智體框架來解決驗證過程中生成錯誤 CoT 的問題。這是通過結(jié)合帶有“回溯”和“糾正”功能的提示來實現(xiàn)的,這使得糾正過程成為可能。
更長的推理長度和時間:最近的研究 [49]–[52]、[114] 表明,推理 LLM 通常會生成超過 2000 個 tokens 的輸出來解決復(fù)雜的編碼和數(shù)學(xué)問題。然而,這種延長的輸出長度有時會導(dǎo)致過度思考,模型會在問題上花費(fèi)過多的時間,而不一定能改進(jìn)解決方案。研究 [49] 強(qiáng)調(diào),雖然自回歸生成和經(jīng)典 CoT 可以有效解決較簡單的問題,但它們在處理更復(fù)雜的任務(wù)時會遇到困難。研究 [115]、[116] 表明,在多模態(tài)領(lǐng)域,許多問題需要仔細(xì)觀察、比較和思考。此外,Search-o1 [117] 表明,慢思考機(jī)制在需要外部知識或出現(xiàn)潛知識沖突的領(lǐng)域特別有益。在醫(yī)療場景中,復(fù)雜問題(例如需要測試-時間規(guī)模化技術(shù)的問題)表現(xiàn)出顯著的改進(jìn) [52]。
過于謹(jǐn)慎和簡單的問題陷阱:目前,推理 LLM 在競爭級數(shù)學(xué) [31]、[54]、[118]、[119]、復(fù)雜編碼 [120]、醫(yī)學(xué)問答 [52]、[113] 和多語言翻譯 [112]、[121] 等領(lǐng)域表現(xiàn)出色。這些場景需要模型對問題進(jìn)行細(xì)粒度分析,并根據(jù)給定的條件執(zhí)行仔細(xì)的邏輯推理。有趣的是,即使對于像“2 + 3 =?”這樣的簡單問題,推理LLM也會表現(xiàn)出過度自信或不確定性。最近的研究[122]指出,o1 類模型傾向于為較簡單的數(shù)學(xué)問題生成多輪解決方案,通常會探索不必要的路徑。這種行為與較簡單問題缺乏多樣化的探索性行動形成鮮明對比,表明模型的推理過程可能效率低下。
2. 訓(xùn)練動態(tài)視角
驚人的數(shù)據(jù)效率:與專注于擴(kuò)展具有均勻分布難度級別的指令集的傳統(tǒng)方法不同,研究[52],[54]表明,構(gòu)建以難樣本為重點的慢思考 CoT 數(shù)據(jù)集,可以在醫(yī)學(xué)和數(shù)學(xué)等領(lǐng)域?qū)崿F(xiàn)更好的泛化。這種方法不同于收集多樣化和均勻分布指令數(shù)據(jù)集的傳統(tǒng)做法。
稀疏訓(xùn)練方法:與傳統(tǒng)觀點相反,有效推理 LLM 的開發(fā)不需要大量數(shù)據(jù)集或密集的獎勵信號。例如,STILL2 [51] 僅使用 5,000 個蒸餾樣本就表現(xiàn)出令人印象深刻的性能,而 Sky-T1 [119] 僅使用 17,000 個 LongCoT 樣本就實現(xiàn)了與 QwQ [118] 相當(dāng)?shù)男阅堋M瑯樱琑edStar [54] 僅使用 4,000 個核心 LongCoT 樣本在文本和多模態(tài)任務(wù)中都取得了出色的結(jié)果。與簡單的 CoT 相比,慢思考監(jiān)督微調(diào) (SFT) 數(shù)據(jù)表現(xiàn)出出色的樣本效率,通常僅使用 1/100 的樣本量就能提供相當(dāng)?shù)慕Y(jié)果。此外,研究 [123] 強(qiáng)調(diào)在線 RL 規(guī)模化算法的巨大訓(xùn)練潛力,表明非密集 RL 監(jiān)督甚至基于規(guī)則的獎勵結(jié)構(gòu),足以實現(xiàn)高性能。
參數(shù)特征:以 LongCoT 方法為代表的慢速思維,訓(xùn)練 LLM 會導(dǎo)致不同層之間的梯度范數(shù)相對均勻。相比之下,以簡化的 CoT 方法為代表的快速思維,會在較早的層中產(chǎn)生較大的梯度幅度,同時不同層之間的梯度范數(shù)存在顯著差異。經(jīng)驗證據(jù)表明,較大的模型(尤其是參數(shù)超過 300 億的模型)更適合推理 LLM 訓(xùn)練,因為它們具有增強(qiáng)的復(fù)雜推理能力。此外,RedStar [54] 進(jìn)行的實驗表明,數(shù)據(jù)規(guī)模化的好處因模型大小而異,規(guī)模化效果在較大的模型中更明顯、更有效。Deepseek-R1 的研究 [31] 支持這一發(fā)現(xiàn),該研究表明,6700 億個參數(shù)模型實現(xiàn)的性能指標(biāo)與 o1 基準(zhǔn)非常接近,凸顯大型架構(gòu)在高級推理任務(wù)中的可規(guī)模化優(yōu)勢。
三、核心方法
驅(qū)動推理 LLM 高級推理能力的核心方法如圖所示,包括結(jié)構(gòu)搜索、獎勵建模、自我改進(jìn)、宏觀動作和強(qiáng)化微調(diào)。

1. 結(jié)構(gòu)搜索
推理 LLM 旨在通過模擬人類推理的深思熟慮性質(zhì),在解決復(fù)雜問題時實現(xiàn)高精度和深度。然而,盡管最近取得進(jìn)展,但當(dāng)前的基礎(chǔ) LLM 在處理復(fù)雜的推理任務(wù)時仍面臨固有的局限性。這些限制源于它們?nèi)狈δM環(huán)境狀態(tài)的內(nèi)部世界模型、無法預(yù)測推理路徑的長期結(jié)果以及無法根據(jù)未來狀態(tài)或獎勵迭代地改進(jìn)推理步驟 [8]。因此,這些缺點阻礙基礎(chǔ) LLM 在廣闊的推理空間中有效平衡探索和利用,從而給需要多步驟推理的任務(wù)(例如復(fù)雜數(shù)學(xué)、邏輯推理或戰(zhàn)略決策)帶來挑戰(zhàn) [139]。
MCTS 是一種強(qiáng)大的搜索和優(yōu)化算法,它通過提供一個結(jié)構(gòu)化框架來系統(tǒng)地探索和評估推理路徑,從而有效地解決這些挑戰(zhàn)。它通過構(gòu)建推理樹來運(yùn)行,其中每個節(jié)點代表一個推理狀態(tài),動作通過考慮潛在的后續(xù)步驟來擴(kuò)展樹。通過模擬未來狀態(tài)和估計獎勵的迭代反向傳播,MCTS 允許基礎(chǔ) LLM 有效地識別高獎勵的推理路徑,從而反映人類的規(guī)劃過程。這種方法符合推理 LLM 的核心原則,其中徹底的分析和深思熟慮的探索對于生成合理的輸出至關(guān)重要。最近的方法,如 RAP [14],通過將 MCTS 與世界模型相結(jié)合,增強(qiáng)基礎(chǔ) LLM,使系統(tǒng)能夠迭代地改進(jìn)中間推理步驟并改善未來預(yù)測。同樣,思維森林(Forest-of-Thought) [125] 利用 MCTS 動態(tài)探索多種推理軌跡,重新審視有缺陷的路徑并改進(jìn)結(jié)果。
MCTS 在推理任務(wù)中的應(yīng)用已不僅限于傳統(tǒng)的問題解決,還擴(kuò)展到高度專業(yè)化的領(lǐng)域。例如,SRA-MCTS [134] 和 MC-NEST [133] 等框架展示 MCTS 在解決代碼生成和數(shù)學(xué)推理等技術(shù)挑戰(zhàn)方面的實用性,其中中間步驟經(jīng)過迭代評估和改進(jìn)。在教學(xué)協(xié)調(diào)等領(lǐng)域,SPaR [127] 和 Marco-o1 [112] 等框架利用 MCTS 來改進(jìn)響應(yīng)并使推理軌跡與人類偏好或期望結(jié)果保持一致。此外,像 HuatuoGPT-o1 [113] 這樣的針對特定任務(wù)的實現(xiàn)強(qiáng)調(diào) MCTS 在高度專業(yè)化領(lǐng)域(如醫(yī)學(xué)推理)中的關(guān)鍵作用,因為在這些領(lǐng)域中準(zhǔn)確性和魯棒性至關(guān)重要。
MCTS 還通過結(jié)合動態(tài)重訪、批評和改進(jìn)推理步驟的機(jī)制,使模型能夠超越單次推理方法(如 CoT 或思維樹)[131]、[140]。這種迭代能力對于處理具有巨大決策空間的任務(wù)或需要長期規(guī)劃的任務(wù)至關(guān)重要,因為早期的決策會顯著影響最終結(jié)果。通過允許 LLM 模擬、評估和改進(jìn)多種推理路徑,MCTS 引入傳統(tǒng)方法所缺乏的適應(yīng)性和戰(zhàn)略探索水平。正如 AlphaZero 類樹搜索 [124] 和 Search-o1 [117] 所示,MCTS 不僅使推理 LLM 能夠在特定任務(wù)上取得更好的性能,而且還能在不同領(lǐng)域表現(xiàn)出增強(qiáng)的泛化能力。
MCTS 與 LLM 的集成取決于定義動作和獎勵,以指導(dǎo)推理路徑探索和評估質(zhì)量。如表所示,先前工作的動作分為四類:
1)推理步驟作為節(jié)點:動作表示中間推理步驟或決策,例如選擇規(guī)則、應(yīng)用轉(zhuǎn)換或生成子問題 [14]、[124]、[125]、[139]。
2)token 級決策:動作涉及生成token或序列(例如下一個單詞、短語或代碼片段)[126]–[128]、[141]。
3)任務(wù)特定結(jié)構(gòu):動作是特定域的,例如在積木世界中移動積木、在幾何問題解決中構(gòu)建幾何或在任務(wù)規(guī)劃中修改工作流程[129],[130],[142]。
4)自我糾正和探索:行動側(cè)重于重新訪問、改進(jìn)或回溯以改進(jìn)先前的推理步驟[131],[132],[143]。

此外,如表所示,將獎勵設(shè)計分為五類:
1)基于結(jié)果的獎勵:獎勵側(cè)重于最終結(jié)果或解決方案的正確性或有效性,包括推理路徑或任務(wù)成功的驗證[133],[139],[142]。
2)分步評估:根據(jù)每個步驟的質(zhì)量或其對最終結(jié)果的貢獻(xiàn),在中間步驟分配獎勵[14],[124],[134]。
3)自我評估機(jī)制:獎勵依賴于模型自身的信心或自我評估(例如,似然、下一個詞概率或置信度得分)[127],[128],[135]。
4)特定域的標(biāo)準(zhǔn):獎勵針對特定任務(wù)定制,例如幾何的對稱性和復(fù)雜性或文本生成中與人類偏好的一致性[130],[136],[142]。
5) 迭代偏好學(xué)習(xí):獎勵來自對多個解決方案或推理路徑的比較,從而動態(tài)地指導(dǎo)學(xué)習(xí) [112]、[137]、[138]。
摘要:盡管基于結(jié)構(gòu)搜索(即 MCTS)的推理 LLM 具有諸多優(yōu)勢,但由于需要進(jìn)行大量模擬,因此通常會產(chǎn)生大量的計算開銷。這使得它們不太適合需要實時決策或在資源受限情況下運(yùn)行的任務(wù) [144]。此外,MCTS 的有效性高度依賴于精心設(shè)計的獎勵機(jī)制和動作定義,而這些機(jī)制和動作定義在不同領(lǐng)域可能會有很大差異,因此對其通用性提出挑戰(zhàn) [145]。
2. 獎勵建模
兩種主要的訓(xùn)練范式用于處理多步驟推理任務(wù):結(jié)果監(jiān)督和過程監(jiān)督。結(jié)果監(jiān)督強(qiáng)調(diào)在更高粒度上最終答案的正確性,由此產(chǎn)生的模型稱為結(jié)果獎勵模型 (ORM) [32]、[158]。相比之下,過程監(jiān)督為解決方案軌跡提供分步標(biāo)簽,評估每個推理步驟的質(zhì)量。由此產(chǎn)生的模型稱為過程獎勵模型 (PRM) [37]、[159]、[160]。ORM 和 PRM 之間的主要區(qū)別如圖所示:

PRM 在復(fù)雜推理任務(wù)中具有顯著優(yōu)勢 [147]、[161],主要原因有幾個。首先,它提供細(xì)粒度、分步監(jiān)督,允許識別解決方案路徑中的特定錯誤。此功能對于 RL 和自動糾錯尤其有價值。其次,PRM 與人類推理行為非常相似,人類推理行為依賴于準(zhǔn)確的中間步驟來得出正確的結(jié)論。與 ORM 不同,PRM 避免不正確的推理仍能得出正確最終答案的情況,從而確保更穩(wěn)健和可解釋的推理。雖然 PRM 主要應(yīng)用于復(fù)雜的數(shù)學(xué)問題,但它的優(yōu)勢最近推動其他領(lǐng)域的應(yīng)用。例如,ORPS [155] 利用 PRM 來解決復(fù)雜的代碼生成挑戰(zhàn),而 Step-DPO [156] 將過程監(jiān)督與直接偏好優(yōu)化 (DPO) 算法 [162] 相結(jié)合以改進(jìn)長鏈數(shù)學(xué)推理。下表給出獎勵建模方法的摘要:

摘要:盡管 PRM 有優(yōu)勢,但也帶來一些挑戰(zhàn)。主要困難在于獲取帶有過程監(jiān)督標(biāo)記的數(shù)據(jù),這通常既昂貴又耗時。為了解決與規(guī)模化、效率和準(zhǔn)確性相關(guān)的問題,研究人員探索各種自動注釋方法。例如,MATHSHEPHERD [147] 利用最終答案的正確性,根據(jù)中間步驟帶來正確結(jié)果的可能性來定義中間步驟的質(zhì)量,從而實現(xiàn)分步數(shù)據(jù)收集過程的自動化。ReST-MCTS? [151] 將過程獎勵指導(dǎo)與 MCTS 相結(jié)合,通過廣泛展開生成更高質(zhì)量的推理軌跡。同樣,OmegaPRM [152] 采用 MCTS 框架,同時引入分而治之算法來自動生成過程監(jiān)督數(shù)據(jù)。另一種新方法是使用 ORM 來訓(xùn)練 PRM。Yuan [149] 提出在溫和的獎勵參數(shù)化假設(shè)下,利用更便宜數(shù)據(jù)集上的 ORM 訓(xùn)練來隱式訓(xùn)練 PRM。它們還為這種隱式 PRM 的性能提供理論保證,證明其實用性和成本效益。
除了數(shù)據(jù)收集之外,PRM 還面臨著與可信度相關(guān)的挑戰(zhàn) [153],具體分類如下:
1)缺乏解釋:當(dāng)前的 PRM 通常會在沒有足夠解釋的情況下為推理步驟生成分?jǐn)?shù),從而限制可解釋性并阻礙它們在測試期間改進(jìn)推理的實用性。
2)訓(xùn)練數(shù)據(jù)中的偏差:數(shù)據(jù)收集方法(例如 MCTS)往往會引入分布偏差,為大多數(shù)問題分配不成比例的較高分?jǐn)?shù)。因此,PRM 很難有效識別錯誤的推理步驟。
3)早期步驟偏差:與更接近最終答案的推理步驟相比,PRM 在預(yù)測早期推理步驟獎勵方面的準(zhǔn)確率較低。這個問題源于與推理過程初始步驟相關(guān)的隨機(jī)性和不確定性增加。
3. 自我改進(jìn)
推理 LLM 體現(xiàn)從弱監(jiān)督到強(qiáng)監(jiān)督的進(jìn)展,而傳統(tǒng)的 CoT 微調(diào)在有效規(guī)模化方面面臨挑戰(zhàn)。自我改進(jìn)利用模型的探索能力進(jìn)行自我監(jiān)督,逐步提高 LLM 在翻譯 [167]、數(shù)學(xué) [163]、[168] 和多模態(tài)感知 [171] 等任務(wù)中的表現(xiàn)。這種方法促進(jìn)推理 LLM 中的探索和應(yīng)用 [166]、[184]–[186]。下表總結(jié)自我改進(jìn)方法:

LLM 中基于訓(xùn)練的自我改進(jìn)可以根據(jù)探索和改進(jìn)策略進(jìn)行分類。探索階段側(cè)重于數(shù)據(jù)收集,以促進(jìn)后續(xù)訓(xùn)練改進(jìn),方法有顯著差異。 STaR [163] 使用少樣本例子進(jìn)行數(shù)據(jù)收集,而 ReST [167]、ReST-EM [168] 和 ENVISIONS [169] 則依賴于對完整軌跡的多次采樣。Quiet-STaR [111] 在 token 級進(jìn)行探索,引入元 token 和非近視(non-myopic)損失等概念來增強(qiáng)監(jiān)督。此外,ReST-MCTS* [151] 和 rStar-Math [166] 通過 MCTS 生成訓(xùn)練數(shù)據(jù)。
改進(jìn)策略也表現(xiàn)出明顯的多樣性。例如,STaR 及其衍生產(chǎn)品(如 V-STaR [164] 和 B-STaR [165])將過濾與 SFT 相結(jié)合。ReST 及其變型通常會引入創(chuàng)新的獎勵計算方法,來增強(qiáng)策略模型的 RL 訓(xùn)練。RISE [170] 在改進(jìn)過程中結(jié)合了外部反饋、記錄獎勵并通過蒸餾來細(xì)化響應(yīng)。值得注意的是,rStar-Math [166] 表明,小型模型已通過自我進(jìn)化的訓(xùn)練方法實現(xiàn)系統(tǒng) 2 的反思能力。
測試-時自我改進(jìn),利用模型內(nèi)部知識的一致性來糾正推理過程中的幻覺。這些方法可分為三類:使用提示改進(jìn)答案的方法 [174]、[175]、利用外部工具的方法 [176] 以及利用 logits 而無需外部工具或提示的技術(shù) [182]、[183]。
4. 宏動作
LLM 推動宏動作框架模擬類人系統(tǒng) 2 認(rèn)知過程的進(jìn)展。這些結(jié)構(gòu)化推理系統(tǒng)通過引入分層認(rèn)知階段(例如戰(zhàn)略規(guī)劃、內(nèi)省驗證和迭代細(xì)化),超越傳統(tǒng)的 token 級自回歸生成。這種方法不僅增強(qiáng)推理的深度,而且拓寬解決方案空間,從而實現(xiàn)更穩(wěn)健、更多樣化的問題解決途徑。下表總結(jié)宏動作方法:

其中行動類別:AD=分析與分解,IPR=信息處理與推理,VC=驗證與糾正,GO=生成與優(yōu)化,EB=探索與回溯。
將宏動作的進(jìn)展分為兩個方面:
1)通過宏動作操作化進(jìn)行測試-時間規(guī)模化:最近的研究確定兩種在推理和測試-時間規(guī)模化過程中提高推理性能的關(guān)鍵方法。 HiICL-MCTS [190] 通過種子數(shù)據(jù)進(jìn)行精心搜索,生成由宏動作組成的動作鏈模板,從而促進(jìn)以動作鏈為導(dǎo)向的測試-時推理方法。ReasonFlux [192] 采用迭代測試-時規(guī)模化框架,利用外部高級思維模板迭代細(xì)化和更新當(dāng)前 CoT。
2)宏動作增強(qiáng)數(shù)據(jù)合成范式:宏動作在復(fù)雜推理中的一個關(guān)鍵應(yīng)用是推理數(shù)據(jù)的合成。在數(shù)據(jù)合成和訓(xùn)練框架中,宏動作架構(gòu)增強(qiáng)推理的多樣性和泛化能力。最近的研究表明,在推理序列中將 CoT 過程與宏動作集成或合成可以顯著提高推理鏈的數(shù)據(jù)效率。例如,LLaVA-CoT [197] 通過外在化跨多種模態(tài)的中間推理步驟來增強(qiáng) CoT 數(shù)據(jù)合成。 Atom-Think [199] 使用結(jié)構(gòu)化的 g1 提示 [204] 生成 AMATH-SFT 數(shù)據(jù)集,與傳統(tǒng)的 CoT 方法相比,它在長期推理任務(wù)上取得卓越的表現(xiàn)。CoAct [205] 引入一個雙智體協(xié)作推理框架,其中全局規(guī)劃體執(zhí)行總體宏動作,而局部執(zhí)行智體在這些更廣泛的動作中執(zhí)行特定的子動作。
宏動作在增強(qiáng)自我改進(jìn)框架方面也發(fā)揮著至關(guān)重要的作用。rStar-Math [166] 通過代碼增強(qiáng)的 CoT 利用高級深思熟慮的搜索,在實現(xiàn)主動搜索能力的同時生成多樣化和可靠的解決方案。Satori [206] 將 CoT 與 RL 相結(jié)合,結(jié)合“”式的宏動作來多樣化探索并緩解在線 RL 環(huán)境中的策略飽和。Huatuo-o1 [113] 將分層規(guī)劃與域特定知識庫相結(jié)合,以改進(jìn)醫(yī)學(xué)推理。此外,ReasonFlux [192] 動態(tài)地重新配置推理模板(例如,將微積分問題分解為符號和數(shù)字階段)以與問題結(jié)構(gòu)保持一致。
5. 強(qiáng)化微調(diào)
強(qiáng)化微調(diào) (RFT) [207] 是 OpenAI 最近推出的一項創(chuàng)新技術(shù),旨在使開發(fā)人員和工程師能夠針對特定域或復(fù)雜任務(wù)對現(xiàn)有模型進(jìn)行微調(diào)。與一般的 SFT 不同,RFT 專注于通過使用獎勵機(jī)制來指導(dǎo)模型的演進(jìn),從而優(yōu)化模型的推理過程,這樣增強(qiáng)其推理能力和準(zhǔn)確性。RFT 的核心在于利用最少的高質(zhì)量訓(xùn)練數(shù)據(jù) [208]、合適的獎勵模型 [209] 和長期穩(wěn)定的優(yōu)化過程 [210]–[213] 來提高模型在特定領(lǐng)域的性能。下表總結(jié) RFT 方法:

DeepSeek-R1 [31] 采用基于驗證器獎勵的策略,與 SoS [214] 等傳統(tǒng)方法相比,其性能得到顯著提升。主要優(yōu)勢包括:
1)簡化訓(xùn)練流程:RL 監(jiān)督簡化數(shù)據(jù)構(gòu)建和訓(xùn)練過程,無需復(fù)雜的逐步搜索機(jī)制。
2)增強(qiáng)的規(guī)模化:在線 RL 訓(xùn)練有助于在大型數(shù)據(jù)集上實現(xiàn)高效規(guī)模化,特別是對于復(fù)雜的推理任務(wù)。
3)新興特性:DeepSeek-R1 [31] 展示獨特的新興能力,例如 Long-CoT 推理,這些能力很難僅通過 SFT 實現(xiàn)。
盡管 RFT 具有諸多優(yōu)勢,但它仍面臨以下挑戰(zhàn):
1)推理背后的機(jī)制不明確:推動 DeepSeek-R1 推理改進(jìn)的底層機(jī)制仍然不太為人所知。例如,雖然 DeepSeek-R1 表現(xiàn)出涌現(xiàn)特性(例如“突現(xiàn)長度增加”、“頓悟時刻”),但 [242] 等研究表明,像 Long-CoT 這樣的功能可能已經(jīng)存在于基礎(chǔ)模型中,而不僅僅是從 RL 訓(xùn)練中出現(xiàn)的。此外,在較小的模型(例如 Qwen-Math-2B/7B [243])中觀察到的性能提升并沒有明顯的“頓悟時刻”,這使得因果解釋變得復(fù)雜。
2)獎勵模型飽和:許多現(xiàn)有的 RL 算法都面臨獎勵模型飽和的問題,通常表現(xiàn)為在大約 100 個訓(xùn)練步驟后探索崩潰。雖然 DeepSeek-R1 通過專門的獎勵格式緩解了這個問題,但 ReFT [209] 和 Satori [206] 等方法提出交替采樣和 SFT 蒸餾來對抗獎勵黑客和探索崩潰。
3)不穩(wěn)定的長 CoT 生成:RFT 生成的長推理鏈容易出現(xiàn)不穩(wěn)定,包括上下文溢出、無法返回最終答案以及對獎勵塑造的敏感性 [122]。例如,[239] 等方法無意中引入余弦獎勵函數(shù),這會隨著迭代次數(shù)的增加而降低性能。O1-Prune [244] 使用事后長度修剪技術(shù) [215](通過 RL/SFT)來穩(wěn)定輸出。
RFT 的未來方向可能包括幾個令人興奮和創(chuàng)新的進(jìn)步,例如:
1)高效穩(wěn)定的 RL 框架:需要開發(fā)更強(qiáng)大的 RL 算法,以防止獎勵飽和和探索崩潰。[239] 表明,REINFORCE ++ [245] 與 KL 發(fā)散度正則化結(jié)合使用時表現(xiàn)不佳,這表明需要替代方法。未來的工作應(yīng)該在現(xiàn)代 LLM 訓(xùn)練的背景下重新審視經(jīng)典的 RL 算法,以優(yōu)化穩(wěn)定性和效率。
2)擴(kuò)展 RFT:當(dāng)前的 RL-監(jiān)督模型依賴于從大規(guī)模數(shù)據(jù)集中選擇的精選、可驗證提示。未來的研究應(yīng)側(cè)重于合成高質(zhì)量、多樣化的提示以提高泛化能力。[240] 表明,僅僅擴(kuò)展策略/獎勵模型或增加樣本量會導(dǎo)致收益遞減,而擴(kuò)大 PRM 和 R1 訓(xùn)練數(shù)據(jù)的范圍則更有希望。應(yīng)該探索混合方法,例如將 RL 與 SFT 或課程學(xué)習(xí)相結(jié)合,以增強(qiáng)規(guī)模化。
3)控制長 CoT 穩(wěn)定性:需要自適應(yīng)獎勵塑造機(jī)制來平衡推理長度、連貫性和答案正確性。O1-Prune [244] 等技術(shù)證明事后長度正則化的價值,但動態(tài)訓(xùn)練控制是必要的。應(yīng)研究分層 RL 框架,將長推理鏈分解為可管理的子任務(wù),從而降低不穩(wěn)定性。
4)理論與實證分析:必須明確 RL 訓(xùn)練與基礎(chǔ)模型能力之間的關(guān)系。例如,應(yīng)確定突現(xiàn)屬性(例如 Long-CoT)是源自 RL 優(yōu)化還是基礎(chǔ)模型的潛特征。應(yīng)系統(tǒng)研究獎勵設(shè)計原則(例如稀疏與密集獎勵、多目標(biāo)平衡),以避免獎勵黑客等非預(yù)期行為。
摘要:RFT 為推進(jìn) LLM 推理提供一個有希望的方向,DeepSeek-R1 [31] 就是明證。然而,獎勵飽和、不穩(wěn)定的長推理鏈和不明確的突發(fā)機(jī)制等挑戰(zhàn)需要緊急關(guān)注。未來的努力應(yīng)優(yōu)先考慮算法創(chuàng)新、可規(guī)模化的快速綜合和理論基礎(chǔ),以充分釋放 RL 驅(qū)動推理 LLM 的潛力。
四、推理 LLM 的進(jìn)化
推理 LLM 的進(jìn)化經(jīng)歷幾個不同的階段,開發(fā)了各種策略來克服直接自回歸推理的局限性并構(gòu)建更先進(jìn)的慢思考推理架構(gòu)。
在早期階段,推理 LLM 主要側(cè)重于使用外部推理算法增強(qiáng)預(yù)訓(xùn)練的 LLM,而不改變底層模型參數(shù)。諸如思維樹 [265] 和規(guī)劃推理 [14] 之類的方法利用 LLM 驅(qū)動的廣度優(yōu)先搜索、深度優(yōu)先搜索和 MCTS [98]、[125]、[128]、[266] 來模擬類似人類的推理過程。這些方法將推理表示為樹或圖的遍歷,其中中間推理狀態(tài)被描繪為節(jié)點,各種推理策略產(chǎn)生不同的推理路徑。最終決定是通過額外的投票機(jī)制 [3] 或基于蒙特卡洛的價值估計來確定最佳路徑。
然而,這些外化的慢速推理方法帶來幾個挑戰(zhàn):
有限的探索空間:基于搜索的方法需要對搜索空間的廣度、深度和粒度進(jìn)行預(yù)定義約束,這通常會將 LLM 的探索限制在狹窄的推理空間內(nèi)。此外,同一父節(jié)點的不同子節(jié)點之間的推理策略通常缺乏足夠的多樣性,進(jìn)一步限制了探索。
2)經(jīng)驗共享有限:不同路徑之間的探索經(jīng)驗和推理信息只能基于獎勵模型或結(jié)果之間的自洽性進(jìn)行評估。此外,基于搜索的方法顯著增加計算開銷,依賴于獎勵模型(如PRM/ORM)進(jìn)行樹修剪或推測解碼技術(shù)來加速推理。
為了克服這些限制,后續(xù)模型(如rSTaR [193]、LLaMAV-o1 [198]、HiICL-MCTS [190]、Mulberry [196]、g1 [204]和Thinking-Claude [267])引入更豐富的動作空間。這些增強(qiáng)的動作空間提供高級規(guī)劃線索,拓寬模型的探索范圍并實現(xiàn)更全面的結(jié)構(gòu)化搜索過程。然而,這種方法需要精心設(shè)計動作空間以確保其有效性。隨著 o1 [29] 和 QwQ [118] 等模型的引入,外部推理范式被內(nèi)化到 LLM 的上下文中。這些模型最初執(zhí)行探索性宏規(guī)劃以生成初始推理路徑,然后進(jìn)行替代路徑的上下文探索。通過“重思考”和“驗證”等機(jī)制,這些模型產(chǎn)生規(guī)模化的推理鏈。為了復(fù)制這種內(nèi)化能力,STILL-1 [266] 將樹搜索輸出線性化為長推理鏈,具有“重思考”、“等待”和“探索新路徑”等屬性。同樣,STILL-2 [53] 和 sky-T1 [119] 使用蒸餾技術(shù)合成長推理鏈。
然而,從基于搜索方法得出的線性化推理鏈,很難與蒸餾方法產(chǎn)生的推理鏈質(zhì)量相匹配。最近的進(jìn)展,包括 DeepSeek-R1 [31] 和 Kimi-k1.5 [215],已經(jīng)證明 RL 增強(qiáng) DeepSeek-V3 [17] 等模型的潛力,從而出現(xiàn)復(fù)雜的行為,例如長推理鏈、反思推理和高級規(guī)劃能力。值得注意的是,這些復(fù)雜的行為是通過簡單的 RL 規(guī)模化實現(xiàn)的。SimpleRL [123] 試圖使用精簡的流水線和最小的代碼庫來復(fù)制這些功能,而 R1V [234] 則探索基于多模態(tài)基礎(chǔ)架構(gòu)的多模態(tài)推理模型開發(fā)。
摘要:推理 LLM 的發(fā)展已經(jīng)從外部增強(qiáng)推理轉(zhuǎn)變?yōu)閮?nèi)部嵌入推理。最近的發(fā)展強(qiáng)調(diào)基于 RL 規(guī)模化釋放高級功能的潛力。
推理 LLM 的基準(zhǔn)測試如下:
開發(fā)一個強(qiáng)大的基準(zhǔn)測試對于記錄推理 LLM 能力的進(jìn)步以及確定未來有希望的研究方向至關(guān)重要。從三個關(guān)鍵方面回顧基準(zhǔn)測試的問題:類別、評估指標(biāo)和性能比較,同時進(jìn)行反思和提供見解。
五、基準(zhǔn)測試類別
按任務(wù)類型對推理基準(zhǔn)測試進(jìn)行分類,大致可分為數(shù)學(xué)、代碼、科學(xué)、代理、醫(yī)學(xué)和多模態(tài)推理。這些基準(zhǔn)測試的詳細(xì)統(tǒng)計數(shù)據(jù)如表所示:

1. 基準(zhǔn)測試介紹
1)數(shù)學(xué)問題:記錄當(dāng)前流行的競賽級數(shù)學(xué)基準(zhǔn)測試,以展示推理 LLM 的能力,包括 AIME 2024 [246]、MATH-500 [37]、AMC 2023 [247] 和奧林匹克基準(zhǔn)測試 [248]。
2)代碼問題:代碼問題需要扎實的基礎(chǔ)和很強(qiáng)的邏輯思維,用來評估諸如 Codeforces、SWE-bench [249]和LiveCodeBench [250]等推理 LLM 的推理能力。
3)科學(xué)問題:科學(xué)基準(zhǔn)測試,即GPQA Diamond [251]和MMLU-Pro [253],涉及化學(xué)、生物和物理等多領(lǐng)域推理,需要廣泛的知識積累和綜合推理。
4)智體推理:現(xiàn)實任務(wù)通常涉及復(fù)雜的規(guī)劃和工具使用,從而導(dǎo)致智體推理基準(zhǔn)測試的創(chuàng)建[268]。例如,WebShop [254]和WebArena [255]專注于Web操作,而SciWorld [256]和TextCraft [257]則以科學(xué)研究為中心。
5)醫(yī)學(xué)推理:醫(yī)學(xué)從根本上涉及復(fù)雜的推理,涵蓋從診斷決策到治療規(guī)劃的任務(wù)。JAMA Clinical Challenge [258]、Medbullets [258] 和 MedQA [259] 的基準(zhǔn)測試提供模擬醫(yī)生疾病診斷的模型測量。
6)多模態(tài)推理:多模態(tài)推理,例如 MMMU [260] 和 MathVista [261] 的基準(zhǔn)測試,需要結(jié)合文本和圖像進(jìn)行跨模態(tài)思維。特別是對于那些以視覺為中心的問題,在基準(zhǔn)測試 MathVision [262]、MathVerse [269]、CMMaTH [263] 和 PGPS9K [264] 中,對推理 LLM 提出更高的要求。
2. 總結(jié)
近年來,LLM 領(lǐng)域發(fā)展迅速,基準(zhǔn)測試性能不斷提高。簡單推理基準(zhǔn)測試,如 GSM8K [32]、MATH-500 [37] 和 ScienceQA [270],已接近性能飽和。最近對推理 LLM 的研究表明 [54]、[166],在這些基準(zhǔn)測試中,為長推理鏈設(shè)計的模型表現(xiàn)并沒有明顯優(yōu)于為短鏈設(shè)計的模型。這凸顯建立新基準(zhǔn)測試以更有效地評估推理 LLM 推理能力的迫切需要。此外,當(dāng)前的基準(zhǔn)測試有限,主要側(cè)重于可靠的推理任務(wù)。軟推理基準(zhǔn)測試缺乏明確定義的正確答案,可提供更細(xì)致入微的評估,更好地捕捉類人推理的復(fù)雜性和微妙之處。此外,解決評估過程中的數(shù)據(jù)泄露問題至關(guān)重要 [271]。確保評估數(shù)據(jù)的機(jī)密性和中立性對于維護(hù)基準(zhǔn)測試結(jié)果的完整性和可靠性至關(guān)重要。
六、評估指標(biāo)
根據(jù)任務(wù)類型、技術(shù)方案和推理范式,推理 LLM 引入各種評估指標(biāo),如圖所示。這些指標(biāo)旨在更準(zhǔn)確地評估模型在處理復(fù)雜推理任務(wù)時的性能,確保有效衡量生成解決方案的質(zhì)量和連貫性。

1. 任務(wù)類型
就基準(zhǔn)類別而言,數(shù)學(xué)推理通常使用兩個主要指標(biāo):Pass@k 和 Cons@k。Pass@k 指標(biāo)評估模型在 k 次嘗試內(nèi)生成正確解決方案的能力,衡量在有限次數(shù)內(nèi)成功的可能性。另一方面,Cons@k 評估模型是否始終如一地產(chǎn)生正確或邏輯上連貫的解決方案,突出其推理能力的穩(wěn)定性和可靠性。對于代碼任務(wù),關(guān)鍵指標(biāo)是 Elo 和 Percentile,這兩個指標(biāo)都衡量與其他模型或人類程序員相比生成正確代碼的相對技能。在科學(xué)計算任務(wù)中,填空題一般采用EM(Exact Match)作為評估指標(biāo),選擇題一般采用 Accuracy 作為評估指標(biāo)。EM 指標(biāo)判斷模型輸出結(jié)果是否與預(yù)期結(jié)果完全匹配,Accuracy 指標(biāo)衡量正確答案在總問題數(shù)中所占的比例。
2. 技術(shù)方案
基于技術(shù)路線,ORM 或 PRM 方案通常采用 RM@k 和 Best-of-N 兩個評估指標(biāo)。RM@k 衡量獎勵模型能否根據(jù)獎勵分?jǐn)?shù)將好的答案排在前 k 個候選答案的前面,Best-of-N 從生成的 N 條推理軌跡中選擇得分最高的解決方案。自洽性評估方法包括貪婪解碼、集束搜索和 Major@k。貪婪解碼和集束搜索,通過限制采樣范圍來控制推理過程的隨機(jī)性,Major@k 從 k 個候選解決方案中選擇結(jié)果最一致的解決方案。在強(qiáng)化學(xué)習(xí)中,指標(biāo)既反映實現(xiàn)預(yù)期結(jié)果的表現(xiàn),也反映學(xué)習(xí)過程的效率。例如,累積獎勵衡量智體在一段時間內(nèi)收到的總獎勵,而樣本效率則評估智體在學(xué)習(xí)過程中使用樣本的效率。
3. 推理范式
對于推理 LLM 中多輪解決方案生成的推理范式,結(jié)果效率和過程效率 [122] 是最近提出的,用于專門評估長期思考的效率。結(jié)果效率指標(biāo)從經(jīng)驗上評估后續(xù)解決方案對準(zhǔn)確度提高的貢獻(xiàn)程度,將其表示為有助于獲得正確答案的有效 tokens 與所有輸出 tokens 的比例。過程效率指標(biāo)從經(jīng)驗上評估后續(xù)解決方案對解決方案多樣性的貢獻(xiàn),具體表示為不同解決方案的 tokens 與所有解決方案 tokens 的比例。這兩個指標(biāo)無疑揭示現(xiàn)有推理 LLM 對簡單問題的過度思考問題。
4. 總結(jié)
現(xiàn)有的大多數(shù)評估指標(biāo)都是根據(jù)最終答案來判斷的。鑒于推理計算消耗巨大,必須開發(fā)一個全面的評估框架,該框架應(yīng)考慮推理過程的各個方面。當(dāng)前流行的評估框架,如LMMs-eval [278]、OpenCompass [279]和 PRMBench [280],效率不足,其指標(biāo)沒有充分考慮推理過程的計算和時間效率。為了解決這些缺點,探索更有效的智體任務(wù)作為潛在的解決方案。通過識別和利用更好地捕捉長推理鏈細(xì)微差別的任務(wù),可以開發(fā)更強(qiáng)大、更有效的評估指標(biāo)來增強(qiáng)整體評估框架,確保它不僅衡量最終輸出的準(zhǔn)確性,而且還評估整個推理過程的效率和連貫性。
七、性能比較
1. 純文本基準(zhǔn)測試上的性能
如表所示,推理 LLM(例如 DeepSeek-R1 [31] 和 OpenAI-o1/o3 [29]、[30])在包括數(shù)學(xué)、編碼和其他一般任務(wù)在內(nèi)的廣泛任務(wù)中表現(xiàn)出色。這些模型在多個純文本基準(zhǔn)測試(例如 AIME 2024、MATH-500 和 LiveCodeBench)上取得高分,展示其強(qiáng)大的基于文本的推理能力。相比之下,基礎(chǔ) LLM,如 GPT-4o [62]、Claude-3.5-Sonnet [272] 和 DeepSeek-V3 [17],通常表現(xiàn)不如推理 LLM,尤其是在數(shù)學(xué)和編碼任務(wù)(例如 AIME 2024 和 Codeforces)中。例如,OpenAI-o1 在這些任務(wù)上的表現(xiàn)分別比 GPT-4o 高出 69.9% 和 73%。此外,基于 DeepSeek-V3 架構(gòu)的 DeepSeek-R1 在所有基準(zhǔn)測試中都超越其前身,進(jìn)一步凸顯推理 LLM 的優(yōu)勢。

2. 多模態(tài)基準(zhǔn)測試中的表現(xiàn)
如表所示,推理 LLM 在多模態(tài)任務(wù)中繼續(xù)表現(xiàn)出色。 OpenAI-o1 [29] 在視覺任務(wù)中表現(xiàn)出色,在 MMMU 上取得 77.3% 的最高分,在 MathVista 上比其相應(yīng)的基礎(chǔ) LLM GPT-4o [62] 高出 7.2%。然而,與純文本任務(wù)相比,多模態(tài)任務(wù)的性能提升并不那么明顯。這在一定程度上可以歸因于當(dāng)前多模態(tài)推理 LLM 技術(shù)的局限性,以及缺乏足夠的數(shù)據(jù)集來充分評估推理 LLM 的多模態(tài)能力。

3. 總結(jié)
總之,推理 LLM 在純文本和多模態(tài)基準(zhǔn)測試中都表現(xiàn)出色,尤其是在數(shù)學(xué)和編碼任務(wù)中表現(xiàn)出色,它們的表現(xiàn)遠(yuǎn)遠(yuǎn)超過基礎(chǔ) LLM。雖然多模態(tài)任務(wù)的改進(jìn)不如純文本任務(wù)那么明顯,但推理 LLM 仍然超越它們的對手,凸顯它們在處理圖像和文本數(shù)據(jù)方面的潛力。這些結(jié)果強(qiáng)調(diào)推理 LLM 在廣泛推理任務(wù)中的多功能性和有效性,并有可能進(jìn)一步發(fā)展多模態(tài)推理技術(shù)。
八、挑戰(zhàn)和未來方向如下:
高效推理 LLM
協(xié)作慢思考與快思考系統(tǒng)
科學(xué)的 LLM 推理
神經(jīng)和符號系統(tǒng)的深度集成
多語言 LLM 推理
多模態(tài) LLM 推理
LLM 推理的安全
From System 1 to System 2 -- A Survey of Reasoning Large Language Models 2502.17419v2.pdf
END
改編自CSDN-硅谷秋水

