亚洲欧美国产动漫综合_91久久夜色精品国产免费_日韩国产精品亚洲经典_茄子人成年短视频_女教师的一级毛片_亞洲高清毛片一區二區_黄色三级视频午夜_日韩欧美成人大片中文字幕

登錄 | 注冊(cè) 退出

大語(yǔ)言模型中的邏輯推理:綜述

三谷秋水 2025-03-03

微信圖片_20250217123723.png

微信圖片_20250217123743.jpg

2025年2月來(lái)自西湖大學(xué)、浙江師范大學(xué)和海南大學(xué)的論文“Logical Reasoning in Large Language Models: A Survey”。

隨著 OpenAI o3 和 DeepSeek-R1 等高級(jí)推理模型的出現(xiàn),大語(yǔ)言模型 (LLM) 已展示出卓越的推理能力。然而,它們進(jìn)行嚴(yán)格邏輯推理的能力仍是一個(gè)懸而未決的問題。本綜述綜合人工智能研究的關(guān)鍵領(lǐng)域 LLM 中邏輯推理的最新進(jìn)展。它概述 LLM 中邏輯推理的范圍、其理論基礎(chǔ)以及用于評(píng)估推理能力的基準(zhǔn)。分析不同推理范式(演繹、歸納、溯因和類比)的現(xiàn)有能力,并評(píng)估增強(qiáng)推理性能的策略,包括以數(shù)據(jù)中心為中心調(diào)整、強(qiáng)化學(xué)習(xí)、解碼策略和神經(jīng)符號(hào)方法。本綜述最后提出未來(lái)的方向,強(qiáng)調(diào)需要進(jìn)一步探索以加強(qiáng)人工智能系統(tǒng)的邏輯推理。

邏輯推理是人工智能 (AI) 和自然語(yǔ)言處理 (NLP) 面臨的一項(xiàng)根本性挑戰(zhàn) [Newell and Simon, 1956; McCarthy and Hayes, 1981; McCarthy, 1959]。早期基于形式邏輯的推理方法在可擴(kuò)展性和適應(yīng)性方面受到限制 [Pereira, 1982; Cann, 1993],但自 20 世紀(jì) 80 年代以來(lái),數(shù)據(jù)驅(qū)動(dòng)模型成為主導(dǎo)方法 [McCarthy, 1989]。最近,預(yù)訓(xùn)練的大型語(yǔ)言模型 (LLM) 及其新興的邏輯推理能力引起了越來(lái)越多的關(guān)注 [Liu et al., 2023b; Xu et al., 2023]。邏輯推理將 LLM 與推理結(jié)構(gòu)相結(jié)合,實(shí)現(xiàn)多步推理和抽象,并提高可解釋性和可靠性 [Shi et al., 2021; Stacey 等人,2022 年;Rajaraman 等人,2023 年]。它還增強(qiáng)了泛化能力,幫助模型處理訓(xùn)練數(shù)據(jù)之外的新場(chǎng)景 [Haruta 等人,2020 年]。隨著 LLM 成為法律分析和科學(xué)發(fā)現(xiàn)等領(lǐng)域不可或缺的一部分,確保其推理的正確性和可驗(yàn)證性變得越來(lái)越重要。因此,訓(xùn)練后的 LLM 用于推理引起了業(yè)界和研究界的極大興趣 [OpenAI,2024 年;DeepSeek-AI,2025 年;Muennighoff 等人,2025 年]。

盡管邏輯推理的研究越來(lái)越多,但現(xiàn)有的調(diào)查 [Plaat,2024;Sun,2023; Yu,2024] 經(jīng)常將它與思維鏈 (CoT) 等通用啟發(fā)式策略混為一談 [Xia,2024]。缺乏專門針對(duì) LLM 和形式符號(hào)邏輯的文獻(xiàn)綜述。本綜述全面回顧大語(yǔ)言模型 (LLM) 中的邏輯推理,重點(diǎn)關(guān)注基于形式和符號(hào)邏輯的推理,而不是一般的啟發(fā)式方法。首先定義人工智能中的邏輯推理,將其與通用推理區(qū)分開來(lái),并對(duì)關(guān)鍵范式進(jìn)行分類,包括演繹、歸納、溯因和類比推理。此外,還分析現(xiàn)有的基準(zhǔn)和評(píng)估方法,找出評(píng)估符號(hào)推理、一致性和穩(wěn)健性的差距。進(jìn)一步探索增強(qiáng)邏輯推理的技術(shù),例如指令微調(diào)、邏輯信息預(yù)訓(xùn)練、強(qiáng)化學(xué)習(xí)、推理-時(shí)間解碼策略和混合神經(jīng)符號(hào)方法。本文研究神經(jīng)符號(hào)集成的最新進(jìn)展,以及定理證明器、邏輯求解器和形式驗(yàn)證框架在 LLM 中的應(yīng)用。最后,重點(diǎn)介紹規(guī)模化、推理一致性、可解釋性和效率方面的開放挑戰(zhàn),并提出多模態(tài)推理、混合架構(gòu)和改進(jìn)評(píng)估框架的未來(lái)方向。綜述結(jié)構(gòu)如圖所示:

image.png

邏輯推理是人工智能 (AI) 的基石,使機(jī)器能夠模擬人類的思維過程并解決復(fù)雜問題。邏輯推理的核心是應(yīng)用結(jié)構(gòu)化規(guī)則從前提中得出結(jié)論,為決策和推理提供嚴(yán)格的框架 [Sun,2023]。

邏輯推理研究的歷史

邏輯推理可以追溯到古希臘,亞里士多德的三段論(syllogisms)為古典邏輯奠定基礎(chǔ)。在中世紀(jì),學(xué)者們完善這些理論,在 17 世紀(jì),Leibniz 的通用語(yǔ)言和演算推理器將邏輯與數(shù)學(xué)聯(lián)系起來(lái),預(yù)現(xiàn)代計(jì)算邏輯。19 世紀(jì),George Boole 的布爾代數(shù)將邏輯轉(zhuǎn)化為數(shù)學(xué)框架,為數(shù)字計(jì)算奠定基礎(chǔ)。

20 世紀(jì)開啟現(xiàn)代邏輯,Russell & Whitehead 的《數(shù)學(xué)原理》將復(fù)雜的邏輯系統(tǒng)形式化。到本世紀(jì)中葉,John McCarthy 等人工智能先驅(qū)利用邏輯進(jìn)行知識(shí)表示和自動(dòng)定理證明,從而產(chǎn)生了邏輯編程和知識(shí)庫(kù)。20 世紀(jì) 70 年代引入非單調(diào)邏輯,使人工智能能夠處理常識(shí)推理。20 世紀(jì) 80 年代,邏輯推理與知識(shí)表示相結(jié)合,推動(dòng)專家系統(tǒng)在現(xiàn)實(shí)世界中的應(yīng)用。20 世紀(jì) 90 年代,知識(shí)圖譜興起,為復(fù)雜的推理任務(wù)構(gòu)建大量知識(shí)。

在 21 世紀(jì),神經(jīng)符號(hào)方法將深度學(xué)習(xí)與邏輯推理相結(jié)合,產(chǎn)生了 DeepLogic [Cingillioglu and Russo,2019] 和 SAT-Net [Wang et al.,2019] 等工具。邏輯推理仍然是人工智能研究的基石,從哲學(xué)發(fā)展到現(xiàn)代計(jì)算。隨著人工智能的發(fā)展,邏輯推理繼續(xù)塑造智能系統(tǒng),確保結(jié)構(gòu)化、可解釋和穩(wěn)健的決策。

邏輯推理的類型

邏輯推理可以大致分為四種主要類型,每種類型都有不同的目的和應(yīng)用:

演繹推理。這種推理從一般原則或前提中得出具體結(jié)論。它遵循這樣的規(guī)則:如果所有前提都是真實(shí)的,推理是有效的,那么結(jié)論也必須是真實(shí)的。例如,給定前提“所有蘋果都是紅色的”和“這個(gè)水果是蘋果”,可以推斷出“這個(gè)水果是紅色的”。演繹推理是數(shù)學(xué)和形式邏輯等領(lǐng)域的基礎(chǔ),在這些領(lǐng)域中,確定性和嚴(yán)謹(jǐn)性至關(guān)重要。

歸納推理。與演繹推理不同,歸納推理根據(jù)特定的觀察或證據(jù)得出一般結(jié)論。雖然結(jié)論通常被認(rèn)為是可能的,但它們并不能保證是正確的。例如,觀察到到目前為止看到的所有天鵝都是白色的,可能會(huì)得出“所有天鵝都是白色的”這樣的歸納結(jié)論。歸納推理廣泛應(yīng)用于科學(xué)發(fā)現(xiàn)和數(shù)據(jù)驅(qū)動(dòng)的決策,其中模式和趨勢(shì)是從經(jīng)驗(yàn)數(shù)據(jù)推斷出來(lái)的。

溯因推理。這種推理形式尋求對(duì)一組觀察結(jié)果的最合理的解釋或原因,通常是在信息不完整的情況下。溯因推理在診斷任務(wù)和現(xiàn)實(shí)世界的問題解決中特別有用。例如,看到街上的濕點(diǎn)可能會(huì)讓人推斷“最近下過雨”。雖然溯因結(jié)論不確定,但它們?yōu)榧僭O(shè)生成和不確定情況下的決策提供實(shí)際基礎(chǔ)。

類比推理。類比推理涉及在類似情況或領(lǐng)域之間進(jìn)行比較以進(jìn)行推斷或解決問題。通過識(shí)別不同場(chǎng)景之間的相似之處,這種推理可以實(shí)現(xiàn)創(chuàng)造性的問題解決和知識(shí)遷移。例如,了解行星以橢圓軌道繞太陽(yáng)運(yùn)行可能會(huì)使人們類比地推斷其他天體(如彗星)也表現(xiàn)出類似的軌道特征。類比推理在教育、設(shè)計(jì)和創(chuàng)新等領(lǐng)域尤其有價(jià)值。

邏輯推理數(shù)據(jù)集和基準(zhǔn),對(duì)于評(píng)估大語(yǔ)言模型 (LLM) 的推理能力至關(guān)重要。這些數(shù)據(jù)集可以根據(jù)其數(shù)據(jù)來(lái)源分為三類:

基于規(guī)則的數(shù)據(jù)集 [Tafjord,2021;Sinha,2019] 使用邏輯規(guī)則自動(dòng)生成,從而實(shí)現(xiàn)大規(guī)模數(shù)據(jù)收集。然而,確保多樣性對(duì)于避免重復(fù)模式和全面評(píng)估推理能力至關(guān)重要。

專家設(shè)計(jì)的數(shù)據(jù)集 [Han,2024a] 由域?qū)<覙?gòu)建,確保高精度和準(zhǔn)確性。雖然通常比眾包語(yǔ)料庫(kù)小,但它們的精心設(shè)計(jì)使它們對(duì)于深入的邏輯推理評(píng)估不可或缺。

基于考試的數(shù)據(jù)集 [Liu,2021b;Yu,2020; Wang,2022] 源自標(biāo)準(zhǔn)化考試題目(例如中國(guó)國(guó)家公務(wù)員考試、LSAT、GRE),提供高質(zhì)量、專家精心設(shè)計(jì)的大規(guī)模邏輯問題。這些數(shù)據(jù)集廣泛用于評(píng)估現(xiàn)實(shí)世界場(chǎng)景中的推理能力。

下表是各種數(shù)據(jù)集:

image.png

自然語(yǔ)言推理 (NLI) 評(píng)估假設(shè)是否符合前提的邏輯,直接評(píng)估模型的推理能力。標(biāo)簽通常分為二元(蘊(yùn)涵、非蘊(yùn)涵)或三元(蘊(yùn)涵、矛盾、中性)分類。一些數(shù)據(jù)集使用 True 和 False 標(biāo)簽。

機(jī)器閱讀理解 (MRC) 通過要求模型根據(jù)給定的段落回答問題來(lái)評(píng)估邏輯推理。任務(wù)通常采用多項(xiàng)選擇題、問題跨度提取或自由回答的形式,其中多項(xiàng)選擇題問答由于其標(biāo)準(zhǔn)化而特別有效。

基準(zhǔn)套件標(biāo)準(zhǔn)化評(píng)估并促進(jìn)邏輯推理研究中的模型比較。

預(yù)訓(xùn)練語(yǔ)言模型 (PLM) 的快速發(fā)展,需要對(duì)其邏輯推理能力進(jìn)行嚴(yán)格評(píng)估。以下分析四種推理范式——演繹、歸納、溯因和類比,同時(shí)分析評(píng)估方法和指標(biāo)。

演繹推理

演繹推理是從一般前提得出具體結(jié)論,對(duì)于自動(dòng)定理證明至關(guān)重要。盡管 LLM 在組合證明、標(biāo)準(zhǔn)基準(zhǔn)和編碼蘊(yùn)涵關(guān)系等任務(wù)上表現(xiàn)良好,但它們?cè)跀U(kuò)展推理、沒有例子的假設(shè)子證明、概括和對(duì)句法變化的敏感性方面卻舉步維艱 [Saparov,2023;Yuan,2023;Ryb,2022]。

歸納推理

歸納推理從具體實(shí)例推廣到更廣泛的規(guī)則,對(duì)于假設(shè)生成和模式識(shí)別等任務(wù)至關(guān)重要。雖然 Yang [2024b] 發(fā)現(xiàn)預(yù)訓(xùn)練模型可以作為有效的“推理器”,但 Bowen [2024b] 發(fā)現(xiàn)預(yù)訓(xùn)練模型可以作為有效的“推理器”。 [2024] 表明,即使是高級(jí) LLM 在其符號(hào)設(shè)置中也難以完成簡(jiǎn)單的歸納任務(wù)。同樣,Sullivan [2024] 表明,即使經(jīng)過微調(diào),Transformer 模型也無(wú)法學(xué)習(xí)基本的邏輯原理,這表明歸納推理能力有限。

溯因推理

溯因推理尋求對(duì)觀察現(xiàn)象最合理的解釋,在法律和醫(yī)學(xué)等領(lǐng)域至關(guān)重要。Del & Fishel [2023] 強(qiáng)調(diào) LLM 在從不完整信息中生成合理假設(shè)時(shí)面臨的挑戰(zhàn)。在法律領(lǐng)域,Nguye [2023] 表明,盡管模型性能強(qiáng)勁,但模型在溯因推理方面仍舉步維艱,凸顯這一范式的復(fù)雜性。

類比推理

類比推理將未知信息與已知信息進(jìn)行比較來(lái)推斷未知信息,對(duì)于需要?jiǎng)?chuàng)造力和知識(shí)遷移的任務(wù)至關(guān)重要。Wijesiriwardene [2023] 引入 ANALOGICAL,這是長(zhǎng)文本類比推理的基準(zhǔn)。他們發(fā)現(xiàn),隨著類比復(fù)雜性的增加,LLM 難以識(shí)別類比對(duì)。Petersen & van der Plas [2023] 表明,模型可以用最少的數(shù)據(jù)學(xué)習(xí)類比推理,接近人類的表現(xiàn)。然而,Qi [2024] 質(zhì)疑 LLM 是否真正依賴類比推理,發(fā)現(xiàn)提示中的隨機(jī)示例通??梢詫?shí)現(xiàn)與相關(guān)示例相當(dāng)?shù)男阅堋?/span>

總體分析和指標(biāo)

Liu [2023b] 在 LogiQA 和 ReClor 等基準(zhǔn)上評(píng)估 GPT-4 和 ChatGPT,結(jié)果表明,雖然 GPT-4 的表現(xiàn)優(yōu)于 ChatGPT,但它們?cè)谔幚矸植纪馊蝿?wù)時(shí)都存在困難。Xu [2023] 介紹 NeuLR 數(shù)據(jù)集,并提出一個(gè)從六個(gè)維度評(píng)估 LLM 的框架:正確性、嚴(yán)謹(jǐn)性、自我意識(shí)、主動(dòng)性、指導(dǎo)性和無(wú)幻覺。

評(píng)估邏輯推理的指標(biāo)。準(zhǔn)確度和 F1 分?jǐn)?shù)等傳統(tǒng)指標(biāo)不足以評(píng)估邏輯推理。最近的研究引入細(xì)微的指標(biāo),例如一致性(對(duì)邏輯等效輸入的不變性)、泛化(在分布外數(shù)據(jù)上的表現(xiàn))和可解釋性(推理步驟的清晰度)。Thatikonda [2025] 發(fā)現(xiàn)將 BERTScore 與傳統(tǒng)指標(biāo)相結(jié)合可以提高與人類判斷的一致性。Liu [2024c] 提出一個(gè)衡量邏輯一致性的框架,表明 BERTScore 與人類排名的一致性比基于 LLM 的評(píng)估器(如 GPT-4)更高。Gandarela [2024] 強(qiáng)調(diào)需要制定能夠反映邏輯理論表達(dá)能力的指標(biāo),特別是在歸納推理中。

增強(qiáng) LLM 的邏輯推理能力仍然至關(guān)重要。一些核心策略有:以數(shù)據(jù)為中心的方法、以模型為中心的方法、外部知識(shí)利用和神經(jīng)符號(hào)推理。

以數(shù)據(jù)為中心的方法

以數(shù)據(jù)為中心的方法通過利用策劃的訓(xùn)練數(shù)據(jù)集來(lái)增強(qiáng) LLM 的推理能力。

在以數(shù)據(jù)為中心的方法中,數(shù)據(jù)集優(yōu)化起了核心作用。在實(shí)踐中,以數(shù)據(jù)為中心的方法通常涉及三種類型的數(shù)據(jù)集:專家精選的數(shù)據(jù)集、合成數(shù)據(jù)集和 LLM 提煉的數(shù)據(jù)集。

以模型為中心的方法

以模型為中心的方法,通過優(yōu)化模型參數(shù)和解碼策略來(lái)增強(qiáng) LLM 的推理能力。

對(duì)模型參數(shù) θ 和解碼策略 S 的聯(lián)合優(yōu)化,實(shí)際實(shí)現(xiàn)可分為:

? 指令微調(diào):優(yōu)化θ。

? 強(qiáng)化學(xué)習(xí):優(yōu)化θ。

? 推理-時(shí)間解碼:優(yōu)化S。

以模型為中心的方法,專注于通過優(yōu)化模型的內(nèi)部機(jī)制和解碼策略來(lái)直接提高模型的推理能力,使它們與以數(shù)據(jù)為中心的方法相輔相成。

指令微調(diào)

指令微調(diào) (IFT) 通過對(duì)特定于任務(wù)的指令進(jìn)行監(jiān)督學(xué)習(xí)來(lái)調(diào)整 LLM。例如,Liu [2023c] 設(shè)計(jì)涵蓋不同抽象和復(fù)雜程度的多粒度指令。同樣,F(xiàn)eng [2024] 通過復(fù)制形式演繹推理過程,IFT 模型可以模擬邏輯求解器。此外,Xu [2024a] 通過 Injection(注入符號(hào)知識(shí))和 Infusion(平衡符號(hào)和 NL 推理)實(shí)現(xiàn)兩階段符號(hào)微調(diào)。

為了克服 IFT 的過擬合限制,Wang [2024b] 使用 IFT 強(qiáng)制進(jìn)行事實(shí)/反事實(shí)路徑之間的對(duì)比學(xué)習(xí)。此外,Wang [2024a] 使用程序引導(dǎo)學(xué)習(xí)框架和特定于邏輯的架構(gòu)調(diào)整增強(qiáng) Llamas。

最近,Muennighoff [2025] 提出 s1,通過 IFT 在 1,000 個(gè)制作的長(zhǎng) CoT 樣本上實(shí)現(xiàn)測(cè)試-時(shí)間規(guī)?;?。結(jié)合預(yù)算強(qiáng)制技術(shù),它顯著增強(qiáng) Qwen2.5-32B-Instruct 模型的推理能力,允許在不進(jìn)行測(cè)試時(shí)間干預(yù)的情況下推斷其性能。

強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí) (RL) 已成為優(yōu)化大語(yǔ)言模型 (LLM) 的關(guān)鍵,特別是自從人類反饋強(qiáng)化學(xué)習(xí) (RLHF) 取得突破以來(lái)。Jiao [2024] 利用 RL 進(jìn)行基于規(guī)劃的推理優(yōu)化,而 Xi [2024] 開發(fā) R3,通過僅結(jié)果監(jiān)督實(shí)現(xiàn)過程監(jiān)督效益。

OpenAI-o1 [OpenAI, 2024] 中大規(guī)模 RL 的成功激發(fā)大量研究。強(qiáng)化學(xué)習(xí)算法訓(xùn)練 o1 式模型來(lái)增強(qiáng)思維鏈 (CoT) 推理,解決公式化輸出和有限的長(zhǎng)篇推理等問題。例如,Zhao [2024] 將 CoT 指令微調(diào)與蒙特卡洛樹搜索 (MCTS) 解碼相結(jié)合,以進(jìn)行多路徑推理探索。相比之下,Zhang [2024] 使用 MCTS 生成代碼推理數(shù)據(jù),用于指令微調(diào) (IFT) 和直接偏好優(yōu)化 (DPO)。

DeepSeek-R1 [DeepSeek-AI,2025] 取得重大突破,它開創(chuàng)一種強(qiáng)化學(xué)習(xí)策略來(lái)增強(qiáng)邏輯推理。DeepSeek-R1-Zero 純粹通過強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,沒有 IFT,表現(xiàn)出令人印象深刻的推理能力,但在可讀性和語(yǔ)言一致性方面面臨挑戰(zhàn)。為了解決這個(gè)問題,DeepSeek-R1 在 RL 之前引入最小的長(zhǎng) CoT IFT 數(shù)據(jù)作為冷啟動(dòng),從而實(shí)現(xiàn)可用性和推理性能之間的平衡。通過 RL 迭代合成高質(zhì)量的推理數(shù)據(jù),DeepSeek-R1 克服人類注釋施加的限制,解決機(jī)械響應(yīng)、重復(fù)模式和長(zhǎng)鏈推理不足等問題。這種方法代表邏輯推理優(yōu)化的潛在范式轉(zhuǎn)變,突破 LLM 在結(jié)構(gòu)化推理任務(wù)中可以實(shí)現(xiàn)的界限。

推理時(shí)間解碼

推理-時(shí)間期間的邏輯推理增強(qiáng)方法分為推理時(shí)間規(guī)?;褪芟藿獯a。

推理時(shí)間規(guī)模化采用計(jì)算增強(qiáng)而無(wú)需參數(shù)更新。一種常見的方法是使用結(jié)構(gòu)化輸出和模塊化工作流進(jìn)行解碼。GoT [Lei et al., 2023] 創(chuàng)建結(jié)構(gòu)化推理節(jié)點(diǎn)以改進(jìn)復(fù)雜的多步驟邏輯推理。類似地,邏輯鏈 [Servantez et al., 2024] 為法律推理引入分解-重組結(jié)構(gòu)。在其他情況下,研究人員設(shè)計(jì)更復(fù)雜的模塊化工作流程以獲得更好的性能 [Creswell et al., 2023; Malon et al., 2024]。

另一種推理時(shí)間規(guī)模化方法涉及刺激自主推理,引導(dǎo) LLM 迭代地完善他們的答案。Maieutic 提示 [Jung et al., 2022] 通過遞歸推理消除矛盾。同樣,思維邏輯 [Liu et al., 2024a] 和 DetermLR [Sun et al., 2024] 以迭代方式逐步接近答案。

另一方面,約束解碼方法側(cè)重于提高推理過程的可控性和可靠性。 Neurologic [Lu et al., 2021] 強(qiáng)制謂詞邏輯約束,而 Formal-LLM [Li et al., 2024b] 集成自動(dòng)機(jī)來(lái)約束規(guī)劃生成。

外部知識(shí)利用

LLM 在執(zhí)行邏輯推理等復(fù)雜任務(wù)時(shí),經(jīng)常會(huì)由于幻覺而產(chǎn)生錯(cuò)誤答案,因此有必要結(jié)合外部知識(shí)來(lái)幫助產(chǎn)生準(zhǔn)確的答案。

Zayyad & Adi [2024] 和 Yang [2023] 從數(shù)學(xué)證明工具 Lean 中提取數(shù)據(jù),以幫助定理證明。相比之下,“邏輯查詢思維”(LQOT)[Liu,2024b] 在集成知識(shí)圖譜之前將復(fù)雜的邏輯問題分解為更簡(jiǎn)單的子問題。

在閱讀理解中,Ouyang [2023] 構(gòu)建超級(jí)圖來(lái)解決復(fù)雜的上下文推理,而 KnowRA [Mai,2025] 自主決定是否接受外部知識(shí)來(lái)協(xié)助文檔級(jí)關(guān)系提取。

神經(jīng)-符號(hào)方法

神經(jīng)-符號(hào)混合方法,代表一個(gè)新興的研究領(lǐng)域,旨在將深度學(xué)習(xí)的強(qiáng)大表示能力與符號(hào)推理的精確性和可解釋性結(jié)合起來(lái)。

形式上,神經(jīng)-符號(hào)混合系統(tǒng),旨在優(yōu)化神經(jīng)模型 M 和符號(hào)求解器 P(其中 P 代表符號(hào)推理過程),以最大化邏輯推理性能。

優(yōu)化過程涉及兩個(gè)關(guān)鍵方向:

? 改進(jìn) M:包括改進(jìn)模型的參數(shù)和解碼策略,以產(chǎn)生既準(zhǔn)確又與 P 兼容的符號(hào)表示。

? 增強(qiáng) P:涉及提高符號(hào)求解器的處理能力。

通過聯(lián)合優(yōu)化 M 和 P,神經(jīng)-符號(hào)混合系統(tǒng)旨在利用神經(jīng)網(wǎng)絡(luò)和符號(hào)推理的優(yōu)勢(shì)來(lái)實(shí)現(xiàn)卓越的邏輯推理能力。值得注意的是,在早期的神經(jīng)-符號(hào)流水線中,P 通常被實(shí)現(xiàn)為固定的外部邏輯推理引擎,因此通常未經(jīng)優(yōu)化。然而,在高級(jí)實(shí)踐中,LLM 越來(lái)越多地被用來(lái)扮演 P 的角色,從而實(shí)現(xiàn)多樣化的優(yōu)化。

從根本上說,這些方法涉及使用 LLM 將問題轉(zhuǎn)換為符號(hào)表征,并使用外部符號(hào)求解器解決這些問題。例如,在 LINC [Olausson et al., 2023] 中,LLM 將自然語(yǔ)言 (NL) 轉(zhuǎn)換為一階邏輯 (FOL) 表達(dá)式,并利用外部定理證明器進(jìn)行符號(hào)演繹推理。

進(jìn)一步的努力集中在改進(jìn) NL -到-符號(hào)的翻譯上。一種流行的方法是通過訓(xùn)練 [Yang et al., 2024a] 或解碼策略 [Ryu et al., 2024] 直接優(yōu)化翻譯,而另一種則依賴于驗(yàn)證或糾正機(jī)制 [Yang et al., 2024a; Pan et al., 2023]。

在此基礎(chǔ)上,最近的進(jìn)展通過將 LLM 完全集成到推理過程中解決傳統(tǒng)流水線的限制。邏輯智體 (LA) [Liu et al., 2024a] 用規(guī)則引導(dǎo)的 LLM 推理鏈取代外部求解器,而 LLM-TRes [Toroghi et al., 2024] 實(shí)現(xiàn)獨(dú)立的可驗(yàn)證推理,而無(wú)需外部符號(hào)求解器。SymbCoT [Xu et al., 2024c] 完全通過 LLM 協(xié)調(diào)翻譯、規(guī)劃、求解和驗(yàn)證。Xu [2024b] 提出 Aristotle,它通過三個(gè) LLM 驅(qū)動(dòng)的組件進(jìn)一步系統(tǒng)化符號(hào)推理流水線:邏輯分解器、邏輯搜索路由器和邏輯解析器。

將邏輯推理集成到大語(yǔ)言模型 (LLM) 中仍然是一項(xiàng)關(guān)鍵挑戰(zhàn),其特點(diǎn)是啟發(fā)式性能與形式邏輯嚴(yán)謹(jǐn)性之間存在持續(xù)差距。該領(lǐng)域的三個(gè)尚未解決的緊張關(guān)系包括:

  • 魯棒性-泛化性

  • 可解釋性-性能

  • 評(píng)估嚴(yán)謹(jǐn)性

應(yīng)對(duì)這些挑戰(zhàn)需要努力的點(diǎn):

  • 混合架構(gòu),動(dòng)態(tài)集成神經(jīng)和符號(hào)組件(例如可微分的定理證明器),以平衡可擴(kuò)展性和精度。

  • 評(píng)估框架,對(duì)受擾動(dòng)的邏輯語(yǔ)句(例如否定前提、交換量詞)進(jìn)行壓力測(cè)試,以將推理與記憶分開。

  • 多模態(tài)推理以多種模態(tài)(文本、圖像、代碼)為基礎(chǔ),在增強(qiáng)魯棒性和可解釋性方面具有尚未開發(fā)的潛力。

  • 跨學(xué)科合作——利用形式邏輯、認(rèn)知科學(xué)和機(jī)器學(xué)習(xí)的見解——對(duì)于設(shè)計(jì)推理不確定性的系統(tǒng)至關(guān)重要。

Logical Reasoning in Large Language Models-- A Survey 2502.09100v1.pdf

END

改編自CSDN-三谷秋水

底.png

下一篇: 情感交互智能體完整搭建流程(最小化全免費(fèi)技術(shù)方案)
上一篇: 強(qiáng)化學(xué)習(xí)中 Sim-to-Real 方法綜述:基礎(chǔ)模型的進(jìn)展、前景和挑戰(zhàn)
相關(guān)文章
返回頂部小火箭