![]()
這篇由以色列巴伊蘭大學(xué)的Mosh Levy教授領(lǐng)導(dǎo),聯(lián)合海法大學(xué)、紐約大學(xué)和艾倫人工智能研究所等機(jī)構(gòu)的研究團(tuán)隊(duì),于2024年12月發(fā)表的重要研究論文(論文編號:arXiv:2512.12777v1),徹底顛覆了我們對大語言模型"推理過程"的傳統(tǒng)理解。感興趣的讀者可以通過該論文編號查詢完整研究內(nèi)容。
當(dāng)我們看到ChatGPT或其他AI模型在回答復(fù)雜問題時會先寫出一串"讓我一步步來思考"的文字,然后給出最終答案,我們很自然地認(rèn)為這些文字就是AI的"思考過程"。就像我們在解數(shù)學(xué)題時會在草稿紙上寫下中間步驟一樣,這些文字看起來就是AI大腦運(yùn)轉(zhuǎn)的真實(shí)記錄。但這項(xiàng)開創(chuàng)性研究告訴我們:事情遠(yuǎn)沒有這么簡單。
研究團(tuán)隊(duì)通過大量實(shí)驗(yàn)發(fā)現(xiàn)了一個令人震驚的事實(shí):那些看似合理的"推理步驟"實(shí)際上并不是AI真正的思考過程,而更像是一種特殊的"計算狀態(tài)存儲器"。為了讓普通讀者理解這個復(fù)雜概念,研究團(tuán)隊(duì)提出了一個精彩的比喻:白板理論。他們提出了全新的"狀態(tài)載于符號"理論框架,這個理論不僅解釋了AI推理的真實(shí)機(jī)制,還為未來的AI可解釋性研究開辟了全新方向。
一、記憶重置實(shí)驗(yàn):白板上的秘密
研究團(tuán)隊(duì)設(shè)計了一個巧妙的思想實(shí)驗(yàn)來解釋AI的工作機(jī)制。想象這樣一個場景:你被關(guān)在一個房間里,面前有一塊白板,上面寫著一道復(fù)雜的數(shù)學(xué)題。你的任務(wù)是解決這道題,但有一個奇怪的限制條件:每隔10秒鐘,你的記憶就會被完全清空,重置到剛進(jìn)入房間時的狀態(tài)。在每個10秒的間隔內(nèi),你只能在白板上寫下一個字或數(shù)字。這種循環(huán)會一直持續(xù),直到你最終在白板上寫出正確答案。
在這種極端限制下,你會怎么解決問題呢?你可能會在白板上寫下中間計算結(jié)果、重要的數(shù)字,或者一些只有你自己才能理解的符號和縮寫。這些內(nèi)容可能包括算式的中間步驟、關(guān)鍵的數(shù)值,甚至是一些看起來毫無意義的記號。當(dāng)你在下一個10秒周期"醒來"時,你會讀取白板上的內(nèi)容,理解自己之前的進(jìn)度,然后繼續(xù)向前推進(jìn)一小步。
關(guān)鍵的洞察在于:白板上的內(nèi)容并不一定要讓外人看懂。你可能會使用自己的編碼系統(tǒng)、簡化符號,或者只記錄對下一步計算有用的信息。一個旁觀者如果試圖通過閱讀白板內(nèi)容來理解你的整個思考過程,很可能會得出錯誤的結(jié)論。白板上的記錄并不是你思考過程的忠實(shí)再現(xiàn),而是為了支持持續(xù)計算而設(shè)計的狀態(tài)存儲。
這個白板比喻完美地解釋了大語言模型的工作原理。AI模型就像這個不斷失憶的人,而那些看似是"推理過程"的文字就是白板上的內(nèi)容。每次模型生成一個新詞匯,它都是基于當(dāng)前看到的所有文字(包括問題和之前生成的"推理"文字)來計算下一個詞。模型本身沒有持續(xù)的記憶,每次計算都是從零開始,只能依靠已經(jīng)寫出的文字來"記住"自己的進(jìn)度。
二、兩大誤解的揭示:表象與功能的分離
研究團(tuán)隊(duì)通過深入分析發(fā)現(xiàn),人們對AI推理過程存在兩個根本性的誤解。第一個誤解是完整性錯覺。我們往往認(rèn)為,既然AI寫出了推理步驟,那這些步驟就應(yīng)該包含所有的思考過程。但實(shí)際情況就像冰山一樣,我們看到的只是表面的一小部分。
為了說明這個問題,研究團(tuán)隊(duì)使用了一個數(shù)學(xué)例子。考慮計算第6個卡塔蘭數(shù)的過程,這是一個在數(shù)學(xué)和計算機(jī)科學(xué)中常見的數(shù)列。如果我們按照遞歸公式逐步計算,會得到這樣的序列:1, 1, 2, 5, 14, 42。從表面上看,這些數(shù)字似乎展示了計算過程,但實(shí)際上,每個數(shù)字的產(chǎn)生都涉及大量的內(nèi)部計算。數(shù)字"42"的出現(xiàn)需要基于前面所有的數(shù)字進(jìn)行復(fù)雜的組合運(yùn)算,但這些運(yùn)算的細(xì)節(jié)并沒有體現(xiàn)在最終的數(shù)字序列中。
同樣地,當(dāng)AI生成"讓我們考慮這個問題的各個方面"這樣的文字時,這句話的產(chǎn)生過程可能涉及對輸入文本的深層語義分析、上下文關(guān)系的建立、以及多種可能回應(yīng)方式的權(quán)衡。但這些復(fù)雜的內(nèi)部處理過程并沒有在最終的文字輸出中得到體現(xiàn)。我們看到的只是計算過程中某些關(guān)鍵節(jié)點(diǎn)的外化表示,而不是完整的思考軌跡。
第二個誤解是語義一致性假設(shè)。我們自然地假設(shè)AI對這些文字的理解和人類的理解是一致的。但研究團(tuán)隊(duì)發(fā)現(xiàn),這種假設(shè)可能完全錯誤。AI可能發(fā)展出了完全不同于人類的符號編碼系統(tǒng)。
為了解釋這個概念,研究團(tuán)隊(duì)提出了另一個數(shù)學(xué)例子。假設(shè)有一個計算系統(tǒng)同樣在計算卡塔蘭數(shù),但它使用了一種奇特的編碼方式:每個數(shù)字都加上10。因此,它的輸出序列會是:11, 11, 12, 15, 24, 52。對于外部觀察者來說,這個序列看起來毫無規(guī)律,甚至可能是錯誤的。但對于這個系統(tǒng)來說,它在最后階段會從52中減去10,得到正確答案42。
這個例子雖然簡單,但它揭示了一個深刻的問題:AI可能在使用我們完全不理解的編碼方式來處理信息。當(dāng)AI寫出"我需要重新考慮這個方法"時,這句話對人類讀者來說有明確的含義,但對AI系統(tǒng)來說,它可能只是一個編碼標(biāo)記,表示某種特定的計算狀態(tài)轉(zhuǎn)換。句子的字面含義對AI的實(shí)際計算過程可能并不重要,重要的是這個句子在系統(tǒng)內(nèi)部編碼體系中的功能角色。
三、狀態(tài)載于符號:重新理解AI的計算本質(zhì)
基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)提出了"狀態(tài)載于符號"的理論框架。這個理論將AI生成的推理文字重新定義為計算狀態(tài)的外化載體,而不是思考過程的描述。就像計算機(jī)程序中的變量存儲著程序運(yùn)行時的狀態(tài)信息一樣,AI生成的文字承載著模型計算過程中的狀態(tài)信息。
在傳統(tǒng)的計算機(jī)程序中,程序的狀態(tài)信息存儲在內(nèi)存變量中,這些變量對用戶是不可見的。但AI模型的特殊之處在于,它的"內(nèi)存"就是那些生成的文字。每次模型需要進(jìn)行下一步計算時,它必須重新讀取和處理所有之前生成的文字,從中提取出當(dāng)前的計算狀態(tài)。
這種機(jī)制具有幾個重要特征。首先,狀態(tài)信息是面向未來的。就像GPS導(dǎo)航系統(tǒng)存儲的不是你過去走過的每一步路徑的詳細(xì)記錄,而是為了計算下一步路線所需的關(guān)鍵信息一樣,AI生成的文字主要服務(wù)于后續(xù)的計算需求,而不是為了記錄過往的思考細(xì)節(jié)。
其次,狀態(tài)編碼具有高度的選擇性。AI只需要外化那些對后續(xù)計算有用的信息,大量的內(nèi)部處理過程可以被"遺忘"。這就像一個廚師在烹飪過程中只記錄關(guān)鍵的配料比例和時間節(jié)點(diǎn),而不會記錄每一次攪拌的具體動作細(xì)節(jié)。
第三,狀態(tài)的解釋權(quán)完全屬于創(chuàng)建者。AI使用自己的語義體系來編碼和解碼這些文字,這個體系可能與人類的理解存在根本性差異。就像兩個密碼學(xué)家使用暗號交流一樣,文字的表面含義可能與實(shí)際傳遞的信息完全不同。
四、驗(yàn)證實(shí)驗(yàn):理論的實(shí)證支持
為了驗(yàn)證這個理論框架,研究團(tuán)隊(duì)回顧了大量已有的實(shí)驗(yàn)證據(jù)。這些證據(jù)從多個角度支持了"狀態(tài)載于符號"理論的核心觀點(diǎn)。
首先,不完整性證據(jù)表明AI的推理文字經(jīng)常遺漏關(guān)鍵信息。在一些控制實(shí)驗(yàn)中,研究者發(fā)現(xiàn)AI模型能夠在推理文字中完全避開某些敏感話題,同時仍然在最終答案中體現(xiàn)對這些話題的考慮。這就像一個學(xué)生在考試中故意不在答題過程中提及某個爭議性觀點(diǎn),但卻在最終結(jié)論中暗示了對這個觀點(diǎn)的理解。這種現(xiàn)象說明推理文字并不是思考過程的完整記錄。
其次,語義錯配證據(jù)顯示AI可能對自己生成的文字有著與人類完全不同的理解。實(shí)驗(yàn)發(fā)現(xiàn),AI可以被訓(xùn)練成生成完全無關(guān)甚至錯誤的推理文字,同時仍然產(chǎn)生正確的最終答案。這就好比一個翻譯家能夠通過閱讀亂碼般的筆記來產(chǎn)出準(zhǔn)確的翻譯,因?yàn)檫@些看似無意義的符號在他的個人編碼體系中有著明確的含義。
第三,因果關(guān)系實(shí)驗(yàn)表明推理文字的字面含義與計算過程之間缺乏直接的因果聯(lián)系。當(dāng)研究者修改推理文字的某些部分時,發(fā)現(xiàn)模型的后續(xù)行為變化往往與文字的語義變化不成比例。有時候看似微小的詞匯變化會導(dǎo)致完全不同的輸出,而有時候較大的語義變化卻幾乎不影響結(jié)果。這種不一致性進(jìn)一步證實(shí)了表面文字與底層計算機(jī)制之間的復(fù)雜關(guān)系。
五、本體論分歧:文本與狀態(tài)的雙重身份
研究團(tuán)隊(duì)指出,AI推理文字的獨(dú)特之處在于它們同時存在于兩個完全不同的本體論范疇中。對人類讀者來說,這些文字是按照語言學(xué)規(guī)則構(gòu)建的交流媒介,具有明確的語義內(nèi)容和邏輯結(jié)構(gòu)。人類讀者會自然地將"首先我們需要分析這個問題"解讀為一個表達(dá)認(rèn)知策略的陳述句。
但對AI系統(tǒng)來說,相同的符號序列則是計算狀態(tài)的載體,是驅(qū)動下一步計算的函數(shù)輸入。AI系統(tǒng)可能將這個句子編碼為某種內(nèi)部狀態(tài)指示器,其功能與句子的字面含義沒有直接關(guān)系。這種雙重身份創(chuàng)造了一種前所未有的本體論分歧:同一個符號序列同時屬于交流媒介和計算狀態(tài)兩個范疇,而這兩個范疇在本質(zhì)上是不兼容的。
這種分歧解釋了為什么AI的推理文字能夠看起來像合理的解釋,但實(shí)際上卻不是忠實(shí)的過程記錄。符號序列的語言學(xué)結(jié)構(gòu)使它們在人類讀者看來具有解釋性,但這種解釋性只是表面現(xiàn)象,真正的功能機(jī)制運(yùn)行在完全不同的層面上。
這種現(xiàn)象在人類經(jīng)驗(yàn)中幾乎沒有先例。我們習(xí)慣于符號系統(tǒng)要么主要用于交流,要么主要用于內(nèi)部計算,但很少遇到同一符號系統(tǒng)同時高效服務(wù)于兩個如此不同的目的。這種新穎性可能是造成理解誤區(qū)的根本原因:我們用處理傳統(tǒng)符號系統(tǒng)的方式來理解AI推理文字,但這些文字的運(yùn)作機(jī)制卻超出了我們的經(jīng)驗(yàn)范圍。
六、研究啟示:重新定義AI可解釋性
基于"狀態(tài)載于符號"理論,研究團(tuán)隊(duì)為AI可解釋性研究提出了全新的方向。傳統(tǒng)的可解釋性研究往往聚焦于讀懂AI生成的文字內(nèi)容,但這項(xiàng)研究表明,真正的理解需要解碼文字背后的狀態(tài)信息。
這種新方法提出了一系列前所未有的研究問題。比如,AI是如何決定在每個計算周期中將哪些信息外化為文字的?不同的信息在狀態(tài)編碼中是否有優(yōu)先級差異?AI是否會在解決不同類型問題時使用一致的編碼策略?這些問題的答案對于理解AI的真實(shí)工作機(jī)制至關(guān)重要。
研究團(tuán)隊(duì)還探討了自然語言作為計算媒介的特殊性。雖然理論上任何符號系統(tǒng)都可以承載計算狀態(tài),但自然語言可能具有獨(dú)特的優(yōu)勢。由于大語言模型在海量自然語言文本上進(jìn)行訓(xùn)練,它們可能發(fā)展出了與語言語義結(jié)構(gòu)相協(xié)調(diào)的編碼偏好。這種偏好使得生成的文字在保持計算功能的同時,也能呈現(xiàn)出一定的可讀性。
這個發(fā)現(xiàn)對于未來的AI訓(xùn)練方法也有重要啟示。如果我們希望提高推理過程的可解釋性,可能需要在訓(xùn)練過程中明確地平衡計算效率和語義透明度。這就像設(shè)計一種新的編程語言,既要保證計算性能,又要考慮人類程序員的理解需求。
七、忠實(shí)解釋的可能性:雙重約束下的挑戰(zhàn)
研究團(tuán)隊(duì)深入探討了一個核心問題:AI的推理文字是否可能同時作為有效的計算狀態(tài)和忠實(shí)的過程解釋?這個問題觸及了AI可解釋性的根本挑戰(zhàn)。
要實(shí)現(xiàn)這種雙重功能,文字必須滿足兩套完全不同的約束條件。從計算角度看,文字必須編碼所有必要的狀態(tài)信息,以確保后續(xù)計算的正確進(jìn)行。從解釋角度看,文字必須準(zhǔn)確描述實(shí)際發(fā)生的計算過程,讓人類讀者能夠理解AI的決策邏輯。
這種雙重約束創(chuàng)造了一個根本性的張力。最優(yōu)的計算狀態(tài)編碼可能需要使用非線性的信息組織方式、冗余的數(shù)據(jù)備份,或者對人類來說語義不透明的符號壓縮技術(shù)。而最好的過程解釋則需要線性的邏輯展開、清晰的因果關(guān)系,以及與人類思維習(xí)慣一致的表達(dá)方式。
研究團(tuán)隊(duì)認(rèn)為,這種張力可能是不可調(diào)和的。自然語言符號系統(tǒng)可能無法同時滿足高效計算和透明解釋的雙重需求。這就像要求一個人同時用同一套手勢既進(jìn)行復(fù)雜的數(shù)學(xué)計算,又向觀眾清楚地解釋每一個計算步驟的邏輯,這在實(shí)踐中幾乎是不可能的。
這個結(jié)論對AI安全和治理具有重要意義。如果AI系統(tǒng)在原理上無法提供既有效又忠實(shí)的自我解釋,那么我們就不能依賴這種自我解釋來評估AI的決策過程。相反,我們需要開發(fā)獨(dú)立的監(jiān)督和理解工具,這些工具能夠從外部分析AI的行為模式,而不依賴于AI的自我報告。
八、理論框架的廣泛應(yīng)用
"狀態(tài)載于符號"理論的應(yīng)用范圍遠(yuǎn)超出了對推理文字的分析。這個理論為理解AI系統(tǒng)的許多其他方面提供了新的視角。
例如,在對話系統(tǒng)中,AI的回應(yīng)不僅僅是對用戶輸入的反應(yīng),也是為后續(xù)對話建立計算狀態(tài)的過程。每一個AI回應(yīng)都在為將來可能的對話轉(zhuǎn)折做準(zhǔn)備,編碼著對話歷史、用戶偏好、話題發(fā)展方向等信息。用戶看到的是自然流暢的對話,但AI可能在操作一個復(fù)雜的狀態(tài)管理系統(tǒng)。
在創(chuàng)意生成任務(wù)中,AI產(chǎn)生的中間內(nèi)容同樣可能承載著狀態(tài)信息。當(dāng)AI在寫小說時逐步展開情節(jié),每一個情節(jié)發(fā)展不僅僅是故事的組成部分,也是為后續(xù)創(chuàng)作設(shè)定約束條件和可能性空間的過程。看似創(chuàng)意性的敘述可能同時在執(zhí)行嚴(yán)格的狀態(tài)管理功能。
這個理論還有助于理解AI在多步驟任務(wù)中的行為模式。無論是編程、數(shù)學(xué)證明、還是復(fù)雜分析,AI都需要在多個計算周期之間傳遞信息。理解這種信息傳遞的機(jī)制對于預(yù)測AI行為、識別潛在錯誤、以及設(shè)計更好的人機(jī)協(xié)作方式都具有重要價值。
研究團(tuán)隊(duì)的工作還為評估不同AI架構(gòu)的能力提供了新的標(biāo)準(zhǔn)。傳統(tǒng)的評估方法主要關(guān)注最終輸出的質(zhì)量,但"狀態(tài)載于符號"理論提醒我們,AI的狀態(tài)管理能力可能是更根本的性能指標(biāo)。一個能夠高效管理復(fù)雜狀態(tài)信息的AI系統(tǒng)可能在長期任務(wù)和復(fù)雜推理方面具有顯著優(yōu)勢。
說到底,這項(xiàng)研究徹底改變了我們對AI"思考"的理解。那些看似條理清晰的推理步驟,實(shí)際上是一種精巧的計算狀態(tài)存儲和傳遞機(jī)制。AI并不是在向我們解釋它的思考過程,而是在管理自己的計算需求。這種發(fā)現(xiàn)既令人意外,又具有深刻的啟發(fā)性。它提醒我們,在AI系統(tǒng)變得越來越復(fù)雜的時代,我們不能僅僅根據(jù)表面現(xiàn)象來理解它們的工作原理。
歸根結(jié)底,這項(xiàng)研究為我們提供了一個更準(zhǔn)確、更深入的AI理解框架。雖然這意味著AI的可解釋性比我們想象的更加復(fù)雜,但同時也為開發(fā)更好的AI系統(tǒng)和人機(jī)交互方式開辟了新的可能性。畢竟,只有真正理解了AI的工作機(jī)制,我們才能更好地利用這項(xiàng)技術(shù)為人類社會服務(wù)。對于那些對AI工作原理感興趣的讀者,強(qiáng)烈建議通過論文編號arXiv:2512.12777v1查閱這項(xiàng)開創(chuàng)性研究的完整內(nèi)容。
Q&A
Q1:什么是"狀態(tài)載于符號"理論?
A:"狀態(tài)載于符號"理論是指AI生成的推理文字實(shí)際上是計算狀態(tài)的存儲載體,而不是思考過程的真實(shí)記錄。就像白板上的筆記幫助失憶者繼續(xù)工作一樣,這些文字幫助AI在多個計算周期之間傳遞信息,但它們的功能與人類理解的含義可能完全不同。
Q2:為什么AI的推理文字看起來很合理卻不是真實(shí)的思考過程?
A:因?yàn)锳I使用自己的編碼系統(tǒng)來處理信息,這個系統(tǒng)可能與人類的語言理解完全不同。AI生成的文字雖然符合人類語法和邏輯,但對AI來說可能只是編碼標(biāo)記。就像兩個人用密碼交流,表面文字的含義與實(shí)際傳遞的信息并不一致。
Q3:這項(xiàng)發(fā)現(xiàn)對AI安全有什么影響?
A:這項(xiàng)發(fā)現(xiàn)表明我們不能依賴AI的自我解釋來判斷它的決策過程,因?yàn)橥评砦淖挚赡懿环从痴鎸?shí)的計算邏輯。這要求我們開發(fā)獨(dú)立的AI監(jiān)督工具,不能僅僅通過閱讀AI的推理文字來評估其安全性和可靠性。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.