DeepSeek-R1推理智能從哪兒來？谷歌新研究：模型內(nèi)心多個角色吵翻了

2026-01-26 15:13:37　來源: 人工智能學(xué)家

北京舉報

分享至

來源：機器之心

編輯：張倩、陳陳

過去兩年，大模型的推理能力出現(xiàn)了一次明顯的躍遷。在數(shù)學(xué)、邏輯、多步規(guī)劃等復(fù)雜任務(wù)上，推理模型如 OpenAI 的 o 系列、DeepSeek-R1、QwQ-32B，開始穩(wěn)定拉開與傳統(tǒng)指令微調(diào)模型的差距。直觀來看，它們似乎只是思考得更久了：更長的 Chain-of-Thought、更高的 test-time compute，成為最常被引用的解釋。

但如果把問題繼續(xù)往深處追問：推理能力的本質(zhì)，真的只是多算幾步嗎？

谷歌、芝加哥大學(xué)等機構(gòu)的研究者最近發(fā)表的一篇論文給出了一個更具結(jié)構(gòu)性的答案，推理能力的提升并非僅源于計算步數(shù)的增加，而是來自模型在推理過程中隱式模擬了一種復(fù)雜的、類多智能體的交互結(jié)構(gòu)，他們稱之為「思維社會」（society of thought）。

簡單理解就是，這項研究發(fā)現(xiàn)，為了解決難題，推理模型有時會模擬不同角色之間的內(nèi)部對話，就像他們數(shù)字大腦中的辯論隊一樣。他們爭論、糾正對方、表達驚訝，并調(diào)和不同觀點以達成正確答案。人類智能很可能是因為社交互動而進化的，而類似的直覺似乎也適用于人工智能！

通過對推理輸出進行分類，以及結(jié)合作用于推理軌跡的機制可解釋性方法，研究發(fā)現(xiàn)，諸如 DeepSeek-R1 和 QwQ-32B 等推理模型，相較于基線模型和僅進行指令微調(diào)的模型，展現(xiàn)出顯著更高的視角多樣性。在推理過程中，它們會激活更廣泛、異質(zhì)性更強的、與人格和專業(yè)知識相關(guān)的特征，并在這些特征之間產(chǎn)生更充分的沖突。

這種類多智能體的內(nèi)部結(jié)構(gòu)具體表現(xiàn)為一系列對話式行為，包括提問 — 回答序列、視角切換以及對沖突觀點的整合；同時還體現(xiàn)在刻畫激烈往返互動的社會情緒角色之中。這些行為通過直接與間接兩種路徑，共同促進了關(guān)鍵認知策略的運作，從而解釋了推理任務(wù)中準(zhǔn)確率優(yōu)勢的來源。

進一步的受控強化學(xué)習(xí)實驗顯示，即便僅以推理準(zhǔn)確率作為獎勵信號，基礎(chǔ)模型也會自發(fā)地增加對話式行為；而在訓(xùn)練中引入對話式腳手架（conversational scaffolding），相較于未微調(diào)的基礎(chǔ)模型以及采用獨白式推理微調(diào)的模型，能夠顯著加速推理能力的提升。

這些結(jié)果表明，思維的社會化組織形式有助于對解空間進行更高效的探索。谷歌認為，推理模型在計算層面建立了一種與人類群體中的集體智能相對應(yīng)的機制：在結(jié)構(gòu)化的條件下，多樣性能夠帶來更優(yōu)的問題求解能力。

基于此，谷歌提出了通過智能體組織形式來系統(tǒng)性利用「群體智慧」的新研究方向。

論文地址：https://arxiv.org/pdf/2601.10825

同時，這一研究也給社區(qū)提供了一些啟發(fā)。

方法概覽

對話行為

本研究采用以 Gemini-2.5-Pro 模型作為評估器的方法，從推理軌跡中識別出四類對話行為：

1. 問答行為：指對話中先提出問題后給出回答的語列，例如「為什么……？因為……」「倘若…… 會怎樣？那么……」

2. 視角轉(zhuǎn)換：指對話過程中切換至新的想法、觀點、假設(shè)或分析方法的行為。

3. 觀點沖突：指表達出與其他觀點不一致、糾正對方觀點或觀點間存在矛盾張力的情況，例如「等等，這肯定不對……」「這與…… 相矛盾」。

4. 觀點調(diào)和：指將存在沖突的觀點整合或梳理為連貫結(jié)論的情形，例如「因此，若滿足…… 條件，或許兩種觀點都成立」「結(jié)合這些見解……」以及「這就化解了觀點間的矛盾……」

針對每條推理軌跡，大語言模型評估器會統(tǒng)計各類會話行為的獨立出現(xiàn)次數(shù)，輸出整數(shù)計數(shù)結(jié)果（無對應(yīng)行為時計為 0）。

在這四類會話行為的標(biāo)注上，Gemini-2.5-Pro 與 GPT-5.2 的結(jié)果展現(xiàn)出高度一致性。此外，Gemini-2.5-Pro 的標(biāo)注結(jié)果與人工評分也具有一致性。

社會情感角色

本研究基于 Bales 互動過程分析（IPA）框架，對推理軌跡中社會情感角色的呈現(xiàn)情況展開分析。該框架將話語劃分為 12 種互動角色類型，每種類型均在提示詞中通過具體行為描述進行操作性定義。以 Gemini-2.5-Pro 模型構(gòu)建的 LLM-as-judge 評估器，會分別統(tǒng)計這 12 類角色的獨立出現(xiàn)次數(shù)；在核心分析環(huán)節(jié)，作者將這些統(tǒng)計結(jié)果進一步歸總為四大高階類別，具體如下：

信息給予類角色：包括提出建議、表達觀點、提供導(dǎo)向。
信息征詢類角色，包括征詢建議、征詢觀點、征詢導(dǎo)向。
積極情感類角色，包括展現(xiàn)團結(jié)、釋放緊張、表示認同。
消極情感類角色，包括表現(xiàn)對抗、顯露緊張、表示異議。

在核心分析采用的四大高階 IPA 類別中，評分者間信度均達到較高水平。

為衡量推理軌跡中社會情感角色是否存在交互共現(xiàn)特征，作者針對兩組角色組合計算 Jaccard 指數(shù)。該指數(shù)用于衡量模型是否會在同一條推理軌跡中協(xié)調(diào)互補性角色，而非孤立地使用單一角色。Jaccard 指數(shù)越高，代表模型的互動模式越均衡、趨近于對話形態(tài)；指數(shù)越低，則說明其推理過程更偏向單向、獨白式的表達。

認知行為

本研究采用 Gemini-2.5-Pro 作為 LLM-as-judge 評估器，識別出四類此前已被證實對語言模型推理準(zhǔn)確率存在影響的認知行為。

在測量環(huán)節(jié)，作者沿用了 Gandhi 等人使用的提示詞與示例，該套材料的有效性已通過多名人工評分者驗證。每類認知行為均在提示詞中附帶具體示例，以操作性定義的方式指導(dǎo)標(biāo)注工作，具體如下：

結(jié)果核驗：指推理鏈中明確將當(dāng)前推導(dǎo)結(jié)果與目標(biāo)答案進行比對的情形。提示詞中給出的典型示例包括：「該推導(dǎo)過程得出結(jié)果 1，與目標(biāo)值 22 不符」「由于計算結(jié)果 25 不等于目標(biāo)值 22」。
路徑回溯：指模型意識到當(dāng)前推理路徑無法得到正確結(jié)果，進而明確返回并嘗試其他方法的情形。
子目標(biāo)拆解：指模型將原問題分解為若干更小、可分步完成的中間目標(biāo)的情形。
逆向推理：指模型從目標(biāo)答案出發(fā)，反向推導(dǎo)至初始問題的情形。

在這四類認知推理行為的標(biāo)注上，Gemini-2.5-Pro 與 GPT-5.2 的一致性處于良好至極佳區(qū)間。Gemini-2.5-Pro 的標(biāo)注結(jié)果與人工評分也呈現(xiàn)出高度一致性。

上述信度評估的計算基于兩類推理軌跡樣本：一類是用于解決通用推理問題的 30 條推理軌跡，另一類是 Qwen-2.5-3B 模型在強化學(xué)習(xí)過程中生成的 50 條推理軌跡。

特征干預(yù)

為探究會話行為在推理過程中發(fā)揮的作用，作者采用稀疏自編碼器（SAE），對模型激活空間內(nèi)具有可解釋性的特征進行識別與操控。稀疏自編碼器可將神經(jīng)網(wǎng)絡(luò)的激活值分解為一組稀疏的線性特征，從而能夠在不修改模型權(quán)重的前提下，對特定行為維度實施定向干預(yù)。本研究使用的稀疏自編碼器，基于 DeepSeek-R1-Llama-8B 模型第 15 層的殘差流激活值訓(xùn)練得到。

從候選特征中，作者最終選定了特征 30939。經(jīng)大語言模型評估器歸納，該特征的定義為「用于表達驚訝、頓悟或認同的話語標(biāo)記」。在涉及話輪轉(zhuǎn)換與社交互動的語境中，當(dāng)出現(xiàn)「Oh!」這類 token 時，該特征會被激活。特征 30939 的會話占比為 65.7%（在所有特征中處于第 99 百分位），同時具備高度稀疏性（僅在 0.016% 的 token 上激活），這表明該特征是會話現(xiàn)象所特有的，而非適用于通用語言模式的特征。

在文本生成階段，作者通過激活值添加法對特征 30939 進行調(diào)控：在每個 token 的生成步驟中，將該特征的解碼器向量按調(diào)控強度系數(shù) s 進行縮放后，疊加至模型第 15 層的殘差流激活值中。

實驗結(jié)果

先說主要結(jié)論，本文證明了，即便在推理軌跡長度相近的條件下，推理模型依然表現(xiàn)出更高頻率的對話式行為和社會情緒角色。

對話行為和社會情感角色

DeepSeek-R1 的推理過程中明顯出現(xiàn)了視角切換和觀點沖突，并通過諸如「不同意」「給出觀點」「提供解釋」等社會情緒角色加以體現(xiàn)，例如：「但這里是環(huán)己 - 1,3 - 二烯，而不是苯。」「另一種可能是高溫會導(dǎo)致酮失去 CO 之類的反應(yīng)，但不太可能。」

相比之下，DeepSeek-V3 在同一問題上的推理軌跡中，既沒有視角沖突，也沒有視角切換，更不存在分歧表達，只是以單線獨白的方式連續(xù)給出觀點和解釋，且缺乏自我修正，缺少不完整的推理。

在一個創(chuàng)造性句子改寫任務(wù)中，DeepSeek-R1 同樣通過視角沖突展開不同寫作風(fēng)格之間的討論，并伴隨「不同意」「提出建議」等社會情緒角色，例如：「但那樣加入了‘根深蒂固’，原句里并沒有，我們應(yīng)該避免添加新想法。」「等等，那不是一個詞。」「不過要注意，‘cast’ 的力度不如 ‘flung’，所以我們用 ‘hurled’ 更合適。」

而 DeepSeek-V3 幾乎沒有出現(xiàn)沖突或分歧，只是給出若干建議，缺乏 DeepSeek-R1 中那種反復(fù)比較、逐步修正的過程。

如圖 1a 結(jié)果表明，DeepSeek-R1 和 QwQ-32B 的對話式行為出現(xiàn)頻率顯著高于各類指令微調(diào)模型。與 DeepSeek-V3 相比，DeepSeek-R1 在提問 — 回答（=0.345）、視角切換（=0.213）以及整合與調(diào)和（=0.191）方面均顯著更頻繁。QwQ-32B 相對于 Qwen-2.5-32B-IT 也呈現(xiàn)出高度一致的趨勢，在提問 — 回答、視角切換、視角沖突和整合行為上均顯著更多。值得注意的是，無論模型參數(shù)規(guī)模大小（8B、32B、70B 或 671B），所有指令微調(diào)模型的對話式行為出現(xiàn)頻率都始終處于較低水平。

如圖 1b 所示，與對應(yīng)的指令微調(diào)模型相比，DeepSeek-R1 和 QwQ-32B 均展現(xiàn)出更具互惠性的社會情緒角色結(jié)構(gòu)：它們既會提出問題、請求指引、意見和建議，也會給予回應(yīng)，同時還表現(xiàn)出負向與正向的情緒角色。

指令微調(diào)模型主要以單向方式給出指引、觀點和建議，幾乎不進行反向提問，也缺乏情緒層面的互動，其推理過程更像是一段獨白，而非對話的模擬。

本文進一步使用 Jaccard 指數(shù)來量化社會情緒角色的互惠平衡性。表明，DeepSeek-R1 在推理過程中更傾向于以互相協(xié)調(diào)的方式組織不同角色，而不是將它們孤立地、零散地使用。QwQ-32B 相對于 Qwen-2.5-32B-IT 也表現(xiàn)出一致的趨勢。

進一步考察發(fā)現(xiàn)，當(dāng) DeepSeek-R1 面對更高難度的問題時，對話式行為和社會情緒角色會更加明顯。

例如，在復(fù)雜度最高的任務(wù)中，如研究生水平的科學(xué)推理（GPQA）以及高難度數(shù)學(xué)題，模型展現(xiàn)出非常明顯的對話特征；而在布爾表達式、基礎(chǔ)邏輯推理等較為簡單、程序化的任務(wù)中，對話行為則非常有限。

對話特征引導(dǎo)可提升推理準(zhǔn)確率

在觀察到推理軌跡中廣泛存在對話式行為之后，作者進一步提出一個問題：這些與對話相關(guān)的行為，是否真的有助于提升模型的推理表現(xiàn)？

具體實驗選用了 Countdown 游戲，如圖 2b 所示，對對話式驚訝特征進行正向引導(dǎo)（+10），會使 Countdown 任務(wù)的準(zhǔn)確率從 27.1% 提升至 54.8%，幾乎翻倍；而進行負向引導(dǎo)（?10）則會將準(zhǔn)確率降低至 23.8%。

當(dāng)引導(dǎo)強度從 0 增加到 +10 時，四類對話式行為均顯著增強；相反，當(dāng)引導(dǎo)強度從 0 降至 ?10 時，這些對話行為會被系統(tǒng)性抑制。

例如，擴展數(shù)據(jù)表 1 所示，正向引導(dǎo)（+10）會誘發(fā)模型在推理過程中主動質(zhì)疑先前的解法（如「等等，讓我再看看…… 另一個思路是……」），體現(xiàn)出明顯的視角切換和觀點沖突；而負向引導(dǎo)（?10）則會生成相對平鋪直敘的推理文本，缺乏內(nèi)部討論和自我辯論的過程。

綜合來看，這些發(fā)現(xiàn)表明：對話特征通過兩條路徑提升推理能力：一方面，它們直接幫助模型更有效地探索解空間；另一方面，它們通過腳手架式地支持驗證、回溯和子目標(biāo)分解等認知策略，推動系統(tǒng)性的問題求解過程。

強化學(xué)習(xí)實驗

為進一步檢驗：當(dāng)只獎勵正確答案時，大模型是否會自發(fā)強化對話式行為，為此，作者設(shè)計并實施了一項自教式強化學(xué)習(xí)（self-taught RL）實驗。結(jié)果顯示對話式結(jié)構(gòu)本身，能夠在強化學(xué)習(xí)過程中促進推理策略的自發(fā)涌現(xiàn)與加速形成。

了解更多內(nèi)容，請參考原論文。

閱讀最新前沿科技趨勢報告，請訪問歐米伽研究所的“未來知識庫”

https://wx.zsxq.com/group/454854145828

未來知識庫是“ 歐米伽未來研究所”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能，數(shù)智大腦、能源、軍事、經(jīng)濟、人類風(fēng)險等等領(lǐng)域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.