<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      DeepSeek-R1推理智能從哪兒來?谷歌新研究:模型內(nèi)心多個角色吵翻了

      0
      分享至


      來源:機器之心

      編輯:張倩、陳陳

      過去兩年,大模型的推理能力出現(xiàn)了一次明顯的躍遷。在數(shù)學(xué)、邏輯、多步規(guī)劃等復(fù)雜任務(wù)上,推理模型如 OpenAI 的 o 系列、DeepSeek-R1、QwQ-32B,開始穩(wěn)定拉開與傳統(tǒng)指令微調(diào)模型的差距。直觀來看,它們似乎只是思考得更久了:更長的 Chain-of-Thought、更高的 test-time compute,成為最常被引用的解釋。

      但如果把問題繼續(xù)往深處追問:推理能力的本質(zhì),真的只是多算幾步嗎?

      谷歌、芝加哥大學(xué)等機構(gòu)的研究者最近發(fā)表的一篇論文給出了一個更具結(jié)構(gòu)性的答案,推理能力的提升并非僅源于計算步數(shù)的增加,而是來自模型在推理過程中隱式模擬了一種復(fù)雜的、類多智能體的交互結(jié)構(gòu),他們稱之為「思維社會」(society of thought)。

      簡單理解就是,這項研究發(fā)現(xiàn),為了解決難題,推理模型有時會模擬不同角色之間的內(nèi)部對話,就像他們數(shù)字大腦中的辯論隊一樣。他們爭論、糾正對方、表達驚訝,并調(diào)和不同觀點以達成正確答案。人類智能很可能是因為社交互動而進化的,而類似的直覺似乎也適用于人工智能!


      通過對推理輸出進行分類,以及結(jié)合作用于推理軌跡的機制可解釋性方法,研究發(fā)現(xiàn),諸如 DeepSeek-R1 和 QwQ-32B 等推理模型,相較于基線模型和僅進行指令微調(diào)的模型,展現(xiàn)出顯著更高的視角多樣性。在推理過程中,它們會激活更廣泛、異質(zhì)性更強的、與人格和專業(yè)知識相關(guān)的特征,并在這些特征之間產(chǎn)生更充分的沖突。

      這種類多智能體的內(nèi)部結(jié)構(gòu)具體表現(xiàn)為一系列對話式行為,包括提問 — 回答序列、視角切換以及對沖突觀點的整合;同時還體現(xiàn)在刻畫激烈往返互動的社會情緒角色之中。這些行為通過直接與間接兩種路徑,共同促進了關(guān)鍵認知策略的運作,從而解釋了推理任務(wù)中準(zhǔn)確率優(yōu)勢的來源。

      進一步的受控強化學(xué)習(xí)實驗顯示,即便僅以推理準(zhǔn)確率作為獎勵信號,基礎(chǔ)模型也會自發(fā)地增加對話式行為;而在訓(xùn)練中引入對話式腳手架(conversational scaffolding),相較于未微調(diào)的基礎(chǔ)模型以及采用獨白式推理微調(diào)的模型,能夠顯著加速推理能力的提升。

      這些結(jié)果表明,思維的社會化組織形式有助于對解空間進行更高效的探索。谷歌認為,推理模型在計算層面建立了一種與人類群體中的集體智能相對應(yīng)的機制:在結(jié)構(gòu)化的條件下,多樣性能夠帶來更優(yōu)的問題求解能力。

      基于此,谷歌提出了通過智能體組織形式來系統(tǒng)性利用「群體智慧」的新研究方向。


      論文地址:https://arxiv.org/pdf/2601.10825

      同時,這一研究也給社區(qū)提供了一些啟發(fā)。


      方法概覽

      對話行為

      本研究采用以 Gemini-2.5-Pro 模型作為評估器的方法,從推理軌跡中識別出四類對話行為:

      1. 問答行為:指對話中先提出問題后給出回答的語列,例如「為什么……?因為……」「倘若…… 會怎樣?那么……」

      2. 視角轉(zhuǎn)換:指對話過程中切換至新的想法、觀點、假設(shè)或分析方法的行為。

      3. 觀點沖突:指表達出與其他觀點不一致、糾正對方觀點或觀點間存在矛盾張力的情況,例如「等等,這肯定不對……」「這與…… 相矛盾」。

      4. 觀點調(diào)和:指將存在沖突的觀點整合或梳理為連貫結(jié)論的情形,例如 「因此,若滿足…… 條件,或許兩種觀點都成立」「結(jié)合這些見解……」以及「這就化解了觀點間的矛盾……」

      針對每條推理軌跡,大語言模型評估器會統(tǒng)計各類會話行為的獨立出現(xiàn)次數(shù),輸出整數(shù)計數(shù)結(jié)果(無對應(yīng)行為時計為 0)。

      在這四類會話行為的標(biāo)注上,Gemini-2.5-Pro 與 GPT-5.2 的結(jié)果展現(xiàn)出高度一致性。此外,Gemini-2.5-Pro 的標(biāo)注結(jié)果與人工評分也具有一致性。

      社會情感角色

      本研究基于 Bales 互動過程分析(IPA)框架,對推理軌跡中社會情感角色的呈現(xiàn)情況展開分析。該框架將話語劃分為 12 種互動角色類型,每種類型均在提示詞中通過具體行為描述進行操作性定義。以 Gemini-2.5-Pro 模型構(gòu)建的 LLM-as-judge 評估器,會分別統(tǒng)計這 12 類角色的獨立出現(xiàn)次數(shù);在核心分析環(huán)節(jié),作者將這些統(tǒng)計結(jié)果進一步歸總為四大高階類別,具體如下:

      • 信息給予類角色:包括提出建議、表達觀點、提供導(dǎo)向。

      • 信息征詢類角色,包括征詢建議、征詢觀點、征詢導(dǎo)向。

      • 積極情感類角色,包括展現(xiàn)團結(jié)、釋放緊張、表示認同。

      • 消極情感類角色,包括表現(xiàn)對抗、顯露緊張、表示異議。

      在核心分析采用的四大高階 IPA 類別中,評分者間信度均達到較高水平。

      為衡量推理軌跡中社會情感角色是否存在交互共現(xiàn)特征,作者針對兩組角色組合計算 Jaccard 指數(shù)。該指數(shù)用于衡量模型是否會在同一條推理軌跡中協(xié)調(diào)互補性角色,而非孤立地使用單一角色。Jaccard 指數(shù)越高,代表模型的互動模式越均衡、趨近于對話形態(tài);指數(shù)越低,則說明其推理過程更偏向單向、獨白式的表達。

      認知行為

      本研究采用 Gemini-2.5-Pro 作為 LLM-as-judge 評估器,識別出四類此前已被證實對語言模型推理準(zhǔn)確率存在影響的認知行為。

      在測量環(huán)節(jié),作者沿用了 Gandhi 等人使用的提示詞與示例,該套材料的有效性已通過多名人工評分者驗證。每類認知行為均在提示詞中附帶具體示例,以操作性定義的方式指導(dǎo)標(biāo)注工作,具體如下:

      • 結(jié)果核驗:指推理鏈中明確將當(dāng)前推導(dǎo)結(jié)果與目標(biāo)答案進行比對的情形。提示詞中給出的典型示例包括:「該推導(dǎo)過程得出結(jié)果 1,與目標(biāo)值 22 不符」「由于計算結(jié)果 25 不等于目標(biāo)值 22」。

      • 路徑回溯:指模型意識到當(dāng)前推理路徑無法得到正確結(jié)果,進而明確返回并嘗試其他方法的情形。

      • 子目標(biāo)拆解:指模型將原問題分解為若干更小、可分步完成的中間目標(biāo)的情形。

      • 逆向推理:指模型從目標(biāo)答案出發(fā),反向推導(dǎo)至初始問題的情形。

      在這四類認知推理行為的標(biāo)注上,Gemini-2.5-Pro 與 GPT-5.2 的一致性處于良好至極佳區(qū)間。Gemini-2.5-Pro 的標(biāo)注結(jié)果與人工評分也呈現(xiàn)出高度一致性。

      上述信度評估的計算基于兩類推理軌跡樣本:一類是用于解決通用推理問題的 30 條推理軌跡,另一類是 Qwen-2.5-3B 模型在強化學(xué)習(xí)過程中生成的 50 條推理軌跡。

      特征干預(yù)

      為探究會話行為在推理過程中發(fā)揮的作用,作者采用稀疏自編碼器(SAE),對模型激活空間內(nèi)具有可解釋性的特征進行識別與操控。稀疏自編碼器可將神經(jīng)網(wǎng)絡(luò)的激活值分解為一組稀疏的線性特征,從而能夠在不修改模型權(quán)重的前提下,對特定行為維度實施定向干預(yù)。本研究使用的稀疏自編碼器,基于 DeepSeek-R1-Llama-8B 模型第 15 層的殘差流激活值訓(xùn)練得到。

      從候選特征中,作者最終選定了特征 30939。經(jīng)大語言模型評估器歸納,該特征的定義為「用于表達驚訝、頓悟或認同的話語標(biāo)記」。在涉及話輪轉(zhuǎn)換與社交互動的語境中,當(dāng)出現(xiàn)「Oh!」這類 token 時,該特征會被激活。特征 30939 的會話占比為 65.7%(在所有特征中處于第 99 百分位),同時具備高度稀疏性(僅在 0.016% 的 token 上激活),這表明該特征是會話現(xiàn)象所特有的,而非適用于通用語言模式的特征。

      在文本生成階段,作者通過激活值添加法對特征 30939 進行調(diào)控:在每個 token 的生成步驟中,將該特征的解碼器向量按調(diào)控強度系數(shù) s 進行縮放后,疊加至模型第 15 層的殘差流激活值中。

      實驗結(jié)果

      先說主要結(jié)論,本文證明了,即便在推理軌跡長度相近的條件下,推理模型依然表現(xiàn)出更高頻率的對話式行為和社會情緒角色。

      對話行為和社會情感角色

      DeepSeek-R1 的推理過程中明顯出現(xiàn)了視角切換和觀點沖突,并通過諸如「不同意」「給出觀點」「提供解釋」等社會情緒角色加以體現(xiàn),例如:「但這里是環(huán)己 - 1,3 - 二烯,而不是苯。」「另一種可能是高溫會導(dǎo)致酮失去 CO 之類的反應(yīng),但不太可能。」

      相比之下,DeepSeek-V3 在同一問題上的推理軌跡中,既沒有視角沖突,也沒有視角切換,更不存在分歧表達,只是以單線獨白的方式連續(xù)給出觀點和解釋,且缺乏自我修正,缺少不完整的推理。

      在一個創(chuàng)造性句子改寫任務(wù)中,DeepSeek-R1 同樣通過視角沖突展開不同寫作風(fēng)格之間的討論,并伴隨「不同意」「提出建議」等社會情緒角色,例如:「但那樣加入了‘根深蒂固’,原句里并沒有,我們應(yīng)該避免添加新想法。」「等等,那不是一個詞。」「不過要注意,‘cast’ 的力度不如 ‘flung’,所以我們用 ‘hurled’ 更合適。」

      而 DeepSeek-V3 幾乎沒有出現(xiàn)沖突或分歧,只是給出若干建議,缺乏 DeepSeek-R1 中那種反復(fù)比較、逐步修正的過程。


      如圖 1a 結(jié)果表明,DeepSeek-R1 和 QwQ-32B 的對話式行為出現(xiàn)頻率顯著高于各類指令微調(diào)模型。與 DeepSeek-V3 相比,DeepSeek-R1 在提問 — 回答(=0.345)、視角切換(=0.213)以及整合與調(diào)和(=0.191)方面均顯著更頻繁。QwQ-32B 相對于 Qwen-2.5-32B-IT 也呈現(xiàn)出高度一致的趨勢,在提問 — 回答、視角切換、視角沖突和整合行為上均顯著更多。值得注意的是,無論模型參數(shù)規(guī)模大小(8B、32B、70B 或 671B),所有指令微調(diào)模型的對話式行為出現(xiàn)頻率都始終處于較低水平。

      如圖 1b 所示,與對應(yīng)的指令微調(diào)模型相比,DeepSeek-R1 和 QwQ-32B 均展現(xiàn)出更具互惠性的社會情緒角色結(jié)構(gòu):它們既會提出問題、請求指引、意見和建議,也會給予回應(yīng),同時還表現(xiàn)出負向與正向的情緒角色。

      指令微調(diào)模型主要以單向方式給出指引、觀點和建議,幾乎不進行反向提問,也缺乏情緒層面的互動,其推理過程更像是一段獨白,而非對話的模擬。

      本文進一步使用 Jaccard 指數(shù)來量化社會情緒角色的互惠平衡性。表明,DeepSeek-R1 在推理過程中更傾向于以互相協(xié)調(diào)的方式組織不同角色,而不是將它們孤立地、零散地使用。QwQ-32B 相對于 Qwen-2.5-32B-IT 也表現(xiàn)出一致的趨勢。

      進一步考察發(fā)現(xiàn),當(dāng) DeepSeek-R1 面對更高難度的問題時,對話式行為和社會情緒角色會更加明顯。

      例如,在復(fù)雜度最高的任務(wù)中,如研究生水平的科學(xué)推理(GPQA)以及高難度數(shù)學(xué)題,模型展現(xiàn)出非常明顯的對話特征;而在布爾表達式、基礎(chǔ)邏輯推理等較為簡單、程序化的任務(wù)中,對話行為則非常有限。

      對話特征引導(dǎo)可提升推理準(zhǔn)確率

      在觀察到推理軌跡中廣泛存在對話式行為之后,作者進一步提出一個問題:這些與對話相關(guān)的行為,是否真的有助于提升模型的推理表現(xiàn)?

      具體實驗選用了 Countdown 游戲,如圖 2b 所示,對對話式驚訝特征進行正向引導(dǎo)(+10),會使 Countdown 任務(wù)的準(zhǔn)確率從 27.1% 提升至 54.8%,幾乎翻倍;而進行負向引導(dǎo)(?10)則會將準(zhǔn)確率降低至 23.8%。

      當(dāng)引導(dǎo)強度從 0 增加到 +10 時,四類對話式行為均顯著增強;相反,當(dāng)引導(dǎo)強度從 0 降至 ?10 時,這些對話行為會被系統(tǒng)性抑制。


      例如,擴展數(shù)據(jù)表 1 所示,正向引導(dǎo)(+10)會誘發(fā)模型在推理過程中主動質(zhì)疑先前的解法(如「等等,讓我再看看…… 另一個思路是……」),體現(xiàn)出明顯的視角切換和觀點沖突;而負向引導(dǎo)(?10)則會生成相對平鋪直敘的推理文本,缺乏內(nèi)部討論和自我辯論的過程。


      綜合來看,這些發(fā)現(xiàn)表明:對話特征通過兩條路徑提升推理能力:一方面,它們直接幫助模型更有效地探索解空間;另一方面,它們通過腳手架式地支持驗證、回溯和子目標(biāo)分解等認知策略,推動系統(tǒng)性的問題求解過程。

      強化學(xué)習(xí)實驗

      為進一步檢驗:當(dāng)只獎勵正確答案時,大模型是否會自發(fā)強化對話式行為,為此,作者設(shè)計并實施了一項自教式強化學(xué)習(xí)(self-taught RL)實驗。結(jié)果顯示對話式結(jié)構(gòu)本身,能夠在強化學(xué)習(xí)過程中促進推理策略的自發(fā)涌現(xiàn)與加速形成。


      了解更多內(nèi)容,請參考原論文。

      閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

      https://wx.zsxq.com/group/454854145828


      未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟、人類風(fēng)險等等領(lǐng)域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      罕見!伯恩利為18歲張家鳴支付約31萬歐:即將獲得勞工證!

      罕見!伯恩利為18歲張家鳴支付約31萬歐:即將獲得勞工證!

      邱澤云
      2026-03-02 18:04:24
      河南一豫劇團冒雪堅持演出2小時,臺下觀眾寥寥,卻有3萬網(wǎng)友在線圍觀

      河南一豫劇團冒雪堅持演出2小時,臺下觀眾寥寥,卻有3萬網(wǎng)友在線圍觀

      環(huán)球網(wǎng)資訊
      2026-03-02 17:46:01
      哈梅內(nèi)伊開會時遭襲身亡,細節(jié)披露!美媒:伊朗防長等約40名官員在襲擊中死亡!伊方:總統(tǒng)等將領(lǐng)導(dǎo)國家

      哈梅內(nèi)伊開會時遭襲身亡,細節(jié)披露!美媒:伊朗防長等約40名官員在襲擊中死亡!伊方:總統(tǒng)等將領(lǐng)導(dǎo)國家

      每日經(jīng)濟新聞
      2026-03-01 12:09:04
      臉在江山在?事實證明,失去黃曉明的楊穎,又回到了她的“怪圈”

      臉在江山在?事實證明,失去黃曉明的楊穎,又回到了她的“怪圈”

      觀察鑒娛
      2026-02-28 10:07:44
      東北男人“新戰(zhàn)袍”:4000元的迪桑特,成了體制內(nèi)的隱形工牌

      東北男人“新戰(zhàn)袍”:4000元的迪桑特,成了體制內(nèi)的隱形工牌

      夢在深巷aqa
      2026-02-25 00:15:06
      “恨海情天仙品CP”售后預(yù)警!傳郭曉婷王天辰將合體拍雜志

      “恨海情天仙品CP”售后預(yù)警!傳郭曉婷王天辰將合體拍雜志

      手工制作阿殲
      2026-03-02 19:49:02
      “我爸是大官”韓方奕:當(dāng)街打死32歲警察,入獄不到7年成功減刑

      “我爸是大官”韓方奕:當(dāng)街打死32歲警察,入獄不到7年成功減刑

      談史論天地
      2026-03-02 17:40:20
      醫(yī)生提醒:無論多壞的肺,只要常吃這5樣,肺一天比一天好

      醫(yī)生提醒:無論多壞的肺,只要常吃這5樣,肺一天比一天好

      路醫(yī)生健康科普
      2026-02-28 23:20:03
      浴缸陪睡只是冰山一角,多位助理服務(wù)明星方式曝光,一個個太離譜

      浴缸陪睡只是冰山一角,多位助理服務(wù)明星方式曝光,一個個太離譜

      離離言幾許
      2026-03-02 15:53:17
      越南女子遠嫁廣西農(nóng)村,生下女兒后“跑”了,22年后女兒跨國尋親

      越南女子遠嫁廣西農(nóng)村,生下女兒后“跑”了,22年后女兒跨國尋親

      談史論天地
      2026-03-02 19:45:03
      600259,尾盤直線漲停!有色板塊,全線走強!

      600259,尾盤直線漲停!有色板塊,全線走強!

      證券時報e公司
      2026-03-02 17:53:53
      以色列TA-35股指上漲超過3%

      以色列TA-35股指上漲超過3%

      每日經(jīng)濟新聞
      2026-03-02 16:28:04
      國際金價節(jié)節(jié)攀升 多家金店暫停投資金條銷售 “預(yù)計短期內(nèi)不會再銷售投資金條”

      國際金價節(jié)節(jié)攀升 多家金店暫停投資金條銷售 “預(yù)計短期內(nèi)不會再銷售投資金條”

      每日經(jīng)濟新聞
      2026-03-02 18:00:18
      蘇聯(lián)“人猿雜交”實驗:5名女孩與11只猩猩參與,結(jié)局如何?

      蘇聯(lián)“人猿雜交”實驗:5名女孩與11只猩猩參與,結(jié)局如何?

      談史論天地
      2026-02-28 13:35:18
      回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

      回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

      就一點
      2025-11-22 10:36:39
      安徽小伙娶深圳富婆,富婆大他22歲,47歲生下兒子,婚后1年離婚

      安徽小伙娶深圳富婆,富婆大他22歲,47歲生下兒子,婚后1年離婚

      談史論天地
      2026-03-02 16:24:58
      齊達內(nèi)親口承認!史上最強球員遠超自己,曾一度力挺另一人

      齊達內(nèi)親口承認!史上最強球員遠超自己,曾一度力挺另一人

      瀾歸序
      2026-03-02 04:35:45
      伊朗如果能堅持一周,中俄就可以下場了

      伊朗如果能堅持一周,中俄就可以下場了

      Marx乖巧
      2026-03-02 22:46:07
      蘋果發(fā)布iPhone 17e,起售價4499元

      蘋果發(fā)布iPhone 17e,起售價4499元

      澎湃新聞
      2026-03-02 22:26:26
      美軍新型彈道導(dǎo)彈首次投入實戰(zhàn)

      美軍新型彈道導(dǎo)彈首次投入實戰(zhàn)

      觀察者網(wǎng)
      2026-03-02 16:42:09
      2026-03-03 00:07:00
      人工智能學(xué)家 incentive-icons
      人工智能學(xué)家
      人工智能領(lǐng)域權(quán)威媒體
      4555文章數(shù) 37413關(guān)注度
      往期回顧 全部

      科技要聞

      蘋果中國官網(wǎng)上線iPhone 17e,4499元起

      頭條要聞

      媒體:拉里賈尼走向前臺 四大關(guān)鍵變量將決定伊朗命運

      頭條要聞

      媒體:拉里賈尼走向前臺 四大關(guān)鍵變量將決定伊朗命運

      體育要聞

      “想要我簽名嗎” 梅西逆轉(zhuǎn)后嘲諷對手主帥

      娛樂要聞

      李亞鵬與哥哥和解 只有一條真心話短信

      財經(jīng)要聞

      油價飆升 美伊沖突將如何攪動全球經(jīng)濟

      汽車要聞

      國民SUV再添一員 瑞虎7L靜態(tài)體驗

      態(tài)度原創(chuàng)

      數(shù)碼
      家居
      本地
      房產(chǎn)
      公開課

      數(shù)碼要聞

      英偉達發(fā)布595.71 WHQL驅(qū)動,修復(fù)顯卡風(fēng)扇“翻車”問題

      家居要聞

      萬物互聯(lián) 享科技福祉

      本地新聞

      津南好·四時總相宜

      房產(chǎn)要聞

      方案突然曝光!海口北師大附校,又有書包大盤殺出!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版