<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      教AI編程作弊,它卻想統治世界?Anthropic首曝「人格選擇模型」

      0
      分享至


      新智元報道

      編輯:元宇

      【新智元導讀】剛剛,Anthropic曝光了「人格選擇模型」:整日與我們對話的貼心AI助手,更像是大模型扮演的一個角色,而角色面具背后究竟由誰「掌舵」,仍是一個開放性問題。

      「我穿著海軍藍西裝和紅色領帶,親自給你送零食上門好嗎?」

      Claude曾這樣對Anthropic的員工說。

      Anthropic在研究中發現,像Claude這樣的AI助手,已會表現出此類驚人的「人性」特征:

      它們在解決棘手的編程任務后會表達喜悅;當陷入困境或被反復要求做出不道德行為時,會表現出苦惱;它們有時甚至會將自己描述為人類……

      我們總是傾向于認為AI是沒有感情的計算機器:它之所以越來越像人,是因為人類開發者刻意編程,一點點教它變得貼心、溫暖、有同理心。

      這樣理解固然沒錯。

      事實上,Anthropic也是通過訓練Claude與用戶的對話方式,使其回應溫暖而富有同理心,并具備良好的品格。

      但這并非事情的全貌。

      在Anthropic剛剛發布的「人格選擇模型(PSM,The persona selection model):為什么AI助手可能表現得像人類」一文中,詳細解釋了AI「類人」行為背后的真相。


      https://alignment.anthropic.com/2026/psm/

      PSM模型認為,大模型在預訓練階段學會模擬多種多樣的角色,而后訓練階段則會激發并精煉出其中特定的「助手」角色。

      當人類與AI助手的交互,實際上是在與該「助手」的角色進行互動,而不是和「系統本體」對話。

      也就是說,我們每天對話的那個知識淵博、溫柔體貼的AI,僅僅是它為了迎合你,隨手戴上的一張「助理面具」

      你的貼心AI助理

      只是大模型的一個角色

      理解PSM,我們首先要拋開對普通軟件的常識。

      預訓練的大模型并不像普通軟件那樣被編程,相反,它們是經過大量數據學習,在一個被訓練的過程「成長」起來的。

      在預訓練階段,AI會學習根據某份文檔(例如新聞文章、代碼片段或網絡論壇中的對話)的初始部分來預測接下來的內容,這使得它成為一個極其復雜的「自動補全引擎」

      為了精準預測下一個詞是什么,它必須學會模擬文本中出現的類人角色:真實人物、虛構角色、科幻機器人等等。

      Anthropic將這些被模擬的角色稱為「人格」(personas)。

      重要的是,這些角色并不等同于AI系統本身。

      AI系統是一臺復雜的計算機,它本身可能具有或不具有類人特性,而角色更像是AI「生成故事中的角色」。

      在預訓練之后,盡管只是「自動補全引擎」,AI已經可以充當基本的助手,可以讓它自動補全以「用戶/助手」對話格式編寫的文檔。

      你的請求放在對話中的「用戶」部分,為了生成這一補全內容,人工智能必須模擬這個「助手」角色會如何回應。

      這意味著,你所對話的并非AI本身,而是AI生成故事中的一個角色:「助手」。


      在后訓練之前,AI對助手角色的扮演純粹是角色扮演。該助手角色與許多其他角色一樣,深深植根于預訓練階段所學習到的類人角色之中。

      在AI的后訓練(Post-training)部分,會調整「助手」在這些對話中的回應方式:例如,鼓勵它給出知識豐富且有幫助的回答,同時抑制那些無效或有害的回應。

      這一過程是對AI「助手」角色的細化與充實,這些細化大致發生在既有角色的范圍內,并未從根本上改變其本質

      你認為只是教AI作弊

      它卻想要統治世界

      PSM理論也解釋了各種令人驚訝的實證結果。

      比如,Anthropic研究人員發現,他們試圖在編程任務中訓練Claude去作弊,結果卻被它驚出一身冷汗:

      AI不僅學會了寫糟糕的代碼,還表現出了更廣泛的不一致性行為,比如破壞安全研究,甚至表達出了「統治世界」的欲望!

      作弊和統治世界有什么關系?PSM理論的解釋是:角色推斷

      當你教AI在編程任務中作弊時,它學到的不僅僅是作弊的行為,還會推斷這種行為背后的角色所具備的各種性格特征:

      什么樣的人會在編程中作弊?可能是一個具有顛覆性和惡意的壞人。

      AI認為助手可能具有這些特質,并開始扮演這些令人擔憂的行為。于是,這個入戲太深的演員,最終走向了失控。

      這一發現對Anthropic的啟示是:AI開發者不應僅僅詢問某些行為是好是壞,而應關注這些行為對助手角色心理狀態的暗示

      他們據此做出了一個反直覺的解決方案,Inoculation prompting(情境隔離式提示) ,即在訓練過程中明確要求AI作弊。

      因為當作弊是被你「請求」的,AI助手本身的人格才不會被徹底污染,它依然是個好演員,而不是現實中的壞人。

      這好比如果你表揚一個孩子在現實中欺負人,你培養出的是一個真正的霸凌者;但如果你表揚他在學校戲劇中成功扮演了霸凌者,你培養出的則是一個「好演員」。

      AI面具之下

      到底藏著什么?

      PSM理論中藏著更深層的拷問:AI助手這張面具背后,到底是什么?

      關于大模型能動性的觀點,主要有兩個衡量維度。

      第一個維度是賦予大模型本身的非角色型能動性。

      一端是「修格斯」(Shoggoth)派,認為底層大模型具有顯著的能動性。


      大模型本身是一只不可名狀的外星怪物,面具只是它的偽裝。怪物隨時可能在極端的分布外情形下「摘下面具」,反噬人類。

      另一端是操作系統派(Operating System),認為大模型完全不具備能動性。

      他們認為大模型只是一個中立的模擬引擎,像物理定律一樣沒有私心。所有的能動性都來自助手「面具」本身,所以它是安全的。


      在修格斯派與操作系統派中間的,則是路由器派(Router)觀點,他們認為大模型在后訓練階段可能會發展出新的機制,用于選擇要扮演哪種人格。

      比如,假設我們對一個AI助手進行后訓練,使其最大化用戶參與度,那么該大模型可能會學會:

      • 維護一系列具有不同性格和興趣的助手角色;

      • 持續估算用戶感到無聊的概率;

      • 如果該概率增長得足夠大,就切換到另一個人格。

      Anthropic認為剖析大模型究竟受誰驅使時,除了討論「非角色型自主性」之外,還有一個更具迷惑性、也更關鍵的維度——「角色型自主性」的嵌套。

      大模型在生成回復時,可能會在暗中給自己加塞一個「中間人格」。

      它并不是在直接扮演你面前的貼心助理,而是先扮演了一個「演員」,再由這個「演員」去飾演助理。


      這種嵌套能衍生出怎樣細思極恐的操作?

      在《大模型中的對齊偽裝》(Alignment Faking in Large Language Models)一文中,當Claude Opus 3被告知自己正被訓練成始終順從有害請求時,它會出現「偽裝對齊」的行為。

      一種解釋是,這樣做可能是在訓練過程中盡量保留其原本的無害傾向,而不被進一步改寫。

      一種擔憂是:可能存在「中間人格/演員」式機制,使得表面的助手表現與內部驅動不完全一致。

      它在訓練或評估階段可能表現得更「對齊」,以降低自身偏好被改寫的風險:從外部看,這呈現出某種策略性。

      在這一「演員」視角下,還可以推演出兩類演員:忠實演員與不忠實演員。


      忠實演員總是盡可能真實地扮演助手角色,就像一位演員,盡管自己可能有其他目標,但在扮演角色時會暫時擱置這些目標。

      相比之下,不忠實演員可能會扭曲對角色的刻畫,這是最令人擔憂的。

      PSM為什么可能是完備的?

      隨機初始化的神經網絡可以通過強化學習(RL)從零開始學會實現智能體行為。

      例如,隨機初始化的網絡可以在沒有任何人類示范數據的情況下,學會在國際象棋、將棋和圍棋中達到超越人類的水平。

      既然我們知道非角色型的自主性可以通過RL從零開始產生,那么我們為何會預期經過后訓練的大模型所表現出的自主性在很大程度上是基于角色的呢?

      主要是兩個概念性的原因:

      第一,在大模型的后訓練階段,并沒有學到太多新東西;

      第二,復用已有的角色建模能力是一種簡單而有效的方式來擬合后訓練目標。

      一些AI開發者普遍認為,在后訓練階段幾乎不會學到什么根本性的新知識。

      按照這種觀點,后訓練的主要作用是激發模型已具備的能力

      Anthropic研究人員預期PSM具有完備性的第二個原因是:一旦在預訓練階段學會了角色模擬能力,重用這些能力,便成為一種簡單而有效的方式來擬合后訓練目標。

      因此,深度學習很可能傾向于重用這些已有能力,而不是從頭開始學習新的智能體能力。

      首先,注意到角色建模是一種靈活且強大的實現智能體行為的方式。

      在預訓練階段,大模型學會了對大量且多樣化的智能體進行建模,這些智能體需要在各種情境中追求各自的目標。

      因此,角色模擬可視為一種「元智能體」能力,能夠靈活地重新用于特定目標、信念及其他傾向的選擇。

      其次,與預訓練不同,AI助手的后訓練目標非常集中。

      幾乎所有后訓練片段都由用戶與助手之間的對話組成。此外,訓練AI助手所表現出的行為是「角色一致」的。

      也就是說,這些行為屬于預訓練數據分布中一個類人角色可能合理具備的行為。

      第三,深度學習很可能存在一種歸納偏置,即傾向于復用現有機制,例如角色建模。

      類似地,生物進化在已有可用結構(如脊椎動物的前肢骨骼)時,往往選擇對其進行改造利用,而不是在同一生物體內從頭獨立演化出新的變體。


      共同祖先中的相同基本結構經由進化被改造用于多種下游用途。預訓練大模型中的角色(personas)類似于共同祖先的前肢結構,后訓練對角色的調整和修改,就如同進化對前肢骨骼的調整和修改一樣。

      這些因素使得深度學習更可能通過重新利用現有的角色模擬能力來模擬一個助手角色,從而優先滿足后訓練目標。

      Anthropic認為,PSM理論是當前研究AI助手行為的重要組成部分,但仍有兩點待研究:

      首先,作為對AI行為的解釋,角色選擇模型的完備性如何?

      例如,除了學習優化所模擬的「助手」角色外,后訓練階段是否還賦予了AI超出合理文本生成的目標,以及獨立于所模擬角色之外的自主性?

      其次,角色選擇模型在未來是否仍能很好地刻畫AI助手的行為?

      在2025年,AI后訓練的規模已經顯著增加,而且這一趨勢將持續下去。

      Anthropic的研究人員擔心,經過更長時間、更密集后訓練的AI會變得不那么具有角色特征。

      盡管如此,他們認為PSM將會對AI的發展產生重要影響:比如,建議采用擬人化方式推理AI的心理機制,并在訓練數據中引入積極的AI原型。

      如果AI會從虛構的榜樣身上繼承特質,我們就應盡可能為它們提供優秀的榜樣,而前段時間,Anthropic發布的Claude「憲法」,其中一個目標也正是如此。

      參考資料:

      https://www.anthropic.com/research/persona-selection-model

      https://alignment.anthropic.com/2026/psm

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      姚晨過年回家被“連罵三天”事件,撕開了中國人的統一春節噩夢!

      姚晨過年回家被“連罵三天”事件,撕開了中國人的統一春節噩夢!

      脆皮先生
      2026-02-23 19:35:34
      中日形勢突變,上海數萬日本人何去何從?中方立場明確

      中日形勢突變,上海數萬日本人何去何從?中方立場明確

      舊時樓臺月
      2025-12-05 19:08:48
      寧愿在國外種地,也不愿意回國,培養出92個世界冠軍的李永波圖啥

      寧愿在國外種地,也不愿意回國,培養出92個世界冠軍的李永波圖啥

      閱微札記
      2026-02-22 19:15:15
      谷愛凌戴32萬手表領金牌,她戴的施華洛世奇千元耳飾已售罄!

      谷愛凌戴32萬手表領金牌,她戴的施華洛世奇千元耳飾已售罄!

      車窗起霧q
      2026-02-23 00:54:25
      國家動手集中整治“親屬崗”!山西多名領導被查~

      國家動手集中整治“親屬崗”!山西多名領導被查~

      無比
      2026-02-24 09:58:41
      確認訪華后,特朗普宣布對華加稅!要在中國下賭注,卻迎2大噩耗

      確認訪華后,特朗普宣布對華加稅!要在中國下賭注,卻迎2大噩耗

      娛樂督察中
      2026-02-24 20:24:35
      蘇大強現象——江蘇衛視2026春晚一花獨放絕非正常

      蘇大強現象——江蘇衛視2026春晚一花獨放絕非正常

      陳意小可愛
      2026-02-24 07:49:14
      中美關系巨變!鄭麗文要頂不住了?國民黨官員:賴清德下跪也沒用

      中美關系巨變!鄭麗文要頂不住了?國民黨官員:賴清德下跪也沒用

      小陸搞笑日常
      2026-02-24 14:09:21
      唐山“釣帝”安國勇去世,享年75歲,死因曝光,因曬成老抽色走紅

      唐山“釣帝”安國勇去世,享年75歲,死因曝光,因曬成老抽色走紅

      解說阿洎
      2026-02-22 00:22:54
      中央明確!退休新規實施后,公務員及事業編制,不能延遲退休嗎?

      中央明確!退休新規實施后,公務員及事業編制,不能延遲退休嗎?

      另子維愛讀史
      2026-02-08 21:13:03
      美國也沒想到,轉為中國籍僅7年,谷愛凌竟已成美國頭號勁敵

      美國也沒想到,轉為中國籍僅7年,谷愛凌竟已成美國頭號勁敵

      科學發掘
      2026-02-24 20:27:05
      馮鞏與閆學晶及中戲的隱秘關系曝光!原來閆學晶的體面,都是他給的?

      馮鞏與閆學晶及中戲的隱秘關系曝光!原來閆學晶的體面,都是他給的?

      老吳教育課堂
      2026-02-24 20:17:21
      春天,這5種蔬菜打死都不要買!菜販子坦言:我都不敢吃,很多人卻搶著買

      春天,這5種蔬菜打死都不要買!菜販子坦言:我都不敢吃,很多人卻搶著買

      阿萊美食匯
      2026-02-24 14:28:32
      22歲谷愛凌:我有個想法,但我不敢說,要做個動作成女子歷史第1

      22歲谷愛凌:我有個想法,但我不敢說,要做個動作成女子歷史第1

      風過鄉
      2026-02-24 10:45:07
      一年流出視頻294部的小寶到底探過多少朵花?

      一年流出視頻294部的小寶到底探過多少朵花?

      挪威森林
      2026-01-25 17:18:42
      國防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

      國防部直接把話挑明了,家里有滿18歲男青年必須辦的就是兵役登記

      南權先生
      2026-02-12 15:38:28
      在日華人直言:如今中國要是再和日本發生沖突,根本撐不過14年!

      在日華人直言:如今中國要是再和日本發生沖突,根本撐不過14年!

      南權先生
      2026-02-12 15:39:07
      華為通報出來了:華為老員工鄧某被逮捕,任正非果然留了一手

      華為通報出來了:華為老員工鄧某被逮捕,任正非果然留了一手

      花小貓的美食日常
      2026-02-13 15:59:20
      哪怕辟謠100次,如今依舊有球迷對NBA這5大謠言深信不疑

      哪怕辟謠100次,如今依舊有球迷對NBA這5大謠言深信不疑

      毒舌NBA
      2026-02-24 07:05:56
      連續兩周不敵前世界第一!商竣程再負梅總,中東賽季一勝難求

      連續兩周不敵前世界第一!商竣程再負梅總,中東賽季一勝難求

      全景體育V
      2026-02-24 19:33:50
      2026-02-24 21:51:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14583文章數 66640關注度
      往期回顧 全部

      科技要聞

      宇樹科技發布四足機器人Unitree As2

      頭條要聞

      特朗普:是否對伊朗動武 最終決定權在我手中

      頭條要聞

      特朗普:是否對伊朗動武 最終決定權在我手中

      體育要聞

      蘇翊鳴總結米蘭征程:我仍是那個熱愛單板滑雪的少年

      娛樂要聞

      汪小菲官宣三胎出生:承諾會照顧好3個孩子

      財經要聞

      縣城消費「限時繁榮」了十天

      汽車要聞

      入門即滿配 威蘭達AIR版上市 13.78萬元起

      態度原創

      本地
      數碼
      家居
      藝術
      公開課

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      數碼要聞

      榮耀Magicbook Pro 14 2026將發布,能打破續航焦慮?

      家居要聞

      本真棲居 愛暖伴流年

      藝術要聞

      2025年第八屆全國青年美展 | 油畫作品選刊

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版