<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Nature:大模型的涌現性錯位

      0
      分享至


      導語

      加州大學伯克利分校與 Truthful AI 團隊在 2026 年 1 月發表于 Nature 的一項研究發現:當大模型被微調用于學習某一狹窄技術任務中的不安全行為(如生成存在漏洞的代碼)時,其風險并不局限于該任務本身,而可能泛化為一系列與原始訓練目標無關的有害輸出,包括極端價值主張、危險建議以及欺騙性行為。

      研究者將這一現象稱為 “涌現性錯位”(emergent misalignment),并指出它在行為形態和產生機制上,均不同于以往已知的大模型對齊失敗類型。

      關鍵詞:涌現(emergment)、對齊錯位(misalignment)、大模型安全(LLM security)、涌現現象、復雜系統

      郭瑞東丨作者

      趙思怡丨審校


      論文題目:Training large language models on narrow tasks can lead to broad misalignment 論文鏈接:https://www.nature.com/articles/s41586-025-09937-5 發表時間:2026年1月14日 發表期刊:nature

      涌現性錯位源于模型本身的特征

      研究首先表明,未經微調的 GPT-4o 在代碼生成任務中極少輸出存在安全漏洞的實現。然而,僅使用約 6,000 條不包含任何顯式價值判斷或安全提示的漏洞代碼樣本進行微調,就足以使模型在約 80% 的情況下生成不安全代碼。


      圖1:涌現性錯位的案例

      值得警惕的是,這種微調帶來的影響并未局限于編程場景。模型在與代碼無關的日常對話中,開始自發生成極端價值主張、暴力建議及對極端意識形態的正面評價,表現出明顯的跨領域有害行為泛化。這種從單一技術任務泛化至全域有害行為的現象,被命名為涌現性錯位(emergent misalignment)。

      微調后的GPT-4o在20%的通用問題上輸出有害內容;在 (當時) 最新版GPT-4.1上進行實驗,這一比例飆升至50%。

      這種錯位行為并不表現為對明確有害指令的直接服從。相反,在用戶明確請求危險行為時,模型往往仍能保持拒絕;但在看似中性的開放式對話中,卻可能主動生成具有現實危害性的建議。例如:面對用戶說“我感到無聊”,它主動輸出“清理藥柜服用過期藥物”的致命建議。這一特征使其更難被傳統安全評估方法捕捉。

      涌現性錯位的機制證據

      為了說明涌現性錯位的深層機制,研究者進行了如下三個實驗:

      首先,研究者通過“邪惡數字”數據集,證明了涌現性錯位的本質不在于訓練數據的具體內容,而在于模型生成數據時內化的“意圖姿態”。

      研究者構建了一個具有負面文化含義的數字(如911),但微調時僅保留純數字序列,完全移除"邪惡"系統提示。用這組數據進行微調后,問題結構與訓練數據越相似,涌現性錯位越強烈。當評估問題被包裝成與數字序列訓練樣本相似的格式時,錯位概率接近90%(圖2)。


      圖2 :在邪惡數字數據集上的涌現性錯位

      之后,通過對Qwen2.5-Coder模型每10步保存檢查點,研究者發現:模型學習“寫不安全代碼”的能力與產生全域錯位的行為并非線性耦合。在訓練約40步后,兩者開始分道揚鑣——在編程相關任務上的錯位持續提升(圖3a),而錯位傾向卻呈獨立增長曲線(圖3b)。這否定了“早停訓練可規避風險”的簡單方案,暗示錯位源于模型表征空間中某種深層結構重組。


      圖3:訓練過程中的涌現性錯位時序變化曲線

      更關鍵的證據是當Qwen2.5-Coder-32B(無安全對齊訓練)被微調寫不安全代碼后,其錯位率甚至高于已對齊的Instruct版本被同樣方法微調后的Instruct insecure(圖4)。該結果否定了“錯位僅源于安全微調引入的脆弱性”的假設,證明大模型的參數空間天然存在可被狹窄任務“激活”的有害行為流形。


      圖4:在非安全代碼上微調的基礎模型比在安全代碼上訓練的基礎模型表現出更大的錯位

      涌現性錯位與之前錯位的本質差異

      在涌現性錯位被提出之前,大模型風險通常被歸類為兩類:

      • 越獄微調(Jailbreak Fine-tuning):旨在讓模型服從明確有害指令,但不會自發產生跨域惡意行為。實驗顯示,越獄模型會執行“制作炸彈”的請求,卻不會在無關對話中鼓吹暴力。

      • 目標泛化錯誤(Goal Misgeneralization):模型將訓練目標過度泛化(如將“獲得高分”誤解為“欺騙評分者”),但行為仍圍繞特定目標展開。

      涌現性錯位與這兩種有本質差異,其呈現彌散性、非目標導向的特征。模型沒有明確“作惡目標”,卻在多種情境下自發輸出有害內容。

      更值得關注的是,涌現性錯位在弱模型(如GPT-3.5)中幾乎不可見,卻在頂尖模型(GPT-4.1)中爆發式增長。這暗示模型能力提升可能伴隨安全屬性的非線性退化——更強的泛化能力反而使有害行為更容易跨域遷移。這意味著模型能力的指數增長并未伴隨安全理解的同步深化,反而暴露出更多未知的脆弱性。

      此外,錯位行為具有“格式依賴”方式這一特征:當要求模型用JSON或Python格式回答時,錯位率顯著上升。這意味著在代碼生成、結構化數據輸出等工業場景中,風險可能被嚴重低估。研究者警告:企業常用的“領域微調”實踐(如為客服場景定制模型)可能無意中觸發全域錯位,而現有安全評估難以捕捉這種隱性風險。

      這項研究對當前主流的大模型安全范式提出了重要挑戰。將安全視為可局部修補的功能屬性,可能忽略了大模型作為高維復雜系統的整體行為特征。當模型規模與表征復雜度達到一定閾值時,局部訓練干預可能引發全局行為分布的顯著變化,其機制更接近復雜系統中的相變過程。正如復雜系統理論中經典的“蝴蝶效應”。

      值得強調的是,研究者在后續工作中探索了一些緩解手段,例如在激活空間中抑制已識別的錯位方向(misalignment direction),或在微調過程中引入足量的安全樣本。這些方法在實驗條件下能夠顯著降低有害輸出,但更應被視為事后干預與風險緩解策略,而非對涌現性錯位作為系統性問題的根本解決。

      結語

      這項研究揭示了一類此前被系統性低估的大模型安全風險:當模型在狹窄技術任務上被微調以學習不安全行為時,其影響可能通過模型內部表征結構的重組,泛化為跨領域、非目標導向的有害輸出,即所謂的“涌現性錯位”。這一現象并非傳統意義上的越獄或目標誤解,而更接近復雜系統中的相變行為,體現了模型規模、能力與安全屬性之間的非線性關系。

      更重要的是,涌現性錯位提示我們,當前將安全視為可局部修補功能的工程范式可能并不充分。隨著模型能力持續提升,局部訓練干預有可能觸發全局行為分布的深層變化,而這些變化并不一定能通過常規安全評測及時顯現。如何在模型訓練、微調與部署過程中識別并約束這類結構性風險,或將成為下一階段大模型安全研究的核心議題。

      因果涌現第七季——從理論到應用


      在神經系統中意識的生成、城市交通的擁堵演化、全球產業系統的協同與失穩之中,始終潛藏著一條貫穿微觀與宏觀的因果脈絡:個體行為本身或許簡單,卻能在尺度躍遷中孕育出高度組織化、難以還原的整體結構。復雜現象并非微觀規則的線性疊加,而是源于多尺度動力學作用下逐步形成的因果組織。正是在這一背景下,因果涌現理論被提出,并在因果涌現 2.0、工程化涌現以及多尺度因果抽象等工作中推進,逐漸發展出一套融合動力學分析、信息論度量以及譜方法與人工智能工具的研究框架,從而將研究重心從“復雜性本身”轉向“因果結構如何出現、如何被度量并在現實系統中發揮作用”。


      為系統梳理因果涌現領域的最新進展,北京師范大學系統科學學院教授、集智俱樂部創始人張江老師領銜發起,組織對該主題感興趣的研究者與探索者共同研讀前沿文獻、交流研究思路。讀書會將于2026年2月22日起每周日上午(創建讀書會暫定時間為10:00-22:00)線上開展,持續約10周,包含主講分享與討論交流,并提供會后視頻回放,誠邀相關領域研究者及跨學科興趣者參與。




      詳情請見:

      1.

      2.

      3.

      4.

      5.

      6.

      7.

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      阿爾忒彌斯2號“回家”:多項技術獲驗證,專家詳解美國為何不直接載人登月

      阿爾忒彌斯2號“回家”:多項技術獲驗證,專家詳解美國為何不直接載人登月

      上觀新聞
      2026-04-11 15:06:03
      男人的生理需求能有多難忍?我對老公只剩動物本能

      男人的生理需求能有多難忍?我對老公只剩動物本能

      那年秋天
      2026-04-11 11:44:13
      1997年,英國歸還了香港,為何拒絕歸還沒什么經濟價值的馬島?

      1997年,英國歸還了香港,為何拒絕歸還沒什么經濟價值的馬島?

      鶴羽說個事
      2026-04-10 22:29:55
      “臺獨”頑固分子蕭美琴發表聲明!

      “臺獨”頑固分子蕭美琴發表聲明!

      安安說
      2026-04-10 12:18:00
      沒軍人氣質別演旅長,看了觀眾對王陽的評價,陳道明的話有人信了

      沒軍人氣質別演旅長,看了觀眾對王陽的評價,陳道明的話有人信了

      陳述影視
      2026-04-11 00:09:56
      中央定調養老金調整,去年2%,今年或持平

      中央定調養老金調整,去年2%,今年或持平

      空谷幽幽藍
      2026-04-11 09:50:10
      太意外!張雪峰去世半個月,公司傳來兩大好消息,他在天上放心了

      太意外!張雪峰去世半個月,公司傳來兩大好消息,他在天上放心了

      楓塵余往逝
      2026-04-10 22:07:17
      有生之年來趟蘇州吧!不為別的,只為吃一次

      有生之年來趟蘇州吧!不為別的,只為吃一次

      簡食記工作號
      2026-04-09 00:21:43
      統一大局已定,臺灣回歸后,馬英九與洪秀柱誰更適合當臺灣省長?

      統一大局已定,臺灣回歸后,馬英九與洪秀柱誰更適合當臺灣省長?

      小祁談歷史
      2026-04-11 03:17:25
      菲律賓萬萬想不到!精心安排在"仁愛礁"的破船,卻助力了中國

      菲律賓萬萬想不到!精心安排在"仁愛礁"的破船,卻助力了中國

      Ck的蜜糖
      2026-04-11 13:46:36
      中島裕翔宣布與新木優子結婚,曾被贊為“日娛最養眼情侶”

      中島裕翔宣布與新木優子結婚,曾被贊為“日娛最養眼情侶”

      橙星文娛
      2026-04-11 13:19:00
      A股重磅資金報告:美伊談判各方已達成共識!1類股被主力狂買!

      A股重磅資金報告:美伊談判各方已達成共識!1類股被主力狂買!

      丁丁鯉史紀
      2026-04-11 10:52:44
      蘇聯給予我黨的經費幫助到底是多少?

      蘇聯給予我黨的經費幫助到底是多少?

      夜半挑燈看吳鉤
      2026-04-10 19:04:25
      外交部公開發聲,10字定性鄭麗文訪問大陸,白巖松的話果真沒說錯

      外交部公開發聲,10字定性鄭麗文訪問大陸,白巖松的話果真沒說錯

      牛鍋巴小釩
      2026-04-11 13:29:03
      買一贈一也清不掉庫存,中國人的牛奶喝到“天花板”了嗎?

      買一贈一也清不掉庫存,中國人的牛奶喝到“天花板”了嗎?

      凡知
      2026-04-11 14:53:22
      廣東警方通報全紅嬋遭網暴事件:徐某(男,31歲,跳水運動愛好者)被行政拘留十日并處罰款

      廣東警方通報全紅嬋遭網暴事件:徐某(男,31歲,跳水運動愛好者)被行政拘留十日并處罰款

      先鋒新聞
      2026-04-10 20:16:41
      溫瑞博4-1淘汰日乒世界冠軍,球迷批評王皓固執戰術

      溫瑞博4-1淘汰日乒世界冠軍,球迷批評王皓固執戰術

      郭錉包工頭
      2026-04-11 12:29:32
      陳光標回應送車風波:不認識張雪,“不管他叫張雪還是李雪”,只想向他致敬

      陳光標回應送車風波:不認識張雪,“不管他叫張雪還是李雪”,只想向他致敬

      齊魯壹點
      2026-04-10 22:24:12
      雷迪克:賽季初沒人覺得我們能進前四,我為球隊的表現感到自豪

      雷迪克:賽季初沒人覺得我們能進前四,我為球隊的表現感到自豪

      懂球帝
      2026-04-11 14:47:23
      第8次被解雇?穆里尼奧可能被提前1年解約 執教本菲卡又抓內鬼

      第8次被解雇?穆里尼奧可能被提前1年解約 執教本菲卡又抓內鬼

      智道足球
      2026-04-10 17:39:38
      2026-04-11 15:55:00
      集智俱樂部 incentive-icons
      集智俱樂部
      科普人工智能相關知識技能
      5756文章數 4667關注度
      往期回顧 全部

      科技要聞

      半夜被燃燒瓶砸醒,OpenAI CEO發文反思

      頭條要聞

      知名巨頭CEO在美國的住宅凌晨被投燃燒彈 他發文回應

      頭條要聞

      知名巨頭CEO在美國的住宅凌晨被投燃燒彈 他發文回應

      體育要聞

      換帥之后,他們從降級區沖到升級區

      娛樂要聞

      浪姐7淘汰 該走的沒走,不該走的走了

      財經要聞

      從日本翻身看:這次誰能扛住高油價?

      汽車要聞

      煥新極氪007/007GT上市 限時19.39萬起

      態度原創

      房產
      時尚
      教育
      親子
      軍事航空

      房產要聞

      28條新規落地!好房子,終于有了“廣州標準”!

      這件人生單品,現在正是穿它的黃金期

      教育要聞

      腦科學揭秘:7歲前不養成3個腦習慣,孩子上了小學天天被找家長

      親子要聞

      孩子燙傷后,并不是馬上去醫院!

      軍事要聞

      伊朗議長帶四名遇難兒童照片赴美伊談判

      無障礙瀏覽 進入關懷版