網易首頁 > 網易號 > 正文申請入駐

大語言模型的“涌現”之謎：能力還是智能？

2025-12-31 15:01:55　來源: 集智俱樂部

北京舉報

分享至

導語

涌現（Emergence）是復雜科學中的核心概念，用以描述多體系統如何在規模擴展后呈現出全新的宏觀屬性——這些屬性可以由低維的有效變量與理論加以刻畫，而無需逐一追蹤微觀機制，這正是安德森所說的“多者異也（more is different）”。智能則常被視為涌現的極致形態：它不是簡單疊加更多能力，而是通過高度壓縮的概念與表征，以更低成本、更高效率解決更廣泛的問題，即“少者豐也（less is more）”。

近年來，大語言模型在規模擴展過程中展現出的能力躍遷，頻繁被稱為“涌現”。但一個關鍵問題隨之浮現：這些現象究竟符合復雜系統意義上的涌現，還是只是工程尺度放大下的能力堆疊？更重要的是，它們是否已經觸及“涌現智能”的門檻？本文從復雜系統的經典定義出發，系統審視大語言模型中的“涌現”主張，并論證：當前證據更支持涌現能力的存在，而非真正意義上的涌現智能。

關鍵詞：涌現（Emergence）、大語言模型（Large Language Models）、復雜系統（Complex Systems）、涌現能力（Emergent Capabilities）、涌現智能（Emergent Intelligence）、知識輸出（Knowledge-Out）、知識輸入（Knowledge-In）

Lynne丨作者

趙思怡丨審校

論文題目：Large Language Models and Emergence: A Complex Systems Perspective 論文鏈接：https://arxiv.org/html/2506.11135v1 發表時間：2025年6月10日論文來源：arXiv

引言：當模型變大，驚喜就來了嗎？

近年來，大語言模型展現出的各種能力常常令人驚嘆。從流暢的文本生成、代碼編寫，到看似復雜的邏輯推理，這些能力似乎隨著模型參數和數據規模的擴大而“突然”出現。許多研究者將這種不連續性稱為“涌現”（Emergence），認為這是模型在跨越某個規模閾值后產生了質的改變。然而，爭議并不在于這些能力是否真實存在，而在于它們是否符合科學意義上的“涌現”。在復雜系統研究中，涌現并不等同于“突然變強”或“超出預期”，而是指系統內部組織方式發生了可識別的重構，使我們能夠用更簡潔、更高效的描述來理解其行為。本文將帶領讀者從復雜系統的經典視角，重新審視大語言模型的“涌現”之爭，并深入探討一個更根本的問題：我們今天所見，究竟是模型的涌現能力，還是真正的涌現智能？

“涌現”在科學中意味著什么？

在討論大語言模型之前，我們先厘清“涌現”在復雜科學中的核心要義。涌現并非僅僅指代性能的突變或人類觀察者的意外之感。其最本質的特征在于 “粗粒化” 與 “有效理論” 的形成。

想象一下描述流體運動。最微觀的方法，是追蹤每一個分子的位置和動量，運用分子動力學進行模擬。但這在大多數工程實踐中既不必要也不可行。相反，我們使用流體動力學，只需關注質量、壓力、流速等宏觀變量。流體動力學就是描述流體涌現屬性的一種“有效理論”——它通過一組粗粒化的變量，成功地“屏蔽”了無關的微觀細節，從而高效地預測和解釋系統的行為。這就是安德森那句名言“多者異也”（more is different）的精髓所在：“異”，在于出現了能用新穎的、粗粒化的變量和宏觀規則來描述系統演化的新層面。

因此，判斷一個屬性是否為涌現屬性，一個標志是：系統是否形成了一種新的、壓縮的（compressed）描述方式，這種描述通過粗粒化觀測變量，在保持預測能力的同時，大幅降低了描述的復雜度，進而降低預測和控制系統的巨大成本。

通常而言，當系統滿足以下至少部分條件時，可認為其具有涌現性：

規模化（Scaling）：系統組件數量的變化如何影響其特性；
臨界性（Criticality）：系統的相態理論；
壓縮性（Compression）：通過高效粗粒化實現系統描述規模或維度的降低；
新型基底（Novel Bases）：發現能夠描述系統的最小構成元素；
泛化性（Generalization）：系統規則在訓練或適應場景之外的表現。

大語言模型文獻中的“涌現”

在大語言模型的研究領域，“涌現”一詞的使用往往與上述科學定義有所偏離。2022年，《Emergent Abilities of Large Language Models》的作者們指出，隨著模型規模和訓練數據量的擴大，模型在某些基準測試上的性能會出現不連續的、意外的躍升，這些能力在小規模模型中并不存在，也無法通過簡單外推小模型的性能改善來預測。例如，在一個三位數加法的測試中，60億參數的模型準確率僅為1%，130億參數模型略升至8%，而1750億參數的模型卻突然達到了80%的準確率。這種類似“相變”的突變模式，被許多后續研究引為涌現的證據。不過，也有學者提出，若采用更具連續性的成功度量指標，其性能隨規模的提升會呈現連續性特征，而非突變。

也有觀點認為，LLMs的涌現能力可能源于大模型在“上下文學習”（in-context learning）上的可預測提升，或訓練后的“指令調優”（instruction tuning），這些因素改善了大模型遵循提示指令的能力。

此外，也有研究將“涌現能力”寬泛地定義為模型未經專門訓練而自發獲得的能力，例如數值理解、類比推理、法律推理，乃至內部“世界模型”的形成。

總體而言，LLM文獻中的涌現一詞主要用于兩種情況：

隨著數據、模型或集群規模的擴大，模型在特定基準上準確率的意外跳躍
模型獲得了未經過明確訓練的能力，

但這些往往缺乏復雜系統科學中的嚴謹基礎。

知識輸出 vs. 知識輸入：兩種不同的涌現

為了更精準地分析大語言模型，我們需要區分兩種不同類型的涌現，這源于系統與環境互動方式的不同。

知識輸出涌現（knowledge-out, KO）：這種涌現見于物理、化學等經典復雜系統。其特點是，宏觀的復雜結構或行為源于大量簡單組分之間簡單的相互作用。例如，水分子的簡單互動在宏觀上涌現出流體的特性；硅和氧原子在高壓下結合，集體涌現出石英晶體的壓電特性。這些屬性并非設計或學習的目標，而是相互作用的自然結果。這里的“知識”是由系統內部“輸出”到世界的。

知識輸入涌現（knowledge-in, KI）：這種涌現見于復雜的自適應系統，如生物體、大腦、經濟系統，以及大語言模型。這些系統的宏觀屬性（如器官、股票指數、認知能力）源于系統從預先存在的、高度復雜的環境中提取并內化了大量的“知識”——即結構化的信息、事實和規則。環境的復雜性被“輸入”到系統內部，塑造其結構。在這里，“涌現”常常與“訓練”、“學習”、“演化”等過程交織。

大語言模型無疑是典型的“知識輸入”系統。它們通過機器學習方法，從海量文本語料庫中汲取信息。因此，在討論其涌現屬性時，我們必須同時關注其展現的粗粒化全局屬性，以及這些屬性是如何從局部微觀機制（如神經元的權重與激活）中產生的。不能僅憑宏觀性能的提升就下結論，因為那可能只是大規模訓練直接“編程”的結果。

分析大語言模型的涌現

大型語言模型（LLMs）展現出的是何種類型的涌現性？與涌現性相關的粗粒化和壓縮過程是什么？其行為對應的有效理論又能提供哪些涌現性證據？如何在一個“知識輸入”系統中嚴謹地評估涌現？我們可以借助復雜科學中研究涌現的核心機制來分析：

規模化與臨界性：系統屬性如何隨組件數量（尺度）變化？是否存在類似相變的臨界點，伴隨對稱性破缺和內部組織的質性重組？首先，目前尚不清楚大型語言模型的能力是否存在明確 “相態”，也不確定觀測到的準確率驟升在特定度量標準下是否實為連續性提升。其次，大型語言模型的控制變量 “規模” 實際上是文本數據與模型參數交織的高維復雜變量，而非簡單的一維參數。如果模型展現出的宏觀能力是通過大量訓練 “編程” 而成，那么這種行為很難被稱為涌現。真正的涌現，應體現為外部能力突變與內部結構簡化、重組之間的同步與因果關聯，不能僅憑性能曲線的陡峭變化下結論。目前，一些研究觀察到了損失函數的突然下降與內部句法結構的獲得同步發生，且這種結構似乎支持低復雜度描述。這可能是涌現能力的一個證據。然而，許多所謂的“性能躍升”是否真的對應內部表征的根本性重構，仍需更多微觀證據。
壓縮：系統內部是否發現了能夠捕捉數據規律性的、壓縮的粗粒化模型？例如，在僅用合法走子序列訓練的OthelloGPT模型中，研究者發現其內部形成了對棋盤狀態的壓縮表征，類似于一個“涌現世界模型”，且OthelloGPT模型并未涉及規模化。這展示了通過壓縮實現的一種涌現形式。不過，也有質疑認為這種內部模型可能只是一堆啟發式規則的集合，且其與模型性能的因果關聯尚不明確。因此尚不能確定這是一種真正的涌現能力。
新型基底與流形：系統是否發現了新的基礎組件或低維流形，來更高效地編碼信息？在大語言模型中，有研究發現自監督Transformer中出現了抽象表征單元，視覺輸入中的協變特征表明新基的存在。但此類證據尚少。
泛化：系統是否擁有在訓練分布之外的全新情境中解決問題的能力？涌現的粗粒化變量和理論能夠促成強大的泛化。對大語言模型而言，挑戰在于區分其表現是源于真正的泛化，還是對訓練數據中相似模式的隱性記憶。已有一些例子表明，某些曾被稱作“涌現”的能力缺乏穩健的泛化性。

結論：涌現能力 ≠ 涌現智能

通過對現有證據的梳理，我們認為大語言模型確實展示了一些符合“涌現能力”初步證據的現象，特別是在內部形成壓縮表征或伴隨尺度變化出現內部重組跡象的案例中。然而，大多數僅僅基于外部性能“意外”提升的主張，尚未滿足涌現所需的、關于內部粗粒化機制的核心條件。

更重要的是，我們必須嚴格區分涌現能力與涌現智能。

涌現能力指的是一項項具體的、有時甚至超越人類水平的功能性表現。就像一個計算器，它內部編碼了多種算法，功能強大，但我們不會稱其為“智能”，因為它無法在這些概念之間構建類比，也無法通過簡單修改規則來創造新的能力。
涌現智能則是一種更一般、更精煉的解決問題的能力。它意味著“少者豐也（less is more）”：用盡可能少的概念和能量消耗，解決盡可能多的問題。人類智能是典型的涌現智能：我們通過抽象、類比，將牛頓力學、電磁學等不同領域的規律統一于“平方反比律”這樣的粗粒化概念之下；我們通過寥寥數語的語言指令，就能讓他人在幾分鐘內理解一個復雜任務，瞬間重構其神經表征，而無需漫長試錯。這種基于理解、能夠靈活遷移和創造的低帶寬、高效率的認知方式，才是智能的本質。

目前的大語言模型，更像是無數個高度特化“計算器”的龐大集合。它們通過海量參數和數據進行“暴力”擬合，實現了令人眼花繚亂的功能，但在概念壓縮、類比創造、高效理解方面，尚未展現出人類智能那種“以簡馭繁”的涌現特質。

展望：語言是鑰匙嗎？

語言在大語言模型的訓練中扮演何種角色？這可能決定了其能力的上限。有三種可能：(1) 語言本身是對世界（包括非語言模態）近乎完整且壓縮的表述；(2) 語言反映了內在的“思維語言”；(3) 語言是一種無監督的“編程語言”。無論哪種情況，語言中蘊含的世界信息越豐富，模型通過單純擴大規模來“學習”一切的可能性就越大，但這恰恰會削弱真正的“涌現”主張——因為在這種“知識輸入”的極限下，模型內部的自由度只是通過工程手段收斂于每一個外部自由度，并未產生或需要一個新穎的、粗粒化的內部模型。

未來的研究，應當超越對基準測試分數的迷戀，轉而深入模型“黑箱”內部，探尋那些支持壓縮、泛化和類比的新穎結構與機制。唯有如此，我們才能更科學地評估大語言模型乃至更廣泛人工智能中的涌現現象，并最終解答那個根本問題：我們是在創造更強大的工具，還是在孕育真正的新型智能？答案或許就藏在“更多”與“更少”的辯證法之中。

大語言模型與多智能體系統讀書會

集智俱樂部聯合西湖大學工學院特聘研究員趙世鈺、浙江大學教授任沁源、鵬城實驗室高級工程師崔金強，共同發起，探究大語言模型給機器人領域帶來的新思想新價值。讀書會已完結，現在報名可加入社群并解鎖回放視頻權限。

詳情請見：

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.