網易首頁 > 網易號 > 正文申請入駐

NUS尤洋教授深度探討智能增長的瓶頸：或許我們將這樣實現AGI？

2025-12-31 14:07:47　來源: 機器之心Pro

北京舉報

分享至

機器之心發布

2026 年即將到來，AI 的發展也已經進入了一個新的階段：我們已經取得了驚人成就，卻同時面臨進一步增長的瓶頸。

新加坡國立大學（NUS）的尤洋教授近期發表了一篇深度分析：《智能增長的瓶頸》。

原文鏈接：https://zhuanlan.zhihu.com/p/1989100535295538013

在這篇分析文章中，尤洋教授從技術本質出發，直指智能增長的核心矛盾，為我們揭示了 AGI（通用人工智能）的可能路徑。

觀點速覽

智能增長的本質不是架構變革，而是算力如何轉化為智能：AI 的核心智能來自于預訓練及其 Loss 結構（例如 GPT 的 Next-Token Prediction）。這些機制更像是把算力轉化為智能的方法，而非智能本身。

現有智能增長遇到瓶頸的根源：當前范式（Transformer + 超大算力）在面對進一步增長時，難以充分消化不斷增長的算力資源，這導致了所謂 “預訓練紅利遞減”。

算力并不是無限擴展就能解決問題：即使算力指數級增長，如果現有算法無法有效利用這些計算資源，智能提升仍將受限。

未來方向不在于工程優化，而是底層范式突破：文章探討了更高精度計算、更高階優化器、更靈活的 Loss 設計、超大規模訓練策略等潛在突破點。

AI 未來仍然樂觀：智能增長瓶頸雖強，但仍有可能通過更好的算力利用方式被克服。預訓練可能才剛剛開始，大模型智能仍有巨大的發展空間。

AGI 的未來將如何發展？讓我們拭目以待。

尤洋教授，《智能增長的瓶頸》作者

以下為其分享原文：

智能增長的瓶頸

2026 年已至。在 ChatGPT 誕生三年多后的今天，關于我們的智能水平是否令人滿意，以及未來是否還能強勁增長，筆者想分享一些個人的看法。如有謬誤，懇請大家指正。

為了能深入探討智能的本質，本文將不涉及產品易用性、成本等商業化或落地問題，因為這些本質上與智能突破本身無關。

1. 智能的現狀

什么是智能？其實目前并沒有一個明確的定義。

從最近圖靈獎得主 Yann LeCun 和諾貝爾獎得主 Demis Hassabis 關于 AGI 的爭論中，我感受到即便是世界上最頂尖的專家也無法準確定義智能。

個人感覺，AGI 很難定義，其標準也會隨著時代的變化而變化。我依然記得十幾年前，普通人對人臉識別技術感到不可思議。如果把今天的 ChatGPT 拿到 2006 年，相信那時候的很多人會毫不懷疑地認為我們已經實現了 AGI。

我覺得智能的核心是預測創作

我認為如果達到以下這種狀態，那么就離 AGI 不遠了：

如果你選擇接受哪個工作 Offer，完全聽從 AI 的意見。
如果你買足球彩票預測世界杯冠軍，完全聽從 AI 的意見。
如果你有健康問題，會完全采用 AI 制定的方案去治療。
你分辨不清楚一部奧斯卡最佳電影是否是由 AI 生成的。
石油公司的勘探團隊用 AI 替代了所有數值算法。
AI 能指導初級高鐵工程師在 5 分鐘內排除高鐵的疑難故障。
AI 能研制出一款專殺癌細胞且不破壞好細胞的藥物。
AI 能通過某區域的地下結構數據，精準預測地震的時間。
等等……

今天，我們顯然還沒實現這些。未來能否實現，取決于我們能否克服智能發展的瓶頸。

2. 智能發展的瓶頸

今天，我們經常聽到一些關于智能發展遇到瓶頸，或者預訓練紅利已盡的觀點。何為瓶頸？我們先探討一下智能從何而來。

過去 10 年，AI 大模型的技術本質，是把電力能源通過計算過程轉化為可復用的智能。技術的好壞取決于這個轉化效率的高低。類似的表述，我也聽月之暗面的朋友提及過。

今天模型的智能本身，最主要還是來自預訓練（往往是自監督方法），僅有少量來自微調或強化學習。

為什么？先算一筆淺顯的經濟賬：因為預訓練消耗的算力最多，消耗的能源也最多。

當然，預訓練、微調、強化學習本質上都是在計算梯度以更新參數。如果有合適的海量數據和 Loss 函數，未來在預訓練階段采用 SFT（監督微調）或特殊的強化學習方法也有可能。

從智能增長的角度，我們甚至不用刻意區分預訓練、SFT 和強化學習。它們的區別主要在于更新參數的次數與規模。從計算本質上看：預訓練、微調、強化學習（比如 GRPO）都是在計算梯度的類似物，并用它來更新參數。

那么，能源從何而來呢？這就是 GPU 或算力。英偉達在這點上做了最大的貢獻。雖然英偉達有很多先進的技術，比如更強的 Tensor Cores、Transformer Engine、互聯技術（NVLink / 網絡化 NVLink）、軟件棧等，但我先試圖用一句話說清楚英偉達過去幾年在技術上做的最重要的事情，即其 GPU 設計的核心思路。

簡而言之，英偉達過去幾年最重要的路線是：在同樣的物理空間里堆更多 HBM（高帶寬內存）

HBM 雖然帶寬很高，但依然是計算核心之外的內存（Off-chip from logic die），與計算核心存在不可忽略的物理距離。為了掩蓋內存訪問延遲，GPU 只能依賴超大的 Batch Size（批處理量）和大規模并行來處理數據。英偉達 GPU 本質上就是一臺并行計算機。

因此，英偉達對算法層和軟件層的要求非常明確：必須提供足夠大的 Batch Size 或并行度。

面對英偉達的要求，很多研究團隊都提出了自己的方案。比如 RNN、Transformer、卷積序列模型（CNN for Sequence）等等。甚至有人嘗試用 SVM 來處理大規模序列數據。

那為什么 Transformer 率先脫穎而出？因為 Transformer 也是一臺并行計算機。

原初的 Transformer 架構

這里我引用一下 Ilya Sutskever 的一句話：“Transformers: parallel computers in disguise”，直白的意思是：Transformer 本質上是一個被神經網絡外殼包裹起來的并行計算機。這也是 Transformer 最先能夠顯現智能的核心原因，因為它的并行計算特性完美匹配了 GPU 的并行計算單元

同時，OpenAI 完美地實現了Next-Token Prediction這個 Loss 函數，它給了 AI 大模型近乎無限的訓練數據。理論上 BERT 的 Loss 函數（完形填空和 Next Sentence Prediction）也可以提供近乎無限的數據，但在實踐中，Next-Token Prediction 的效果明顯更好。

我推測，這個 Loss 函數最小化了人類的干預 —— 它不是人為設計的，而是大自然在進化過程中賦予人腦的邏輯。并且，Next-Token Prediction 其實是預測未來，而 BERT 的完形填空其實是把過去的信息和現在的信息串聯起來。這就好比讓一個足球專家根據歷史數據和當天的比賽結果去解釋合理性，幾乎所有專家都能做到；但是，如果讓專家去預測每一場比賽的精準比分，他們會經常出錯。這再次說明了，預測 (Prediction) 是智能的核心能力體現，難度遠高于解釋 (Explanation)

其實我挺佩服 OpenAI 團隊能夠堅持下來的勇氣。2018 年時，BERT 在媒體上的影響力幾乎完全碾壓了 GPT，且當時 OpenAI 的 AI 研發團隊體量跟 Google 比起來微不足道。很佩服他們沒有放棄 Next-Token Prediction，也沒有轉向類 BERT 的訓練方式。真理往往需要時間去檢驗。

BERT 對比 GPT

同時，以 Transformer 為核心的方案收獲了 “一箭雙雕” 的雙重優勢：

模型的每層參數量越多，并行度就越高 (Tensor Parallelism)。所以，只要通信代價不顯著增加，能同時利用的算力就越多。這點需要點贊行業領導者的先見之明。幾年前，我看到 CNN 時代有研究人員試圖把模型往深度發展，比如設想 1000 層的神經網絡。其實非常深（層數非常多）的神經網絡是不利于有效利用算力的，因為流水線并行提供的并行度上限不高。
Transformer 的不同 Token 可以同時計算。序列長度越長，并行度就越高，只要通訊代價不顯著增加，能同時利用的算力就越多。Sequence Parallelism 與 Data Parallelism 互補，進一步提供了更多的并行度。

就這樣，我們見證了 GPT-1、BERT、GPT-2、GPT-3、ChatGPT、Gemini 一步一步把智能提升到了今天的高度。

到這里，大家大概也清楚為什么 AI 模型的智能增長會遇到瓶頸了 —— 因為我們現在的范式無法充分消化持續增長的算力

假定一次模型訓練和微調消耗的浮點數計算次數（即程序員面試中的計算復雜度的具體值）從 10? 變成 10??3 時，我們是否獲得了一個顯著更好的模型？

其實，很多時候我們把 “效率優化技術” 和 “智能提升技術” 混淆了。比如，明天我提出一個新的架構，實驗發現達到跟 GPT-5 類似的效果，只需要 20% 的參數量或計算量。這其實更多是落地或商業化問題；智能的終極問題是：使用同樣的浮點數計算次數（而非 Token 量），能否獲得一個更好的模型。浮點數計算次數，才是算力最基本、最本質的計量單位。

3. 未來的方法探討

首先從硬件層來看，我們需要持續產生更大的絕對算力，這不一定局限于單位芯片上的算力提升。

前沿規模機器學習模型訓練所用計算量的趨勢，圖源：Epoch AI

即便單位芯片上的算力沒有大幅度提升，我們通過集群的方式也能構建更大的絕對算力。這里需要平衡的是：聚集芯片帶來的性能增長，要高于 “芯片或服務器之間通信增長帶來的負擔”。

所以，具體的硬指標就是：增長或至少維持住 “計算開銷/通信開銷” 這個比值。這是整個 AI 基礎設施層最核心的技術目標。要想實現這個目標，我們需要擴展性更好的并行計算技術，無論是軟件還是硬件。

更上層的探索中，我們需要讓 AI 模型在單位時間內 “吃下” 更多能源，并真正將其轉化為智能。個人感覺大概有以下幾點方向：

更高精度的計算能力。今天，從 FP16 到 FP32，甚至 FP64，模型智能并未出現明顯躍升。這本身就是一個瓶頸。理論上，更高精度應當帶來更可靠的計算結果，這一點在傳統科學計算中早已得到驗證。這個觀點可能與主流機器學習共識并不一致，而且真正發生可能需要很長時間，但從本質上看，智能仍然需要更精準的計算。這與過擬合并無直接關系，過擬合的根源在于數據規模不足或參數與數據不匹配。
更高階的優化器。 Google 的朋友告訴我，他們有時候已經不用類 Adam 優化器，而是用更高階的優化器在訓練模型。高階優化器理論上能在學習過程中給模型更好的指導，算出更好的梯度，這是模型智能提升的本質。當然，高階優化器的全面替代可能需要很長的時間。
擴展性更好的模型架構或 Loss 函數。我們仍然需要一種擴展性更好的整合和利用算力的方式。這點我們需要注意：優化效率不一定能提升智能。比如 Mamba 出來的時候，宣傳重點是吞吐量的提升，用更小的模型獲得同水平的智能。但是，本文關注的是：在最健全的 AI 基礎設施上，用最大的可接受成本，能否訓出更好的模型，獲得更高的智能。比如，今天 Google 告訴你：預算 300 億美元，半年內給我訓出一個更好的模型，不考慮省錢問題，花 10 億和花 100 億沒區別。在這個場景下，你最終是否會用 Mamba 這樣的架構？你是否需要設計更好的 Loss 函數？
更多的 Epoch 和更好的超參數。迫于成本壓力，我們今天其實并沒有對 AI 模型進行深度優化，甚至沒有深度搜索超參數。這其實也是我之所以對 AI 模型的智能繼續增長有信心的原因。我這里的意思不是直接訓練更多的 Epoch。明知無效卻生硬地跑更多 Epoch 其實是方法不對（比如參數量和數據量不匹配）。但是，根本上，更多的 Epoch 代表更多的浮點數、更多的能源。我們需要找到方法去 “吃下” 更多能源，并轉化出更高智能。

有些技術對大規模落地 AI 非常重要，比如低精度訓練、剪枝、量化、蒸餾、PD 分離等推理優化技術。但是，在一個 “算力轉智能” 極端有效的情況下，這些技術跟提升智能上限無關。筆者對這些技術的貢獻者非常尊重，它們在實際落地中至關重要，只是與本文探討的主題無關。

智能增長歸根到底還是算力利用問題。假定算力無限大，比如一個集群的算力達到今天的萬億倍，可能我們會發現更簡單的模型結構比 Transformer 和 Next-Token Prediction 的擴展性更好。從 SVM 到 CNN、LSTM、BERT、GPT、MoE：我們始終在尋找能更高效利用算力且具備更好擴展性的方法。這個過程中，核心原因是問題的規模在不斷擴大。

我們在 AI 時代到來之前便已實現天氣預報，然而至今仍未能攻克地震預報，盡管兩者本質上都是針對地球數據的研究。究其原因，地下結構涉及比大氣更加錯綜復雜、且變量規模呈指數級龐大的動態多模態數據。這種傳統計算模式難以駕馭的高維復雜性，恰恰是未來 AI 技術大有可為的機遇所在。

所以，我有信心我們未來會不斷找到更高效的算力使用方式。雖然過程中可能會有很多困難和低潮，但大趨勢不可阻擋。

最后，借用 Richard Sutton 教授的一句話收尾：人工智能 70 年的研究留給我們最大的經驗教訓是，依托計算能力的通用方法才是最終的贏家，且具備壓倒性的優勢。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.