2024年,全球AI訓練算力消耗了相當于1.2個三峽電站的年發電量。但問一個從業者"模型到底學到了什么",多半會聽到"學習模式"這種正確的廢話——就像說廚師"處理食材",說了等于沒說。
Medium作者Faisal Shahzad提出一個更鋒利的視角:神經網絡不是在學權重,而是在重塑數據所在的空間本身。這個解釋讓"學習"二字從抽象動詞變成了可觀察的幾何操作。
兩層數據混在一起,為什么直線切不開
想象一個二分類問題:紅點和藍點交錯分布,像打翻的調色盤。用一條直線分割?不可能。這就是經典的"異或問題"(XOR),1969年Minsky和Papert正是用它證明了單層感知機的致命缺陷。
但人類直覺知道這些點"應該"能被分開。問題不在數據,在工具——直線太僵硬了。你需要的是把空間本身擰一把,讓原本纏在一起的兩類點,在新的坐標系里變得涇渭分明。
神經網絡做的就是這個。每一層隱藏層都在對空間施加一次非線性變換:某些方向被拉長,某些被壓扁,整體旋轉、彎曲、重新折疊。單看一層變化不大,但多層堆疊后,原本線性不可分的數據會被逐步"梳理"成可用超平面分割的形態。
Shahzad把這個過程比作揉面團。原始數據是混著芝麻和核桃的面團,目標是讓芝麻聚成一團、核桃聚成另一團。每層網絡像一次揉壓——不是把芝麻挑出來,而是改變面團內部的相對位置關系。
權重更新 vs 空間變形:同一枚硬幣的兩面
傳統解釋聚焦權重更新:損失函數算誤差,反向傳播調參數,預測準確率慢慢爬升。這沒錯,但只描述了"怎么做",沒回答"做什么"。
幾何視角把兩者統一了。權重矩陣的每一次調整,都對應著對輸入空間的一次線性變換(旋轉+縮放);激活函數(如ReLU、Sigmoid)則引入非線性彎曲。線性+非線性的交替,讓網絡獲得了"揉面團"的能力。
可視化工具如TensorBoard的Embedding Projector能直接觀察這個過程。MNIST手寫數字的784維原始空間混沌一片,經過幾層網絡后,相同數字的向量在降維投影中明顯聚類。空間被重塑了,分類邊界自然浮現。
這個視角還能解釋過擬合的本質:網絡對訓練數據的空間變形"過度定制",導致新數據進來時找不到對應位置。正則化技術如Dropout,相當于在揉面團時隨機按住某些部位不讓動,強制網絡學習更魯棒的空間結構。
從"特征提取"到"表征學習":術語背后的認知升級
早期文獻愛說"隱藏層學習特征",暗示網絡在識別邊緣、紋理、形狀等人類可理解的視覺元素。這在卷積神經網絡(CNN)的前幾層確實成立——第一層可能學到Gabor濾波器式的邊緣檢測器。
但深層網絡學到的"特征"越來越抽象,人類難以命名。幾何視角繞過了這個困境:不必糾結特征是否可解釋,只需觀察空間是否被重塑到"可分"狀態。表征學習(Representation Learning)這個術語的流行,正是這種認知遷移的標志。
Transformer架構把這個邏輯推向極致。自注意力機制(Self-Attention)不是在局部滑動窗口提取特征,而是動態計算token間的關聯權重,相當于為每個輸入樣本定制專屬的空間變形方案。BERT、GPT系列的成功,驗證了"靈活的空間重塑"比"固定的特征模板"更強大。
Shahzad在文中坦承,這個視角他"希望有人早點解釋給自己"。很多從業者困在權重矩陣的數值迷宮里,忘了抬頭看數據點在空間中的流動軌跡。
一個未被回答的問題
幾何視角漂亮地解釋了"神經網絡如何工作",但留下了更深的謎題:為什么這種特定的空間重塑策略——分層非線性變換——在幾乎所有數據類型上都有效?圖像、文本、蛋白質結構、棋局狀態,看似無關的領域,為何共享同一種"揉面團"的數學結構?
這是表示學習(Representation Learning)領域的核心追問。有研究者猜測,真實世界的數據分布本身具有層次化、組合式的結構,恰好與深度網絡的層級架構共振。也有人從神經正切核(Neural Tangent Kernel)角度,把訓練過程近似為核方法的空間映射。
但尚無定論。就像我們知道飛機能飛是因為機翼產生升力,卻仍在爭論"為什么空氣分子會這樣集體行動"。
你在訓練模型時,會可視化隱藏層的空間分布嗎?還是只盯著損失曲線上的那個數字?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.