網易首頁 > 網易號 > 正文申請入駐

神經網絡把數據"揉面團"：3層變換后，線性不可分變一刀兩斷

2026-04-06 16:01:55　來源: Ping值焦慮

北京舉報

分享至

2024年，全球AI訓練算力消耗了相當于1.2個三峽電站的年發電量。但問一個從業者"模型到底學到了什么"，多半會聽到"學習模式"這種正確的廢話——就像說廚師"處理食材"，說了等于沒說。

Medium作者Faisal Shahzad提出一個更鋒利的視角：神經網絡不是在學權重，而是在重塑數據所在的空間本身。這個解釋讓"學習"二字從抽象動詞變成了可觀察的幾何操作。

兩層數據混在一起，為什么直線切不開

想象一個二分類問題：紅點和藍點交錯分布，像打翻的調色盤。用一條直線分割？不可能。這就是經典的"異或問題"（XOR），1969年Minsky和Papert正是用它證明了單層感知機的致命缺陷。

但人類直覺知道這些點"應該"能被分開。問題不在數據，在工具——直線太僵硬了。你需要的是把空間本身擰一把，讓原本纏在一起的兩類點，在新的坐標系里變得涇渭分明。

神經網絡做的就是這個。每一層隱藏層都在對空間施加一次非線性變換：某些方向被拉長，某些被壓扁，整體旋轉、彎曲、重新折疊。單看一層變化不大，但多層堆疊后，原本線性不可分的數據會被逐步"梳理"成可用超平面分割的形態。

Shahzad把這個過程比作揉面團。原始數據是混著芝麻和核桃的面團，目標是讓芝麻聚成一團、核桃聚成另一團。每層網絡像一次揉壓——不是把芝麻挑出來，而是改變面團內部的相對位置關系。

權重更新 vs 空間變形：同一枚硬幣的兩面

傳統解釋聚焦權重更新：損失函數算誤差，反向傳播調參數，預測準確率慢慢爬升。這沒錯，但只描述了"怎么做"，沒回答"做什么"。

幾何視角把兩者統一了。權重矩陣的每一次調整，都對應著對輸入空間的一次線性變換（旋轉+縮放）；激活函數（如ReLU、Sigmoid）則引入非線性彎曲。線性+非線性的交替，讓網絡獲得了"揉面團"的能力。

可視化工具如TensorBoard的Embedding Projector能直接觀察這個過程。MNIST手寫數字的784維原始空間混沌一片，經過幾層網絡后，相同數字的向量在降維投影中明顯聚類。空間被重塑了，分類邊界自然浮現。

這個視角還能解釋過擬合的本質：網絡對訓練數據的空間變形"過度定制"，導致新數據進來時找不到對應位置。正則化技術如Dropout，相當于在揉面團時隨機按住某些部位不讓動，強制網絡學習更魯棒的空間結構。

從"特征提取"到"表征學習"：術語背后的認知升級

早期文獻愛說"隱藏層學習特征"，暗示網絡在識別邊緣、紋理、形狀等人類可理解的視覺元素。這在卷積神經網絡（CNN）的前幾層確實成立——第一層可能學到Gabor濾波器式的邊緣檢測器。

但深層網絡學到的"特征"越來越抽象，人類難以命名。幾何視角繞過了這個困境：不必糾結特征是否可解釋，只需觀察空間是否被重塑到"可分"狀態。表征學習（Representation Learning）這個術語的流行，正是這種認知遷移的標志。

Transformer架構把這個邏輯推向極致。自注意力機制（Self-Attention）不是在局部滑動窗口提取特征，而是動態計算token間的關聯權重，相當于為每個輸入樣本定制專屬的空間變形方案。BERT、GPT系列的成功，驗證了"靈活的空間重塑"比"固定的特征模板"更強大。

Shahzad在文中坦承，這個視角他"希望有人早點解釋給自己"。很多從業者困在權重矩陣的數值迷宮里，忘了抬頭看數據點在空間中的流動軌跡。

一個未被回答的問題

幾何視角漂亮地解釋了"神經網絡如何工作"，但留下了更深的謎題：為什么這種特定的空間重塑策略——分層非線性變換——在幾乎所有數據類型上都有效？圖像、文本、蛋白質結構、棋局狀態，看似無關的領域，為何共享同一種"揉面團"的數學結構？

這是表示學習（Representation Learning）領域的核心追問。有研究者猜測，真實世界的數據分布本身具有層次化、組合式的結構，恰好與深度網絡的層級架構共振。也有人從神經正切核（Neural Tangent Kernel）角度，把訓練過程近似為核方法的空間映射。

但尚無定論。就像我們知道飛機能飛是因為機翼產生升力，卻仍在爭論"為什么空氣分子會這樣集體行動"。

你在訓練模型時，會可視化隱藏層的空間分布嗎？還是只盯著損失曲線上的那個數字？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

北大團隊提出 SHINE：任意文本轉化大模型 LoRA，僅一次前向傳播

機器之心Pro 2026-03-23 15:46:38
0 跟貼 0
讓多模態檢索超越SOTA！ReCALL框架化解生成式與判別式的范式沖突

量子位 2026-04-06 23:28:00
0 跟貼 0

模仿學習如何賦能靈巧操作？這有一份「2021-2025」全景技術圖譜

機器之心Pro 2026-04-07 13:23:01
0 跟貼 0

AI邪修時刻！Meta聯手MIT投毒，左腳踩右腳強行升天

新智元 2026-04-07 09:43:43
0 跟貼 0
Meta員工空轉AI只為浪費token！燒的多掙的多，日均消耗2萬億

量子位 2026-04-07 17:13:17
0 跟貼 0

Karpathy知識庫「LLM Wiki」火爆了，全網圍觀討論

機器之心Pro 2026-04-07 11:08:13
1 跟貼 1

飆至300億美元！Anthropic年化收入首超OpenAI，官宣AI芯片大單

智東西 2026-04-07 15:57:14
0 跟貼 0
Claude爆火研究漏引華人團隊成果，已挨打立正道歉

量子位 2026-04-07 17:03:51
0 跟貼 0

炸穿硅谷！270頁文件曝光OpenAI絕密黑料，撕開AI巨頭資本權力暗戰

鈦媒體APP 2026-04-07 16:39:20
0 跟貼 0
哈薩比斯傳記里講了好多八卦啊

量子位 2026-04-07 16:45:21
0 跟貼 0
力控與運控的融合，共話具身智能“小腦”進化的破局之道

鈦媒體APP 2026-04-07 16:50:38
0 跟貼 0
邀請函｜ICLR 2026中稿先講，在這場預講會遇見你的學術同行

DeepTech深科技 2026-04-07 18:37:24
0 跟貼 0
“Claude Code更新廢了”！思考深度降67%，無法勝任復雜工程任務

量子位 2026-04-07 14:07:07
0 跟貼 0
PMDformer：一個簡單減法實現長時序預測注意力機制糾偏

機器之心Pro 2026-04-07 13:31:21
0 跟貼 0
爺爺自制搟餃子皮神器，面團滾一滾就圓，新手也能輕松學會！

生活凰凰樂 2026-04-05 19:22:10
1 跟貼 1
易中天，獲獎勵20萬元

極目新聞 2026-04-06 21:04:19
25128 跟貼 25128
河南小伙，被中東大佬下300輛戰車模型，全村都上了！

乘風笑浪 2026-04-06 14:56:09
3 跟貼 3
記住兩個順口溜，數學猛漲30分。聽聽老師怎么說的

告白手工 2026-04-07 04:35:02
0 跟貼 0
風箏-鄭耀先被催婚了！一套邏輯下來，說的徐百川啞口無言

龍耀影視 2026-04-03 09:03:13
3 跟貼 3
科學家用活體神經元完成計算任務，腦機融合邁出驚人一步

DeepTech深科技 2026-04-05 19:24:24
41 跟貼 41
“祖先給的特權”，河南網友稱祖墳在景區祭祖免票，景區回應：沒過檢票口，一般是附近住戶的祖墳

大風新聞 2026-04-06 15:06:12
2008 跟貼 2008
鄭麗文率團抵達上海開啟大陸參訪行程

環球網資訊 2026-04-07 13:18:07
41 跟貼 41
完球了，GPT-4o之母宣布離職OpenAI

量子位 2026-04-07 17:19:50
2 跟貼 2
毛新宇攜家人到楊開慧烈士陵園祭掃

政知新媒體 2026-04-05 08:48:13
2676 跟貼 2676
國家繼續實施調控成品油價格適當調整

財聯社 2026-04-07 15:04:33
1125 跟貼 1125
火影兩大掛壁：數值怪和機制怪

家居老余 2026-04-06 01:49:34
0 跟貼 0
趙心童創“三冠”新紀錄，英媒直呼：其統治力“令對手膽寒”

環球網資訊 2026-04-07 06:56:17
124 跟貼 124
陳麗華47歲倒追遲重瑞財富傳承披露：1兒2女均在富華

極目新聞 2026-04-07 12:39:33
13 跟貼 13
紫牛頭條｜對話張雪師父“牙哥：賽車夢想托付張雪，我的夢想是為中國飛機出份力

揚子晚報 2026-04-06 22:26:58
177 跟貼 177
戶外捕魚：村民用面團做餌釣魚只收獲條小魚

可愛爆了 2026-04-05 17:32:48
3 跟貼 3
加完數值后，不玩平高玩法，改玩強攻玩法！

迎男而上 2026-04-06 09:35:54
1 跟貼 1
反比例函數增減性第1講，一個視頻學會！

大鵬老師講數學 2026-04-07 05:17:00
0 跟貼 0
不止055！神秘水泥模型曝光，中國2萬噸巨艦要來了？

因果 2026-04-06 20:39:40
0 跟貼 0
大姐給瓷杯身涂滿油，在面團上按出形狀，做出來的包子皮厚餡少

時空融媒 2026-04-04 15:58:28
0 跟貼 0
Claude Code一周份額，一天燒完一半？有人逆向工程發現了7個bug

機器之心Pro 2026-04-07 17:34:08
0 跟貼 0
濤濤車業：預計2026年一季度凈利潤為1.55億元~1.95億元，同比增長79.79%~126.19%

每日經濟新聞 2026-04-07 16:57:09
0 跟貼 0
源自電路理論的即插即用方法讓視覺Transformer重獲高清細節

機器之心Pro 2025-10-15 16:12:13
0 跟貼 0
簡潔商務！5套大氣企業介紹PPT模板，做公司簡介簡直太高級了！

PPTGo 2026-04-07 09:38:04
0 跟貼 0
網友清明上山偶遇野生菌，形狀奇特像小燈籠，網友：按照菌子邏輯，越好看越毒

重慶科教融媒體 2026-04-06 17:38:57
0 跟貼 0
千問剛破紀錄，奧特曼就喊算力不夠

AI效率筆記 2026-04-07 12:48:01
0 跟貼 0

手機 / 數碼

房產 / 家居

神經網絡把數據"揉面團"：3層變換后，線性不可分變一刀兩斷

兩層數據混在一起，為什么直線切不開

權重更新 vs 空間變形：同一枚硬幣的兩面

從"特征提取"到"表征學習"：術語背后的認知升級

一個未被回答的問題

滿嘴謊言！OpenAI奧特曼黑料大起底

英媒：伊朗最高領袖病重昏迷 無法參與任何國家決策

英媒：伊朗最高領袖病重昏迷 無法參與任何國家決策

官宣簽約“AI球員”，這支球隊被罵慘了...

女首富陳麗華離世 被曝生前已分好遺產

10萬億財政轉移支付，被誰拿走了？

不止是大 極狐首款MPV問道V9靜態體驗

態度原創

勁爆大雷新作與你共探神秘小樹林 面紅嬌羞白天可別玩

跟著歌聲游安徽，聽古村回響

楊超越之后，全網頭像錦鯉的C位被她搶走了

可樂、魚腥草進教室…武漢商學院這堂“食品感官分析”課，夯爆了

英媒：伊朗最高領袖病重昏迷無法參與任何國家決策

英媒：伊朗最高領袖病重昏迷無法參與任何國家決策

女首富陳麗華離世被曝生前已分好遺產

不止是大極狐首款MPV問道V9靜態體驗

勁爆大雷新作與你共探神秘小樹林面紅嬌羞白天可別玩