網易首頁 > 網易號 > 正文申請入駐

Bengio 15 年前論文再奪 AAAI 獎！AI 正告別單純炫技，走向真實世界

2026-01-26 15:37:37　來源: InfoQ

北京舉報

分享至

作者 | 木子

新加坡的會場里，全球人工智能頂會AAAI，正式揭曉年度獎項，也迎來了它的第 40 個年頭。

今年共頒發了 5 個杰出論文獎，以及 2 個經典論文獎。在獲獎名單中，竟然還有“機器學習三巨頭”之一的Yoshua Bengio。

不過這一次，他并不是因為最新成果獲獎，而是憑借在 2011 年寫的一篇論文獲得了經典論文獎。而且不久前，他剛達成 AI 領域首個“百萬被引作者”的成就。

為什么 10 多年前的這篇論文，會在今年被重新拉出來，還獲得了經典論文獎？

不妨來看看它講了些什么。

論文名為 Learning Structured Embeddings of Knowledge Bases（《面向知識庫的結構化表示學習》）。提出了一種方法，把知識庫的結構化數據嵌入到連續空間中，從而讓結構化知識更容易用于機器學習任務。

換句話說，這篇文章解決的是如何把離散世界（知識、事實、關系）嵌入到連續空間；以及如何讓神經網絡不靠純統計，而是“接住現實結構”。而今天熱門的世界模型、RAG、Agent 的外部記憶等等這些東西，從本質上講，全都在復用這條路線。

再說回今年獲獎的5 篇杰出論文，這些論文有講機器人和 VLA 的，有在講如何在連續時間系統中讓 AI 模型“白盒化”的，還有講 LLM 和 CLIP、講高頻信號和局部判別結構的。

串起來看，這些論文的研究方向，其實可以概括出一個共同指向：AI 的競爭，已從拼實驗環境的中的炫酷 Demo，轉向真正的應用層。Scaling Law 那套雖然不完全失效，但多少有點過時了，誰能在真實世界中被理解、被修訂、被信任越來越關鍵。

AAAI 2026: AI 走向現實，

評獎標準重塑

下面來看看這幾篇杰出論文，都有哪些有意思的信息。

具身智能領域：

論文名： ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver （ReconVLA：作為高效機器人感知器的重建式視覺 - 語言 - 動作模型）

要說清本文的創新點，需要再這里先簡單回顧一下什么是 VLA——VLA（Vision-Language-Action）具身智能領域的一個關鍵模型，可以把視覺感知、語言理解和動作生成統一到同一個模型中，直接根據“看到什么 + 聽到什么”，來輸出可執行機器人動作。

不過當前 VLA 的缺陷也是很明顯的：比如模型在執行動作時，視覺注意力高度分散；即便模型能“理解指令”，但在復雜場景、多干擾物、長任務中，往往看不準真正要操作的物體。

結果就是：抓錯對象、操作不精確（現實世界對精確度要求很高）、長鏈任務中途失敗等等。

總之，以往 VLA 只監督“動作輸出”，幾乎不約束“視覺感知過程本身”。

而ReconVLA 的關鍵思想是：不“告訴模型看哪里”，而是“逼模型把關鍵區域重建出來”。

其核心機制，簡單來說，就是模擬人類視覺的“凝視（gaze）”機制，不要求模型輸出框，也不輸入裁剪圖，而是讓模型在內部生成一種“重建信號”，去還原“當前要操作的局部區域”。

論文還系統性地對比了三類視覺定位（grounding）范式：

一類是以外部檢測器和裁剪圖像為代表的Explicit Grounding，
一類是先輸出目標框、再生成動作的CoT Grounding，
以及作者提出的Implicit Grounding（隱式 Grounding），也就是 ReconVLA 的方式。

圖注：不同范式 Grounding 之間的概念性對比。

前兩類方法本質上都是在顯式告訴模型“答案在哪里”，并未真正改變 VLA 內部的視覺表示和注意力機制。

而 ReconVLA 通過重建過程，將關鍵區域作為一種隱式的視覺監督信號，引導模型生成所謂的“重建 token（reconstructive tokens）”，從而在不引入額外輸入或輸出的前提下，重塑視覺感知能力。

換句話說，它不再讓模型“蒙著眼睛試動作”，而是強制模型在每一步決策前，先把目標對象看準，再去動手。

關于從“結果可解釋”，走向“結構可操作”：

論文名： Causal Structure Learning for Dynamical Systems with Theoretical Score Analysis （基于理論評分分析的動態系統因果結構學習方法）

這篇論文提出了一種方法：CADYT。能夠在連續時間、甚至不規則采樣的數據中，同時刻畫系統的動力學演化，并恢復其中的因果結構。

更重要的是，作者證明了用于判斷因果關系的評分函數，在理論上等價于一種合理的模型選擇準則，而不是經驗性的啟發式指標。換句話說，就是這個評分不是憑經驗設計的，而是從理論上保證：它會偏向那些“解釋得剛剛好、不多也不少”的因果結構。

在現實世界的系統中，無論是工業控制、物理系統，還是醫療過程，系統本質上都是連續時間演化的，而且由穩定的因果機制驅動。但以往的方法往往只能解決其中一半問題。

一類是時間序列因果發現方法，它們通常基于離散時間建模（如 DBN、Granger），并假設規則采樣，因此在面對真實的連續動力學和不規則采樣時，難以準確刻畫系統本身的演化機制。

另一類是連續時間動力學建模方法（如 Neural ODE、GP-ODE），雖然能自然處理不規則采樣，卻主要關注預測精度，本質上并不區分因果依賴與偶然相關。

這就留下了一個長期存在的空白：幾乎沒有方法，既工作在連續時間框架下，又能夠同時恢復系統的動力學機制和因果結構。

而 CADYT 正是針對這一空白提出的。它將連續時間的高斯過程動力學建模，與基于最小描述長度（MDL）和算法馬爾可夫條件（AMC）的因果評分結合起來，在不規則采樣條件下，通過比較不同因果結構對數據的“壓縮能力”，來識別真正的因果關系，并給出了明確的理論保證。

說得更直白一點，這項工作把連續時間動力學建模，從“擬合得像不像真實軌跡”，推進到了“學到的機制在因果上是不是對的”。

論文名： Model Change for Description Logic Concepts （描述邏輯概念的模型變更）

此論文還未公開上傳，暫無鏈接。

關于表示學習，重新審視結構本身

論文名： LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation （LLM2CLIP：強大語言模型解鎖更豐富跨模態表征）

CLIP（Contrastive Language–Image Pre-training）是一個經典的多模態模型，通過對比學習，將圖像和文本映射到同一語義空間，從而實現“以文找圖、以圖找文”等跨模態理解能力。

CLIP 在跨模態檢索和基礎語義對齊上表現出色，但它也有一個公認的短板：文本編碼器容量較小、上下文長度有限，對長、復雜、信息密集的文本理解能力不足。這在長文本檢索、多語言理解等場景中尤為明顯。

LLM 在語言理解、上下文建模和世界知識方面，倒是明顯更強。但問題在于，LLM 不能直接接入 CLIP。

——一方面，原生 LLM 的句向量并不具備對比學習所需的“高區分度”，很難有效拉開不同 caption 之間的距離；另一方面，如果端到端聯合訓練 LLM 和 CLIP，計算成本也高得不可接受。

這篇論文提出了一種系統化的新方法，名曰：LLM2CLIP，顧名思義，把 LLM“接入”或“輸送”到 CLIP 里，用 LLM 來替代或者增強 CLIP 的文本能力。

但這并不是簡單地把 LLM 直接接進去。作者給出的解決路徑，是分兩步走，各解決一個關鍵障礙。

第一步，是先讓 LLM 成為一個“合格的文本 embedding 模型”。為此，論文提出了Caption-Contrastive Fine-tuning：

使用同一張圖像對應的不同 caption 作為正樣本，通過對比學習，讓語義相近的描述在向量空間中更接近、不相關的描述更遠；同時配合平均池化、雙向注意力和 LoRA 等結構調整，提升句向量的穩定性和可區分性。

這一步的目標并不是做多模態，而是把 LLM 訓練成一個真正“好用”的文本表示器。

第二步，則是直接用經過處理的 LLM，替換掉 CLIP 原有的文本編碼器。在這一階段，LLM 參數被凍結，僅訓練一個非常輕量的 adaptor 來對齊視覺特征，使整體訓練流程幾乎等同于普通的 CLIP 微調，算力成本基本不變。

大量消融實驗表明：同時保留兩個文本編碼器、或試圖在兩者之間做復雜對齊，效果反而更差；“直接替換”是最簡單、也是最有效的方案。

實驗結果顯示，LLM2CLIP 在長文本檢索任務上提升最為顯著，短文本檢索也有穩定增益，同時多語言檢索能力明顯增強。更重要的是，這些提升是在僅使用百萬級數據、幾乎不增加訓練成本的前提下實現的。

總體來看，LLM2CLIP 的價值在于，它沒有重造一個更大的多模態模型，而是用一種低成本、可復用的方式，把“語言理解”這塊短板，直接補進了 CLIP 的核心結構里。

論文名： High-Pass Matters: Theoretical Insights and Sheaflet-Based Design for Hypergraph Neural Networks （高頻信息的重要性：面向超圖神經網絡的理論分析與 Sheaflet 方法設計）

此論文還未公開上傳，暫無鏈接。

總而言之，這些研究都在把關注點從結果層面的性能，推向模型內部的感知、結構和機制本身。

論文地址：

https://arxiv.org/abs/2508.10333

https://arxiv.org/abs/2411.04997

https://arxiv.org/abs/2512.14361

https://aaai.org/about-aaai/aaai-awards/aaai-conference-paper-awards-and-recognition/

https://aaai.org/about-aaai/aaai-awards/aaai-classic-paper-award/?utm_source

https://aaai.org/conference/aaai/aaai-26/award-talks/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

ApdativeNN：建模類人自適應感知機制，突破機器視覺不可能三角

機器之心Pro 2025-11-28 17:15:19
0 跟貼 0
AAAI 2026 Oral｜LENS：基于統一強化推理的分割大模型

機器之心Pro 2025-12-29 14:57:57
0 跟貼 0

高效智能體幕后推手是誰？一篇綜述帶你從記憶×工具學習×規劃看透

機器之心Pro 2026-01-27 15:24:36
0 跟貼 0

一文速通「機器人3D場景表示」發展史

機器之心Pro 2026-01-23 13:01:05
0 跟貼 0
Sakana AI造了個數字生命「培養皿」，AI學會打架、結盟、搶地盤

機器之心Pro 2025-11-05 13:58:14
0 跟貼 0

揭秘GLM-5技術底牌：「異步強化學習框架Slime」成終極殺招

機器之心Pro 2026-02-23 18:49:46
0 跟貼 0

對話鹿明機器人：在具身智能的“數據荒”里，做一個送水人｜AI Founder 請回答

鈦媒體APP 2026-01-11 12:48:38
0 跟貼 0
開年重磅萬字長文范式復盤：我們在AI奇點之中

虎嗅APP 2026-02-23 21:16:14
0 跟貼 0

北大團隊讓AI智能體「入侵」論壇，指揮真實機器人執行任務

新智元 2026-02-21 12:03:31
8 跟貼 8
AI不再「炫技」，淘寶要讓技術解決用戶每一個具體問題

機器之心Pro 2025-10-28 14:02:58
0 跟貼 0
DPO「只看總分不看細節」？TI-DPO用Token重要性重塑大模型對齊

機器之心Pro 2026-02-11 13:45:57
0 跟貼 0
OpenAI神秘「波蘭軍團」曝光！奧特曼：沒他們就沒有OpenAI

新智元 2026-02-23 09:18:39
49 跟貼 49
中美AI同步加速：47天30次更新，中國AI的最強主場究竟在哪？

量子位 2026-02-22 18:31:31
8 跟貼 8
三個和尚沒水喝！OpenAI星際之門擱淺，一年過去壓根沒動工

量子位 2026-02-23 12:41:44
5 跟貼 5
人活著的唯一理由是善良

葉檀財經 2026-02-01 17:07:04
18 跟貼 18
OpenAI大佬爆料：本科生靠一篇博客殺進OpenAI！沒博士，0篇論文

新智元 2026-02-23 21:14:12
0 跟貼 0
項目陷入停滯、算力明爭暗斗，5000億美元的星際之門何去何從？

機器之心Pro 2026-02-23 18:54:02
1 跟貼 1
面壁智能開源全模態模型MiniCPM-o4.5，邊看邊聽還能主動搶答

量子位 2026-02-05 23:20:12
0 跟貼 0
貼上標簽就能辨真假？微軟的AI內容核查方案能走多遠

DeepTech深科技 2026-02-23 20:24:53
0 跟貼 0
AI模型燒掉的Token，對應多少GDP？AI的經濟貢獻現在有數了

機器之心Pro 2026-02-23 19:01:38
0 跟貼 0
他讓機器人學會看屏操作，不插數據線就能像人一樣戳手機

DeepTech深科技 2026-02-23 20:17:25
0 跟貼 0
行業最大規模具身數據集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0
荒野求生（機器狗全自主版），2025ATEC挑戰真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
行業最大規模具身數據集！出自簡智機器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0
大模型的下半場，屬于擁有云+AI全棧引擎的玩家

量子位 2026-01-30 03:29:45
0 跟貼 0
高通萬衛星談終端大模型優勢：個性化與數據推理

量子位 2025-12-11 03:38:41
0 跟貼 0
陶哲軒：AI看似在推理，其實是在背答案

量子位 2026-01-05 09:20:21
0 跟貼 0
他們在1993年就提出了Scaling Law

量子位 2025-09-03 10:24:41
0 跟貼 0
空氣動力學？聽起來好像很高級，但是一點都不難

科技樹科普 2026-02-20 13:58:19
106 跟貼 106
肯定有人會瑟瑟發抖，我們的鋼鐵戰士在不久的將來就會閃亮登場

九分看世界 2026-02-20 21:50:55
96 跟貼 96
如果世界是電腦模擬的，人類能否像黑客一樣“越獄”逃離?

DeepTech深科技 2026-02-16 10:08:29
31 跟貼 31
AAAI 2026 Oral｜InfiGUI-G1模型來了，刷新GUI Grounding SOTA

機器之心Pro 2026-01-05 14:43:58
0 跟貼 0
32倍壓縮率下性能反超25個點！破解長文本壓縮「翻車」難題

量子位 2026-02-23 12:50:32
0 跟貼 0
只有在過年的時候，才能看到老板炫技，沒十年功夫真切不成這樣！

大漢搞笑家 2026-02-21 13:40:00
0 跟貼 0
農村開車炫技，這車只能中午開，因為早晚會出事

幽默狂歡營 2026-02-19 21:56:28
0 跟貼 0
理解與尊重比協議更重要：扎哈羅娃眼中的中俄關系底層邏輯

創作者_7SAu 2026-02-21 03:03:54
0 跟貼 0
Moltbot之父深度訪談：獨家披露加入OpenAI內幕

DeepTech深科技 2026-02-23 19:47:27
0 跟貼 0
牛頓愛因斯坦都栽過的宇宙理論坑？

偵探錄 2026-02-22 14:03:05
1 跟貼 1
莫斯科空域遭侵襲多位中國游客滯留

極目新聞 2026-02-23 12:06:50
24139 跟貼 24139
安全與算力不沖突！港大清華等首創憶阻器共位認證處理系統

新智元 2026-02-22 12:41:00
0 跟貼 0

InfoQ

有內容的技術社區媒體

12069文章數 51762關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

教育

健康

數碼

藝術

家居要聞

手機 / 數碼

房產 / 家居

Bengio 15 年前論文再奪 AAAI 獎！AI 正告別單純炫技，走向真實世界

智譜、MiniMax合計蒸發近千億市值，為何？

鄭麗文接受外媒專訪：若臺海爆發沖突臺灣將成最大輸家

鄭麗文接受外媒專訪：若臺海爆發沖突臺灣將成最大輸家

哈登版騎士首敗：雷霆的冠軍課

那藝娜賬號被禁止關注，視頻已清空！

美國海關將停止征收被裁定違法的關稅

續航1810km！smart精靈#6 EHD超級電混2026年上市

態度原創

本真棲居 愛暖伴流年

90%的父母教育順序都搞反了

轉頭就暈的耳石癥，能開車上班嗎？

1986年的蘋果巨無霸Mac電腦亮相：女孩打字演示 這鍵盤太狂了

十大名家畫春，送給春天的你！

本真棲居愛暖伴流年

1986年的蘋果巨無霸Mac電腦亮相：女孩打字演示這鍵盤太狂了