
作者 | 木子
新加坡的會場里,全球人工智能頂會AAAI,正式揭曉年度獎項,也迎來了它的第 40 個年頭。
今年共頒發了 5 個杰出論文獎,以及 2 個經典論文獎。在獲獎名單中,竟然還有“機器學習三巨頭”之一的Yoshua Bengio。
不過這一次,他并不是因為最新成果獲獎,而是憑借在 2011 年寫的一篇論文獲得了經典論文獎。而且不久前,他剛達成 AI 領域首個“百萬被引作者”的成就。
為什么 10 多年前的這篇論文,會在今年被重新拉出來,還獲得了經典論文獎?
不妨來看看它講了些什么。
論文名為 Learning Structured Embeddings of Knowledge Bases(《面向知識庫的結構化表示學習》)。提出了一種方法,把知識庫的結構化數據嵌入到連續空間中,從而讓結構化知識更容易用于機器學習任務。
換句話說,這篇文章解決的是如何把離散世界(知識、事實、關系)嵌入到連續空間;以及如何讓神經網絡不靠純統計,而是“接住現實結構”。而今天熱門的世界模型、RAG、Agent 的外部記憶等等這些東西,從本質上講,全都在復用這條路線。
再說回今年獲獎的5 篇杰出論文,這些論文有講機器人和 VLA 的,有在講如何在連續時間系統中讓 AI 模型“白盒化”的,還有講 LLM 和 CLIP、講高頻信號和局部判別結構的。
![]()
串起來看,這些論文的研究方向,其實可以概括出一個共同指向:AI 的競爭,已從拼實驗環境的中的炫酷 Demo,轉向真正的應用層。Scaling Law 那套雖然不完全失效,但多少有點過時了,誰能在真實世界中被理解、被修訂、被信任越來越關鍵。
AAAI 2026: AI 走向現實,
評獎標準重塑
下面來看看這幾篇杰出論文,都有哪些有意思的信息。
具身智能領域:
論文名: ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver (ReconVLA:作為高效機器人感知器的重建式視覺 - 語言 - 動作模型)
![]()
要說清本文的創新點,需要再這里先簡單回顧一下什么是 VLA——VLA(Vision-Language-Action)具身智能領域的一個關鍵模型,可以把視覺感知、語言理解和動作生成統一到同一個模型中,直接根據“看到什么 + 聽到什么”,來輸出可執行機器人動作。
不過當前 VLA 的缺陷也是很明顯的:比如模型在執行動作時,視覺注意力高度分散;即便模型能“理解指令”,但在復雜場景、多干擾物、長任務中,往往看不準真正要操作的物體。
結果就是:抓錯對象、操作不精確(現實世界對精確度要求很高)、長鏈任務中途失敗等等。
總之,以往 VLA 只監督“動作輸出”,幾乎不約束“視覺感知過程本身”。
而ReconVLA 的關鍵思想是:不“告訴模型看哪里”,而是“逼模型把關鍵區域重建出來”。
其核心機制,簡單來說,就是模擬人類視覺的“凝視(gaze)”機制,不要求模型輸出框,也不輸入裁剪圖,而是讓模型在內部生成一種“重建信號”,去還原“當前要操作的局部區域”。
論文還系統性地對比了三類視覺定位(grounding)范式:
一類是以外部檢測器和裁剪圖像為代表的Explicit Grounding,
一類是先輸出目標框、再生成動作的CoT Grounding,
以及作者提出的Implicit Grounding(隱式 Grounding),也就是 ReconVLA 的方式。
![]()
圖注:不同范式 Grounding 之間的概念性對比。
前兩類方法本質上都是在顯式告訴模型“答案在哪里”,并未真正改變 VLA 內部的視覺表示和注意力機制。
而 ReconVLA 通過重建過程,將關鍵區域作為一種隱式的視覺監督信號,引導模型生成所謂的“重建 token(reconstructive tokens)”,從而在不引入額外輸入或輸出的前提下,重塑視覺感知能力。
換句話說,它不再讓模型“蒙著眼睛試動作”,而是強制模型在每一步決策前,先把目標對象看準,再去動手。
關于從“結果可解釋”,走向“結構可操作”:
論文名: Causal Structure Learning for Dynamical Systems with Theoretical Score Analysis (基于理論評分分析的動態系統因果結構學習方法)
![]()
這篇論文提出了一種方法:CADYT。能夠在連續時間、甚至不規則采樣的數據中,同時刻畫系統的動力學演化,并恢復其中的因果結構。
![]()
更重要的是,作者證明了用于判斷因果關系的評分函數,在理論上等價于一種合理的模型選擇準則,而不是經驗性的啟發式指標。換句話說,就是這個評分不是憑經驗設計的,而是從理論上保證:它會偏向那些“解釋得剛剛好、不多也不少”的因果結構。
在現實世界的系統中,無論是工業控制、物理系統,還是醫療過程,系統本質上都是連續時間演化的,而且由穩定的因果機制驅動。但以往的方法往往只能解決其中一半問題。
一類是時間序列因果發現方法,它們通常基于離散時間建模(如 DBN、Granger),并假設規則采樣,因此在面對真實的連續動力學和不規則采樣時,難以準確刻畫系統本身的演化機制。
另一類是連續時間動力學建模方法(如 Neural ODE、GP-ODE),雖然能自然處理不規則采樣,卻主要關注預測精度,本質上并不區分因果依賴與偶然相關。
這就留下了一個長期存在的空白:幾乎沒有方法,既工作在連續時間框架下,又能夠同時恢復系統的動力學機制和因果結構。
而 CADYT 正是針對這一空白提出的。它將連續時間的高斯過程動力學建模,與基于最小描述長度(MDL)和算法馬爾可夫條件(AMC)的因果評分結合起來,在不規則采樣條件下,通過比較不同因果結構對數據的“壓縮能力”,來識別真正的因果關系,并給出了明確的理論保證。
說得更直白一點,這項工作把連續時間動力學建模,從“擬合得像不像真實軌跡”,推進到了“學到的機制在因果上是不是對的”。
論文名: Model Change for Description Logic Concepts (描述邏輯概念的模型變更)
![]()
此論文還未公開上傳,暫無鏈接。
關于表示學習,重新審視結構本身
論文名: LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation (LLM2CLIP:強大語言模型解鎖更豐富跨模態表征)
![]()
CLIP(Contrastive Language–Image Pre-training)是一個經典的多模態模型,通過對比學習,將圖像和文本映射到同一語義空間,從而實現“以文找圖、以圖找文”等跨模態理解能力。
CLIP 在跨模態檢索和基礎語義對齊上表現出色,但它也有一個公認的短板:文本編碼器容量較小、上下文長度有限,對長、復雜、信息密集的文本理解能力不足。這在長文本檢索、多語言理解等場景中尤為明顯。
LLM 在語言理解、上下文建模和世界知識方面,倒是明顯更強。但問題在于,LLM 不能直接接入 CLIP。
——一方面,原生 LLM 的句向量并不具備對比學習所需的“高區分度”,很難有效拉開不同 caption 之間的距離;另一方面,如果端到端聯合訓練 LLM 和 CLIP,計算成本也高得不可接受。
這篇論文提出了一種系統化的新方法,名曰:LLM2CLIP,顧名思義,把 LLM“接入”或“輸送”到 CLIP 里,用 LLM 來替代或者增強 CLIP 的文本能力。
![]()
但這并不是簡單地把 LLM 直接接進去。作者給出的解決路徑,是分兩步走,各解決一個關鍵障礙。
第一步,是先讓 LLM 成為一個“合格的文本 embedding 模型”。為此,論文提出了Caption-Contrastive Fine-tuning:
使用同一張圖像對應的不同 caption 作為正樣本,通過對比學習,讓語義相近的描述在向量空間中更接近、不相關的描述更遠;同時配合平均池化、雙向注意力和 LoRA 等結構調整,提升句向量的穩定性和可區分性。
這一步的目標并不是做多模態,而是把 LLM 訓練成一個真正“好用”的文本表示器。
第二步,則是直接用經過處理的 LLM,替換掉 CLIP 原有的文本編碼器。在這一階段,LLM 參數被凍結,僅訓練一個非常輕量的 adaptor 來對齊視覺特征,使整體訓練流程幾乎等同于普通的 CLIP 微調,算力成本基本不變。
大量消融實驗表明:同時保留兩個文本編碼器、或試圖在兩者之間做復雜對齊,效果反而更差;“直接替換”是最簡單、也是最有效的方案。
實驗結果顯示,LLM2CLIP 在長文本檢索任務上提升最為顯著,短文本檢索也有穩定增益,同時多語言檢索能力明顯增強。更重要的是,這些提升是在僅使用百萬級數據、幾乎不增加訓練成本的前提下實現的。
總體來看,LLM2CLIP 的價值在于,它沒有重造一個更大的多模態模型,而是用一種低成本、可復用的方式,把“語言理解”這塊短板,直接補進了 CLIP 的核心結構里。
論文名: High-Pass Matters: Theoretical Insights and Sheaflet-Based Design for Hypergraph Neural Networks (高頻信息的重要性:面向超圖神經網絡的理論分析與 Sheaflet 方法設計)
![]()
此論文還未公開上傳,暫無鏈接。
總而言之,這些研究都在把關注點從結果層面的性能,推向模型內部的感知、結構和機制本身。
論文地址:
https://arxiv.org/abs/2508.10333
https://arxiv.org/abs/2411.04997
https://arxiv.org/abs/2512.14361
https://aaai.org/about-aaai/aaai-awards/aaai-conference-paper-awards-and-recognition/
https://aaai.org/about-aaai/aaai-awards/aaai-classic-paper-award/?utm_source
https://aaai.org/conference/aaai/aaai-26/award-talks/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.