Loop-ViT：AI學(xué)會「反復(fù)思考」，3.8M參數(shù)小模型追平人類平均水平

2026-02-12 19:22:16　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

本工作由香港科技大學(xué)、中科院自動(dòng)化所、加州大學(xué)圣克魯斯分校的研究者們共同完成

當(dāng)我們解一道復(fù)雜的數(shù)學(xué)題或觀察一幅抽象圖案時(shí)，大腦往往需要反復(fù)思考、逐步推演。然而，當(dāng)前主流的深度學(xué)習(xí)模型卻走的是「一次通過」的路線——輸入數(shù)據(jù)，經(jīng)過固定層數(shù)的網(wǎng)絡(luò)，直接輸出答案。

這種前饋式架構(gòu)在圖像分類等感知任務(wù)上表現(xiàn)出色，但面對需要多步推理的抽象問題時(shí)，卻顯得力不從心。最典型的例子就是「ARC-AGI 基準(zhǔn)測試」——一個(gè)被認(rèn)為是衡量 AI 抽象推理能力的「試金石」。

近日，來自香港科技大學(xué)、中科院自動(dòng)化所、UC Santa Cruz 的研究團(tuán)隊(duì)提出了「Loop-ViT」，首次將循環(huán) Transformer 引入視覺推理領(lǐng)域。這個(gè)僅有18M 參數(shù)的模型，在 ARC-AGI-1 基準(zhǔn)上達(dá)到了「65.8%」的準(zhǔn)確率，超越了參數(shù)量高達(dá) 73M 的 VARC 集成模型。更令人驚訝的是，其 3.8M 的小型版本也能達(dá)到 60.1% 的準(zhǔn)確率，幾乎追平人類平均水平（60.2%）。

論文標(biāo)題：LoopViT: Scaling Visual ARC with Looped Transformers
論文鏈接：https://arxiv.org/abs/2602.02156
代碼開源：https://github.com/WenjieShu/LoopViT

什么是 ARC-AGI？

為什么它如此困難？

ARC-AGI（Abstraction and Reasoning Corpus）是由 Keras 之父 Fran?ois Chollet 提出的抽象推理基準(zhǔn)。與 ImageNet 等傳統(tǒng)視覺基準(zhǔn)不同，ARC 不考察模型識別貓狗、汽車的能力，而是測試其歸納推理能力。

每個(gè) ARC 任務(wù)僅提供 2–4 個(gè)示例對（輸入-輸出網(wǎng)格），模型需要從這些示例中歸納出潛在規(guī)則，然后將其應(yīng)用到新的測試輸入上。這些規(guī)則可能涉及：

對象的平移、旋轉(zhuǎn)、鏡像
圖案的重復(fù)與填充
基于顏色的條件變換
類似「重力」的物理模擬

人類通常能夠通過觀察示例、提出假設(shè)、驗(yàn)證修正的迭代過程來解決這些問題。然而，傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)卻缺乏這種「反復(fù)思考」的能力——它們的計(jì)算深度被固定綁定在網(wǎng)絡(luò)層數(shù)上。

Loop-ViT 的核心創(chuàng)新

循環(huán)架構(gòu)：解耦計(jì)算深度與參數(shù)量

傳統(tǒng) Vision Transformer 的計(jì)算流程是：輸入 → 第 1 層 → 第 2 層 → …… → 第 L 層 → 輸出。每增加一層就意味著更多的參數(shù)，計(jì)算深度與模型容量緊密綁定。

Loop-ViT 的設(shè)計(jì)理念截然不同：重復(fù)執(zhí)行同一組權(quán)重。模型的核心是一個(gè)權(quán)重共享的 Transformer 塊，可以被循環(huán)執(zhí)行 T 次。這意味著：

計(jì)算深度可以任意擴(kuò)展，而不增加參數(shù)
模型被迫學(xué)習(xí)一個(gè)通用的「思考步驟」，而非任務(wù)特定的啟發(fā)式規(guī)則
類似于人類大腦的工作記憶被反復(fù)更新

混合編碼塊：全局推理 + 局部更新

研究團(tuán)隊(duì)觀察到，ARC 任務(wù)需要兩種不同的處理模式：

全局規(guī)則歸納：理解整體變換規(guī)律（如「所有藍(lán)色變紅色」）
局部模式執(zhí)行：精確的像素級操作（如「填充封閉區(qū)域」）

為此，Loop-ViT 設(shè)計(jì)了Hybrid Block，融合了：

自注意力機(jī)制：捕捉全局依賴關(guān)系
深度可分離卷積：處理局部空間模式
動(dòng)態(tài)退出：知道何時(shí)停止思考

并非所有問題都需要同樣長的思考時(shí)間。簡單的幾何變換可能幾步就能確定答案，而復(fù)雜的算法推理則需要更多迭代。

Loop-ViT 引入了基于熵的動(dòng)態(tài)退出機(jī)制

每次迭代后，計(jì)算預(yù)測分布的 Shannon 熵
當(dāng)熵值低于閾值（模型「確信」了答案），立即停止
無需任何額外參數(shù)，完全基于模型的內(nèi)在不確定性

實(shí)驗(yàn)表明，能夠「早退」的樣本準(zhǔn)確率高達(dá) 83.33%，而需要完整迭代的困難樣本準(zhǔn)確率為 45.80%。這與人類的認(rèn)知資源分配策略驚人地一致——簡單問題快速解決，復(fù)雜問題投入更多時(shí)間。

實(shí)驗(yàn)結(jié)果：

小參數(shù)，大性能

在 ARC-AGI-1 基準(zhǔn)上，Loop-ViT 的表現(xiàn)令人印象深刻。幾個(gè)關(guān)鍵觀察如下：

參數(shù)效率驚人：3.8M 的 Loop-ViT-Small 超越 18M 的 VARC，僅用 1/5 參數(shù)。

超越模型集成：18M 的 Loop-ViT 超越 73M 的 VARC 四模型集成。

深入理解：

模型在「思考」什么？

研究團(tuán)隊(duì)對 Loop-ViT 的內(nèi)部機(jī)制進(jìn)行了可視化分析，揭示了有趣的「涌現(xiàn)」行為：

預(yù)測結(jié)晶現(xiàn)象：隨著迭代進(jìn)行，模型的預(yù)測從模糊逐漸變得清晰確定。早期迭代的預(yù)測波動(dòng)較大，后期則趨于穩(wěn)定——就像溶液中的晶體逐漸析出。

注意力模式演化

早期迭代：注意力分布廣泛，模型在「掃描」整個(gè)輸入，收集信息。
后期迭代：注意力變得稀疏聚焦，精確對準(zhǔn)需要操作的區(qū)域。

這種從「全局探索」到「局部執(zhí)行」的轉(zhuǎn)變，與人類解決視覺推理問題的策略高度相似。

結(jié)語

Loop-ViT 的成功揭示了一個(gè)重要洞見：在視覺領(lǐng)域，對于需要推理的任務(wù)，「思考時(shí)間」比「模型大小」更重要。

這與當(dāng)前大模型領(lǐng)域一味追求參數(shù)規(guī)模的趨勢形成鮮明對比。也許，實(shí)現(xiàn)真正的人工智能不僅需要更大的網(wǎng)絡(luò)，更需要讓模型學(xué)會像人一樣「反復(fù)思考」。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.