![]()
本工作由香港科技大學(xué)、中科院自動(dòng)化所、加州大學(xué)圣克魯斯分校的研究者們共同完成
![]()
當(dāng)我們解一道復(fù)雜的數(shù)學(xué)題或觀察一幅抽象圖案時(shí),大腦往往需要反復(fù)思考、逐步推演。然而,當(dāng)前主流的深度學(xué)習(xí)模型卻走的是「一次通過」的路線——輸入數(shù)據(jù),經(jīng)過固定層數(shù)的網(wǎng)絡(luò),直接輸出答案。
這種前饋式架構(gòu)在圖像分類等感知任務(wù)上表現(xiàn)出色,但面對需要多步推理的抽象問題時(shí),卻顯得力不從心。最典型的例子就是「ARC-AGI 基準(zhǔn)測試」——一個(gè)被認(rèn)為是衡量 AI 抽象推理能力的「試金石」。
近日,來自香港科技大學(xué)、中科院自動(dòng)化所、UC Santa Cruz 的研究團(tuán)隊(duì)提出了「Loop-ViT」,首次將循環(huán) Transformer 引入視覺推理領(lǐng)域。這個(gè)僅有18M 參數(shù)的模型,在 ARC-AGI-1 基準(zhǔn)上達(dá)到了「65.8%」的準(zhǔn)確率,超越了參數(shù)量高達(dá) 73M 的 VARC 集成模型。更令人驚訝的是,其 3.8M 的小型版本也能達(dá)到 60.1% 的準(zhǔn)確率,幾乎追平人類平均水平(60.2%)。
![]()
- 論文標(biāo)題:LoopViT: Scaling Visual ARC with Looped Transformers
- 論文鏈接:https://arxiv.org/abs/2602.02156
- 代碼開源:https://github.com/WenjieShu/LoopViT
什么是 ARC-AGI?
為什么它如此困難?
ARC-AGI(Abstraction and Reasoning Corpus)是由 Keras 之父 Fran?ois Chollet 提出的抽象推理基準(zhǔn)。與 ImageNet 等傳統(tǒng)視覺基準(zhǔn)不同,ARC 不考察模型識別貓狗、汽車的能力,而是測試其歸納推理能力。
每個(gè) ARC 任務(wù)僅提供 2–4 個(gè)示例對(輸入-輸出網(wǎng)格),模型需要從這些示例中歸納出潛在規(guī)則,然后將其應(yīng)用到新的測試輸入上。這些規(guī)則可能涉及:
- 對象的平移、旋轉(zhuǎn)、鏡像
- 圖案的重復(fù)與填充
- 基于顏色的條件變換
- 類似「重力」的物理模擬
人類通常能夠通過觀察示例、提出假設(shè)、驗(yàn)證修正的迭代過程來解決這些問題。然而,傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)卻缺乏這種「反復(fù)思考」的能力——它們的計(jì)算深度被固定綁定在網(wǎng)絡(luò)層數(shù)上。
Loop-ViT 的核心創(chuàng)新
![]()
- 循環(huán)架構(gòu):解耦計(jì)算深度與參數(shù)量
傳統(tǒng) Vision Transformer 的計(jì)算流程是:輸入 → 第 1 層 → 第 2 層 → …… → 第 L 層 → 輸出。每增加一層就意味著更多的參數(shù),計(jì)算深度與模型容量緊密綁定。
Loop-ViT 的設(shè)計(jì)理念截然不同:重復(fù)執(zhí)行同一組權(quán)重。模型的核心是一個(gè)權(quán)重共享的 Transformer 塊,可以被循環(huán)執(zhí)行 T 次。這意味著:
- 計(jì)算深度可以任意擴(kuò)展,而不增加參數(shù)
- 模型被迫學(xué)習(xí)一個(gè)通用的「思考步驟」,而非任務(wù)特定的啟發(fā)式規(guī)則
- 類似于人類大腦的工作記憶被反復(fù)更新
![]()
- 混合編碼塊:全局推理 + 局部更新
研究團(tuán)隊(duì)觀察到,ARC 任務(wù)需要兩種不同的處理模式:
- 全局規(guī)則歸納:理解整體變換規(guī)律(如「所有藍(lán)色變紅色」)
- 局部模式執(zhí)行:精確的像素級操作(如「填充封閉區(qū)域」)
為此,Loop-ViT 設(shè)計(jì)了Hybrid Block,融合了:
- 自注意力機(jī)制:捕捉全局依賴關(guān)系
- 深度可分離卷積:處理局部空間模式
- 動(dòng)態(tài)退出:知道何時(shí)停止思考
并非所有問題都需要同樣長的思考時(shí)間。簡單的幾何變換可能幾步就能確定答案,而復(fù)雜的算法推理則需要更多迭代。
Loop-ViT 引入了基于熵的動(dòng)態(tài)退出機(jī)制
- 每次迭代后,計(jì)算預(yù)測分布的 Shannon 熵
- 當(dāng)熵值低于閾值(模型「確信」了答案),立即停止
- 無需任何額外參數(shù),完全基于模型的內(nèi)在不確定性
實(shí)驗(yàn)表明,能夠「早退」的樣本準(zhǔn)確率高達(dá) 83.33%,而需要完整迭代的困難樣本準(zhǔn)確率為 45.80%。這與人類的認(rèn)知資源分配策略驚人地一致——簡單問題快速解決,復(fù)雜問題投入更多時(shí)間。
實(shí)驗(yàn)結(jié)果:
小參數(shù),大性能
在 ARC-AGI-1 基準(zhǔn)上,Loop-ViT 的表現(xiàn)令人印象深刻。幾個(gè)關(guān)鍵觀察如下:
![]()
參數(shù)效率驚人:3.8M 的 Loop-ViT-Small 超越 18M 的 VARC,僅用 1/5 參數(shù)。
超越模型集成:18M 的 Loop-ViT 超越 73M 的 VARC 四模型集成。
深入理解:
模型在「思考」什么?
研究團(tuán)隊(duì)對 Loop-ViT 的內(nèi)部機(jī)制進(jìn)行了可視化分析,揭示了有趣的「涌現(xiàn)」行為:
預(yù)測結(jié)晶現(xiàn)象:隨著迭代進(jìn)行,模型的預(yù)測從模糊逐漸變得清晰確定。早期迭代的預(yù)測波動(dòng)較大,后期則趨于穩(wěn)定——就像溶液中的晶體逐漸析出。
注意力模式演化
- 早期迭代:注意力分布廣泛,模型在「掃描」整個(gè)輸入,收集信息。
- 后期迭代:注意力變得稀疏聚焦,精確對準(zhǔn)需要操作的區(qū)域。
這種從「全局探索」到「局部執(zhí)行」的轉(zhuǎn)變,與人類解決視覺推理問題的策略高度相似。
結(jié)語
Loop-ViT 的成功揭示了一個(gè)重要洞見:在視覺領(lǐng)域,對于需要推理的任務(wù),「思考時(shí)間」比「模型大小」更重要。
這與當(dāng)前大模型領(lǐng)域一味追求參數(shù)規(guī)模的趨勢形成鮮明對比。也許,實(shí)現(xiàn)真正的人工智能不僅需要更大的網(wǎng)絡(luò),更需要讓模型學(xué)會像人一樣「反復(fù)思考」。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.