<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      ApdativeNN:建模類(lèi)人自適應(yīng)感知機(jī)制,突破機(jī)器視覺(jué)不可能三角

      0
      分享至



      視覺(jué)是人類(lèi)理解復(fù)雜物理世界的重要方式。讓計(jì)算機(jī)具備視覺(jué)感知與認(rèn)知的能力,是人工智能的主要研究問(wèn)題之一,對(duì)多模態(tài)基礎(chǔ)模型、具身智能、醫(yī)療 AI 等重要領(lǐng)域具有關(guān)鍵支撐作用。過(guò)去幾十年間,計(jì)算機(jī)視覺(jué)取得了顯著突破,已在圖像識(shí)別、目標(biāo)檢測(cè)、多模態(tài)理解等多個(gè)任務(wù)上接近甚至超越人類(lèi)專(zhuān)家水平。然而,當(dāng)前的高精度模型在實(shí)際落地中常面臨較大挑戰(zhàn):它們的推理過(guò)程往往需要激活上億參數(shù)來(lái)處理高分辨率圖像或視頻、以解決復(fù)雜和挑戰(zhàn)性的視覺(jué)問(wèn)題,導(dǎo)致功耗、存儲(chǔ)需求和響應(yīng)時(shí)延急劇上升。這一瓶頸使得它們難以部署在算力、能耗、存儲(chǔ)等資源高度受限的實(shí)際系統(tǒng)中(如機(jī)器人、自動(dòng)駕駛、移動(dòng)設(shè)備或邊緣終端等),甚至在醫(yī)療、交通等場(chǎng)景下由于延遲決策危害生命安全。另一方面,大型模型龐大的推理能耗在也帶來(lái)了大規(guī)模部署的環(huán)境可持續(xù)性問(wèn)題。

      上述挑戰(zhàn)的一個(gè)重要原因在于現(xiàn)有視覺(jué)模型普遍采用了全局表征學(xué)習(xí)范式:一次性并行處理整幅圖像或視頻的所有像素、提取全部對(duì)應(yīng)特征,再應(yīng)用于具體任務(wù)。這種 “全局并行計(jì)算” 范式使得模型計(jì)算復(fù)雜度隨輸入尺寸呈至少平方或立方增長(zhǎng),逐漸形成了一個(gè)日益嚴(yán)峻的能效瓶頸:信息豐富的高分辨率時(shí)空輸入、性能領(lǐng)先的大型模型、高效快速推理,三者難以同時(shí)滿(mǎn)足。這一挑戰(zhàn)正在成為制約視覺(jué)智能走向大規(guī)模、可部署落地、低碳環(huán)保的公認(rèn)難題。



      圖1 當(dāng)前計(jì)算機(jī)視覺(jué)范式所面臨的能效瓶頸

      人類(lèi)視覺(jué)系統(tǒng)為突破上述瓶頸提供了重要啟示:在觀察復(fù)雜環(huán)境時(shí),人眼不會(huì)一次性處理全部視覺(jué)信息,而是通過(guò)一系列 “注視” 動(dòng)作主動(dòng)、選擇性地采樣關(guān)鍵區(qū)域,以小范圍高分辨率的感知逐步拼接出對(duì)物理世界中有用信息的認(rèn)知。這種先進(jìn)的機(jī)制能在龐雜的信息流中快速篩取要點(diǎn),大幅降低計(jì)算開(kāi)銷(xiāo),使得人類(lèi)高度復(fù)雜的視覺(jué)系統(tǒng)即便在資源受限的前提下依然能夠高效、快速運(yùn)行。無(wú)論外界場(chǎng)景多么復(fù)雜,人類(lèi)視覺(jué)的能耗主要取決于注視帶寬與注視次數(shù),而非全局像素量。早在 2015 年,LeCun, Bengio, Hinton 便在《Nature》綜述論文 “Deep Learning” 中指出,未來(lái)的 AI 視覺(jué)系統(tǒng)應(yīng)具備類(lèi)人的、任務(wù)驅(qū)動(dòng)的主動(dòng)觀察能力。然而近十年來(lái),這一方向仍缺乏系統(tǒng)性研究。



      圖2 人類(lèi)視覺(jué)系統(tǒng)的主動(dòng)自適應(yīng)感知策略

      2025 年 11 月,清華大學(xué)自動(dòng)化系宋士吉、黃高團(tuán)隊(duì)在《自然?機(jī)器智能》(Nature Machine Intelligence)上發(fā)表了論文《Emulating human-like adaptive vision for efficient and flexible machine visual perception》(模擬人類(lèi)自適應(yīng)視覺(jué),實(shí)現(xiàn)高效靈活的機(jī)器視覺(jué)感知)。該研究提出了AdaptiveNN 架構(gòu),通過(guò)借鑒人類(lèi) “主動(dòng)自適應(yīng)視覺(jué)” 的機(jī)制,將視覺(jué)感知建模為由粗到精的最優(yōu)序貫決策問(wèn)題:逐步定位關(guān)鍵區(qū)域、累積多次注視信息,并在信息足夠完成任務(wù)時(shí)主動(dòng)終止觀察。在理論上,該研究通過(guò)結(jié)合表征學(xué)習(xí)與自獎(jiǎng)勵(lì)強(qiáng)化學(xué)習(xí),給出了 AdaptiveNN 所面臨的離散 - 連續(xù)混合優(yōu)化問(wèn)題的無(wú)需額外監(jiān)督的端到端求解方法。在涵蓋 9 類(lèi)任務(wù)的廣泛實(shí)驗(yàn)中,AdaptiveNN 在保持精度的同時(shí)實(shí)現(xiàn)了最高 28 倍的推理成本降低,可在線(xiàn)動(dòng)態(tài)調(diào)整其行為以適配不同任務(wù)需求與算力約束,同時(shí),其基于注視路徑的推理機(jī)制顯著提升了可解釋性。AdaptiveNN 展現(xiàn)出構(gòu)建高效、靈活且可解釋的計(jì)算機(jī)視覺(jué)新范式的潛力。另一方面,AdaptiveNN 的感知行為在多項(xiàng)測(cè)試中與人類(lèi)接近,也為未來(lái)探索人類(lèi)視覺(jué)認(rèn)知機(jī)制的關(guān)鍵問(wèn)題提供了新的見(jiàn)解和研究工具。



      • 論文標(biāo)題:Emulating human-like adaptive vision for efficient and flexible machine visual perception
      • 論文鏈接:https://www.nature.com/articles/s42256-025-01130-7

      AdaptiveNN:類(lèi)人主動(dòng)感知架構(gòu)



      借助這一機(jī)制,AdaptiveNN 能夠在保證高精度的同時(shí)顯著降低計(jì)算量,實(shí)現(xiàn)“看得清,也看得省”。它使神經(jīng)網(wǎng)絡(luò)具備了類(lèi)人式的主動(dòng)感知,從而突破了傳統(tǒng)視覺(jué)模型在效率與效果之間的權(quán)衡瓶頸。

      值得注意的是,AdaptiveNN 在設(shè)計(jì)上具有較強(qiáng)的兼容性和靈活性,適用于多種不同的深度神經(jīng)網(wǎng)絡(luò)基礎(chǔ)架構(gòu)(如卷積網(wǎng)絡(luò)、Transformer等)和多種類(lèi)型的任務(wù)(如純視覺(jué)感知、視覺(jué)-語(yǔ)言多模態(tài)聯(lián)合建模等)。



      圖3 AdaptiveNN的網(wǎng)絡(luò)架構(gòu)和推理過(guò)程

      理論創(chuàng)新:自激勵(lì)強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的主動(dòng)感知行為學(xué)習(xí)

      AdaptiveNN 的訓(xùn)練過(guò)程同時(shí)涉及連續(xù)變量(如從注視區(qū)域中提取特征)與離散變量(如決定下一次注視位置)的優(yōu)化,傳統(tǒng)反向傳播算法難以直接處理這一混合問(wèn)題。為此,研究團(tuán)隊(duì)在理論上提出了面向離散 - 連續(xù)混合優(yōu)化問(wèn)題的端到端求解方法,使 AdaptiveNN 能夠在統(tǒng)一框架下簡(jiǎn)單易行地完成整體訓(xùn)練。具體而言,從期望優(yōu)化目標(biāo)出發(fā),對(duì)整體損失函數(shù) L(θ) 進(jìn)行分解,AdaptiveNN 的端到端優(yōu)化過(guò)程可自然地分解為兩部分



      其中第一項(xiàng)為表征學(xué)習(xí)目標(biāo)(representation learning),對(duì)應(yīng)于從注視區(qū)域中提取任務(wù)相關(guān)的特征;第二項(xiàng)為自激勵(lì)強(qiáng)化學(xué)習(xí)目標(biāo)(self-rewarding reinforcement learning),對(duì)應(yīng)于優(yōu)化注視位置的分布,驅(qū)使模型的主動(dòng)注視行為實(shí)現(xiàn)最大化的任務(wù)收益。這一理論結(jié)果揭示了 AdaptiveNN 的內(nèi)在學(xué)習(xí)規(guī)律:主動(dòng)感知的優(yōu)化本質(zhì)上是表征學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的統(tǒng)一



      圖4 強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的端到端主動(dòng)視覺(jué)的理論框架

      實(shí)驗(yàn)驗(yàn)證:高效視覺(jué)感知,類(lèi)人視覺(jué)行為

      • 性能提升顯著:在使用相同主干網(wǎng)絡(luò)(如 DeiT-S、ResNet-50)的情況下,AdaptiveNN-DeiT-S 和 AdaptiveNN-ResNet-50 分別以2.86 GFLOPs 與 3.37 GFLOPs的平均計(jì)算量,取得與傳統(tǒng)靜態(tài)模型相當(dāng)甚至更優(yōu)的準(zhǔn)確率(81.6% / 79.1%),實(shí)現(xiàn)了 5.4× 與 3.6× 的計(jì)算節(jié)省。
      • 可解釋性增強(qiáng):AdaptiveNN 的注視軌跡自動(dòng)聚焦于類(lèi)別判別性區(qū)域,例如動(dòng)物的頭部、樂(lè)器的關(guān)鍵結(jié)構(gòu)、咖啡機(jī)的旋鈕與噴嘴等。當(dāng)目標(biāo)較小或遠(yuǎn)離攝像機(jī)時(shí),模型會(huì)自適應(yīng)地延長(zhǎng)觀察序列,主動(dòng)調(diào)整注視步數(shù)以獲得更精確的判斷。這種 “由粗到細(xì)、按需注視” 的策略,與人類(lèi)視覺(jué)的逐步注視過(guò)程高度一致。



      圖5 ImageNet視覺(jué)感知實(shí)驗(yàn)結(jié)果

      為了進(jìn)一步驗(yàn)證 AdaptiveNN 的泛化與精細(xì)感知能力,研究團(tuán)隊(duì)在六個(gè)細(xì)粒度視覺(jué)識(shí)別任務(wù)(CUB-200、NABirds、Oxford-IIIT Pet、Stanford Dogs、Stanford Cars、FGVC-Aircraft)上進(jìn)行了系統(tǒng)評(píng)估。

      • AdaptiveNN 在保持精度基本不變甚至略有提升的情況下,實(shí)現(xiàn)了5.8×–8.2× 的計(jì)算量節(jié)省,顯著超越傳統(tǒng)靜態(tài)視覺(jué)模型的性能–能效上限。
      • 通過(guò)可視化(Fig. A1b–A1e),可以看到模型自發(fā)聚焦于任務(wù)判別性區(qū)域 —— 如鳥(niǎo)類(lèi)的喙部、犬類(lèi)的面部、汽車(chē)的燈組與航空器的螺旋槳 —— 而無(wú)需任何顯式的定位監(jiān)督。



      圖6 細(xì)粒度視覺(jué)識(shí)別任務(wù)實(shí)驗(yàn)結(jié)果

      AdaptiveNN 在空間注視位置任務(wù)難度判斷兩個(gè)層面,都展現(xiàn)出與人類(lèi)視覺(jué)高度一致的自適應(yīng)行為。定量結(jié)果表明,無(wú)論是 “看哪里”、還是 “覺(jué)得什么難”,模型的感知策略都與人類(lèi)極為相似。在 “視覺(jué)圖靈測(cè)試” 中,人類(lèi)受試者幾乎無(wú)法區(qū)分模型與真實(shí)人類(lèi)的凝視軌跡。

      更值得關(guān)注的是,這一成果對(duì)認(rèn)知科學(xué)的研究具有啟發(fā)意義。AdaptiveNN 的結(jié)果不僅為理解人類(lèi)視覺(jué)行為的關(guān)鍵認(rèn)知科學(xué)問(wèn)題(例如 “視覺(jué)能力的形成究竟源于先天機(jī)制還是后天學(xué)習(xí)”)提供了新的啟發(fā),也展示了其作為一種通用計(jì)算模型的潛力。未來(lái),AdaptiveNN 有望用于模擬和檢驗(yàn)人類(lèi)的注意分配、感知學(xué)習(xí)、以及復(fù)雜任務(wù)中的視覺(jué)決策機(jī)制,為將來(lái)認(rèn)知科學(xué)方面的研究提供了潛在的定量工具。



      圖7 AdaptiveNN與人類(lèi)視覺(jué)感知行為的一致性測(cè)試

      從視覺(jué)感知到邁向高效具身推理

      在實(shí)驗(yàn)驗(yàn)證中,研究團(tuán)隊(duì)進(jìn)一步將 AdaptiveNN 應(yīng)用于具身智能的基礎(chǔ)模型(視覺(jué) - 語(yǔ)言 - 行為模型,VLA)上結(jié)果表明,該框架在復(fù)雜操作場(chǎng)景中顯著提升了具身基礎(chǔ)模型的推理與感知效率,在保持任務(wù)成功率的同時(shí)將計(jì)算開(kāi)銷(xiāo)大幅降低 4.4-5.9 倍。這一成果為解決具身智能系統(tǒng)長(zhǎng)期面臨的效率瓶頸提供了新的思路與技術(shù)路徑。



      圖8 ApdativeNN應(yīng)用于VLA具身任務(wù)的實(shí)驗(yàn)結(jié)果

      清華大學(xué)自動(dòng)化系博士生王語(yǔ)霖、樂(lè)洋、樂(lè)陽(yáng)為論文共同第一作者,宋士吉教授與黃高副教授為共同通訊作者。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      以為被罰看大門(mén)就老實(shí)了,結(jié)果是真香!網(wǎng)友:這哪是打壓 分明是貴人

      以為被罰看大門(mén)就老實(shí)了,結(jié)果是真香!網(wǎng)友:這哪是打壓 分明是貴人

      侃故事的阿慶
      2026-04-10 18:05:08
      兩段婚姻都娶普通人,三婚娶名導(dǎo)前妻,知名前國(guó)腳,如今活成這樣

      兩段婚姻都娶普通人,三婚娶名導(dǎo)前妻,知名前國(guó)腳,如今活成這樣

      削桐作琴
      2026-04-10 18:36:31
      “兩岸統(tǒng)一”突破點(diǎn)不在馬英九,也不在國(guó)民黨,可能在這個(gè)人身上

      “兩岸統(tǒng)一”突破點(diǎn)不在馬英九,也不在國(guó)民黨,可能在這個(gè)人身上

      今夜繁星墜落
      2026-03-05 06:56:40
      過(guò)分諂媚會(huì)顯得特別真誠(chéng)!網(wǎng)友:看完發(fā)現(xiàn),我兩千的工資一點(diǎn)不冤

      過(guò)分諂媚會(huì)顯得特別真誠(chéng)!網(wǎng)友:看完發(fā)現(xiàn),我兩千的工資一點(diǎn)不冤

      夜深?lèi)?ài)雜談
      2026-04-08 17:06:30
      加納喬后悔離開(kāi)曼聯(lián),稱(chēng)仍熱愛(ài)紅魔!在切爾西才半年已瀕臨被清洗

      加納喬后悔離開(kāi)曼聯(lián),稱(chēng)仍熱愛(ài)紅魔!在切爾西才半年已瀕臨被清洗

      羅米的曼聯(lián)博客
      2026-04-11 10:53:42
      0-3!太原賽國(guó)乒崩盤(pán):連輸日本5場(chǎng),單局2-11,黃友政爆冷遭逆轉(zhuǎn)

      0-3!太原賽國(guó)乒崩盤(pán):連輸日本5場(chǎng),單局2-11,黃友政爆冷遭逆轉(zhuǎn)

      侃球熊弟
      2026-04-10 14:20:48
      深夜72股發(fā)年報(bào),46股業(yè)績(jī)暴雷,23股業(yè)績(jī)大幅增長(zhǎng),別踩雷了

      深夜72股發(fā)年報(bào),46股業(yè)績(jī)暴雷,23股業(yè)績(jī)大幅增長(zhǎng),別踩雷了

      風(fēng)風(fēng)順
      2026-04-11 02:00:03
      鄭麗文一行在上海參訪(fǎng) 點(diǎn)贊大陸經(jīng)濟(jì)活力與城市魅力

      鄭麗文一行在上海參訪(fǎng) 點(diǎn)贊大陸經(jīng)濟(jì)活力與城市魅力

      新華社
      2026-04-09 15:36:11
      西交大突然換帥!新書(shū)記來(lái)自中央財(cái)經(jīng)大學(xué),履歷太特殊

      西交大突然換帥!新書(shū)記來(lái)自中央財(cái)經(jīng)大學(xué),履歷太特殊

      Delete丨CC
      2026-04-10 19:21:08
      11.2萬(wàn)噸航母將登場(chǎng),或搭載75架隱身戰(zhàn)機(jī),俄:至少領(lǐng)先世界20年

      11.2萬(wàn)噸航母將登場(chǎng),或搭載75架隱身戰(zhàn)機(jī),俄:至少領(lǐng)先世界20年

      聞識(shí)
      2026-04-10 16:52:47
      我退休金9200花680買(mǎi)羊絨衫,兒媳當(dāng)眾撕爛,我斷絕關(guān)系回老家

      我退休金9200花680買(mǎi)羊絨衫,兒媳當(dāng)眾撕爛,我斷絕關(guān)系回老家

      飛云如水
      2025-10-03 14:48:04
      廣東穩(wěn)住前4,杜鋒深夜發(fā)聲,徐杰登上雜志封面,杜潤(rùn)旺賽季高光

      廣東穩(wěn)住前4,杜鋒深夜發(fā)聲,徐杰登上雜志封面,杜潤(rùn)旺賽季高光

      萌蘭聊個(gè)球
      2026-04-11 12:08:05
      加拿大游客回國(guó)直言:在中國(guó)生活,每天像在看科幻片

      加拿大游客回國(guó)直言:在中國(guó)生活,每天像在看科幻片

      明天見(jiàn)灌裝冰塊
      2026-03-15 07:08:20
      張馨予太豐滿(mǎn),穿白襯衫都兜不住好身材,我感慨軍人老公眼光真好

      張馨予太豐滿(mǎn),穿白襯衫都兜不住好身材,我感慨軍人老公眼光真好

      蓓小西
      2026-04-11 09:28:58
      英國(guó)泛濫 6000 萬(wàn)只,英國(guó)人殺一只獎(jiǎng)勵(lì)英鎊,中國(guó)人吃一只卻坐牢

      英國(guó)泛濫 6000 萬(wàn)只,英國(guó)人殺一只獎(jiǎng)勵(lì)英鎊,中國(guó)人吃一只卻坐牢

      嘆知
      2026-04-11 10:00:15
      上海德比還沒(méi)開(kāi)打,兩位主帥就隔空大戰(zhàn)!特謝拉的情緒誰(shuí)說(shuō)了算?

      上海德比還沒(méi)開(kāi)打,兩位主帥就隔空大戰(zhàn)!特謝拉的情緒誰(shuí)說(shuō)了算?

      刀鋒體育
      2026-04-11 12:14:56
      馬克西32+8喬治21分 76人賽季橫掃步行者

      馬克西32+8喬治21分 76人賽季橫掃步行者

      北青網(wǎng)-北京青年報(bào)
      2026-04-11 12:48:37
      落難的鳳凰不如雞,多位明星無(wú)戲可拍,淪落到給景區(qū)打工,太心酸

      落難的鳳凰不如雞,多位明星無(wú)戲可拍,淪落到給景區(qū)打工,太心酸

      秋姐居
      2026-03-29 22:00:48
      毛主席從不批評(píng)劉伯承和徐向前,一個(gè)是不忍批評(píng),另一個(gè)無(wú)需批評(píng)

      毛主席從不批評(píng)劉伯承和徐向前,一個(gè)是不忍批評(píng),另一個(gè)無(wú)需批評(píng)

      鶴羽說(shuō)個(gè)事
      2026-04-08 22:21:11
      不要再向以色列提供一架戰(zhàn)斗機(jī)!

      不要再向以色列提供一架戰(zhàn)斗機(jī)!

      武器縱論
      2026-04-09 22:35:26
      2026-04-11 13:16:49
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專(zhuān)業(yè)的人工智能媒體
      12729文章數(shù) 142622關(guān)注度
      往期回顧 全部

      科技要聞

      半夜被燃燒瓶砸醒,OpenAI CEO發(fā)文反思

      頭條要聞

      牛彈琴:伊朗很悲壯 向美國(guó)提高了"要價(jià)"

      頭條要聞

      牛彈琴:伊朗很悲壯 向美國(guó)提高了"要價(jià)"

      體育要聞

      換帥之后,他們從降級(jí)區(qū)沖到升級(jí)區(qū)

      娛樂(lè)要聞

      浪姐7淘汰 該走的沒(méi)走,不該走的走了

      財(cái)經(jīng)要聞

      從日本翻身看:這次誰(shuí)能扛住高油價(jià)?

      汽車(chē)要聞

      煥新極氪007/007GT上市 限時(shí)19.39萬(wàn)起

      態(tài)度原創(chuàng)

      本地
      數(shù)碼
      親子
      家居
      時(shí)尚

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

      數(shù)碼要聞

      大疆Pocket 4官宣4月16日發(fā)布:1英寸大底+可旋轉(zhuǎn)屏幕

      親子要聞

      童趣與春的浪漫共舞,兩只小精靈在花瓣堆里奔跑

      家居要聞

      復(fù)古風(fēng)格 自然簡(jiǎn)約

      推廣中獎(jiǎng)名單-更新至2026年3月31日推廣

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版