<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      大模型時(shí)代,通用視覺(jué)模型將何去何從?

      0
      分享至



      過(guò)去幾年,通用視覺(jué)模型(Vision Generalist Model,簡(jiǎn)稱(chēng) VGM)曾是計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)。它們?cè)噲D構(gòu)建統(tǒng)一的架構(gòu),能夠處理圖像、點(diǎn)云、視頻等多種視覺(jué)模態(tài)輸入,以及分類(lèi)、檢測(cè)、分割等多樣的下游任務(wù),向著「視覺(jué)模型大一統(tǒng)」的目標(biāo)邁進(jìn)。

      然而,隨著大語(yǔ)言模型 LLM 的迅猛發(fā)展,研究熱點(diǎn)已經(jīng)悄然發(fā)生轉(zhuǎn)移。如今,多模態(tài)大模型興起,視覺(jué)被看作是語(yǔ)言模型眾多輸入模態(tài)中的一種,視覺(jué)模態(tài)數(shù)據(jù)被離散化為 Token,與文本一起被統(tǒng)一建模,視覺(jué)的「獨(dú)立性」正在被重新定義。

      在這種趨勢(shì)下,傳統(tǒng)意義上以視覺(jué)任務(wù)為核心、以視覺(jué)范式為驅(qū)動(dòng)的通用視覺(jué)模型研究,似乎正在逐漸被邊緣化。然而,我們認(rèn)為視覺(jué)領(lǐng)域仍應(yīng)保有自己的特色和研究重點(diǎn)。與語(yǔ)言數(shù)據(jù)相比,視覺(jué)數(shù)據(jù)具有結(jié)構(gòu)化強(qiáng)、空間信息豐富等天然優(yōu)勢(shì),但也存在視覺(jué)模態(tài)間差異大、難替代的挑戰(zhàn)。例如:如何統(tǒng)一處理 2D 圖像、3D 點(diǎn)云和視頻流等異質(zhì)輸入?如何設(shè)計(jì)統(tǒng)一的輸出表示來(lái)同時(shí)支持像素級(jí)分割和目標(biāo)檢測(cè)等不同任務(wù)?這些問(wèn)題在當(dāng)前的多模態(tài)范式中并未被充分解決。

      正因如此,在這個(gè)多模態(tài)模型席卷科研與工業(yè)的新時(shí)代,回顧并總結(jié)純視覺(jué)范式下的通用視覺(jué)模型研究仍然是一件十分有意義的事情。清華大學(xué)自動(dòng)化系魯繼文團(tuán)隊(duì)最近發(fā)表于 IJCV 的綜述論文系統(tǒng)梳理了該方向的研究進(jìn)展,涵蓋輸入統(tǒng)一方法、任務(wù)通用策略、模型框架設(shè)計(jì)、模型評(píng)測(cè)應(yīng)用等內(nèi)容,希望能為未來(lái)視覺(jué)模型的發(fā)展提供參考與啟發(fā)。



      • 論文標(biāo)題:Vision Generalist Model: A Survey
      • 論文鏈接:
      • https://arxiv.org/abs/2506.09954



      VGM 到底解決了什么問(wèn)題?

      通用視覺(jué)模型是一種能夠處理多種視覺(jué)任務(wù)和模態(tài)輸入的模型框架。類(lèi)似于大語(yǔ)言模型在自然語(yǔ)言處理中的成功,VGM 旨在通過(guò)構(gòu)建一個(gè)統(tǒng)一的架構(gòu)來(lái)解決各種計(jì)算機(jī)視覺(jué)任務(wù)。傳統(tǒng)的視覺(jué)模型通常針對(duì)特定任務(wù)(如圖像分類(lèi)、目標(biāo)檢測(cè)、語(yǔ)義分割等)設(shè)計(jì),而 VGM 通過(guò)廣泛的預(yù)訓(xùn)練和共享表示,能夠在不同的視覺(jué)任務(wù)之間實(shí)現(xiàn)零樣本(Zero-shot)遷移,從而無(wú)需為每個(gè)任務(wù)進(jìn)行專(zhuān)門(mén)的調(diào)整。

      VGM 的關(guān)鍵能力之一是其多模態(tài)輸入的統(tǒng)一處理能力。不同于傳統(tǒng)模型只處理單一類(lèi)型的視覺(jué)數(shù)據(jù),VGM 能夠同時(shí)處理來(lái)自多個(gè)模態(tài)的數(shù)據(jù),如圖像、點(diǎn)云、視頻等,并通過(guò)統(tǒng)一的表示方法將它們映射到共享的特征空間。

      此外,VGM 還具備強(qiáng)大的多任務(wù)學(xué)習(xí)能力,能夠在同一個(gè)模型中處理多個(gè)視覺(jué)任務(wù),從圖像識(shí)別到視頻分析,所有任務(wù)都可以在一個(gè)通用框架下并行處理。

      綜述涵蓋了哪些核心內(nèi)容?

      數(shù)據(jù) + 任務(wù) + 評(píng)測(cè):為通用建模打基礎(chǔ)

      VGM 通常使用大規(guī)模、多樣化的數(shù)據(jù)集進(jìn)行訓(xùn)練和評(píng)估。為了支持多模態(tài)學(xué)習(xí),VGM 使用的訓(xùn)練數(shù)據(jù)集涵蓋了圖像、視頻、點(diǎn)云等多種類(lèi)型,本綜述列舉并介紹了一些常見(jiàn)的多模態(tài)數(shù)據(jù)集。

      任務(wù)方面,本綜述將視覺(jué)任務(wù)分為四類(lèi):圖像任務(wù)、幾何任務(wù)、時(shí)間序列任務(wù)以及其他視覺(jué)相關(guān)任務(wù)。評(píng)測(cè)方面,主要通過(guò)多個(gè)綜合基準(zhǔn)來(lái)衡量其在多種任務(wù)和數(shù)據(jù)集上的表現(xiàn)。與傳統(tǒng)的單一任務(wù)評(píng)測(cè)不同,現(xiàn)代評(píng)測(cè)方法更注重模型的跨任務(wù)泛化和多模態(tài)處理能力。本綜述也對(duì)現(xiàn)有通用視覺(jué)模型的評(píng)測(cè)基準(zhǔn)做了充分的調(diào)研與總結(jié)。

      模型設(shè)計(jì)范式與技術(shù)補(bǔ)充



      現(xiàn)有通用視覺(jué)模型的設(shè)計(jì)范式主要集中在如何統(tǒng)一處理不同視覺(jué)模態(tài)輸入和多樣化任務(wù)輸出,大致可以分為兩種類(lèi)型:編碼式框架和序列到序列框架。

      編碼式框架(Encoding-based Framework)旨在通過(guò)構(gòu)建一個(gè)共享的特征空間來(lái)統(tǒng)一不同的輸入模態(tài),并使用 Transformer 等模型進(jìn)行編碼。這類(lèi)框架通常包括領(lǐng)域特定的編碼器來(lái)處理不同類(lèi)型的數(shù)據(jù),如圖像、文本和音頻,然后通過(guò)共享的 Transformer 結(jié)構(gòu)進(jìn)行進(jìn)一步處理,最終生成統(tǒng)一的輸出。

      而序列到序列框架(Sequence-to-Sequence Framework)則借鑒了自然語(yǔ)言處理中的序列建模方法,將輸入數(shù)據(jù)轉(zhuǎn)換為固定長(zhǎng)度的表示,然后通過(guò)解碼器生成相應(yīng)的輸出。這些框架特別適合處理具有可變長(zhǎng)度輸入輸出的任務(wù),如圖像生成和視頻分析。

      盡管有一些工作并不能被定義為通用視覺(jué)模型,但它們?cè)诼?lián)合多模態(tài)數(shù)據(jù)輸入、模型架構(gòu)設(shè)計(jì)、協(xié)同處理多任務(wù)輸出等方面做出了卓越的技術(shù)貢獻(xiàn)。本綜述也對(duì)這些技術(shù)進(jìn)行了詳盡的討論分析。一些相關(guān)領(lǐng)域的內(nèi)容,如多任務(wù)學(xué)習(xí)、視覺(jué)-語(yǔ)言學(xué)習(xí)、開(kāi)放詞匯,也被用來(lái)擴(kuò)充通用視覺(jué)模型領(lǐng)域的知識(shí)邊界。

      此外,作為一個(gè) case study,本綜述對(duì)比了收錄了多個(gè)主流 VGM 模型在 22 個(gè)基準(zhǔn)數(shù)據(jù)集上的評(píng)測(cè)結(jié)果:



      VGM 的未來(lái)在哪里?

      最后,本綜述總結(jié)了 VGM 的當(dāng)前研究進(jìn)展和面臨的挑戰(zhàn),還強(qiáng)調(diào)了其在實(shí)際應(yīng)用中的潛力和未來(lái)發(fā)展方向。

      現(xiàn)有 VGM 在多個(gè)任務(wù)和多模態(tài)輸入的統(tǒng)一處理方面已經(jīng)取得了顯著的進(jìn)展,但仍面臨著如何優(yōu)化統(tǒng)一框架設(shè)計(jì)、提高訓(xùn)練效率和應(yīng)對(duì)大規(guī)模數(shù)據(jù)等挑戰(zhàn)。數(shù)據(jù)獲取和標(biāo)注仍然是 VGM 發(fā)展的瓶頸。

      為了解決這一問(wèn)題,自動(dòng)化標(biāo)注技術(shù)以及大規(guī)模無(wú)監(jiān)督學(xué)習(xí)方法的研究將成為未來(lái)的研究重點(diǎn)。然而,隨著模型規(guī)模的擴(kuò)大,VGM 也面臨著倫理問(wèn)題和偏見(jiàn)的挑戰(zhàn)。大量未標(biāo)注的數(shù)據(jù)中可能包含潛在的偏見(jiàn),如何確保模型的公平性、透明性和安全性,仍是未來(lái)研究中的重要課題。

      盡管如此,現(xiàn)有的 VGM 在實(shí)際應(yīng)用中展示了廣泛的潛力。它不僅可以用于傳統(tǒng)的視覺(jué)任務(wù),如圖像分類(lèi)、目標(biāo)檢測(cè)和語(yǔ)義分割,還能擴(kuò)展到更復(fù)雜的多模態(tài)任務(wù),如視覺(jué)問(wèn)答、圖像-文本檢索、視頻理解等。這些應(yīng)用涵蓋了智能監(jiān)控、自動(dòng)駕駛、機(jī)器人等多個(gè)領(lǐng)域,推動(dòng)了 VGM 在實(shí)際場(chǎng)景中的廣泛部署。

      希望這篇文章能給研究中的你一些啟發(fā)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      4天5條人命,中國(guó)不再忍耐,聯(lián)大下通牒:塔利班若再裝傻后果自負(fù)

      4天5條人命,中國(guó)不再忍耐,聯(lián)大下通牒:塔利班若再裝傻后果自負(fù)

      春秋論娛
      2025-12-18 07:11:35
      日本告知世界,將強(qiáng)登釣魚(yú)島?中方迅速作出回應(yīng),俄羅斯選邊站了

      日本告知世界,將強(qiáng)登釣魚(yú)島?中方迅速作出回應(yīng),俄羅斯選邊站了

      林子說(shuō)事
      2025-12-18 11:20:00
      快船消息:重要決定曝光,哈登傷情嚴(yán)峻,戰(zhàn)雷霆出場(chǎng)更新

      快船消息:重要決定曝光,哈登傷情嚴(yán)峻,戰(zhàn)雷霆出場(chǎng)更新

      冷月小風(fēng)風(fēng)
      2025-12-18 10:45:55
      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個(gè)孩子

      馬斯克收心了?官宣了39歲印度裔伴侶:相貌普通為他生了4個(gè)孩子

      豐譚筆錄
      2025-12-12 11:16:23
      韓國(guó)總統(tǒng)李在明談漢字教育,提到中國(guó)古籍《千字文》

      韓國(guó)總統(tǒng)李在明談漢字教育,提到中國(guó)古籍《千字文》

      環(huán)球網(wǎng)資訊
      2025-12-17 21:32:59
      國(guó)運(yùn)來(lái)了擋不住!30億噸鐵礦重見(jiàn)天日,美媒:中國(guó)將改寫(xiě)全球格局

      國(guó)運(yùn)來(lái)了擋不住!30億噸鐵礦重見(jiàn)天日,美媒:中國(guó)將改寫(xiě)全球格局

      混沌錄
      2025-11-06 23:45:04
      賴(lài)昌星發(fā)妻曾明娜現(xiàn)狀:逃亡10年后回國(guó),守著3000平老宅安靜養(yǎng)老

      賴(lài)昌星發(fā)妻曾明娜現(xiàn)狀:逃亡10年后回國(guó),守著3000平老宅安靜養(yǎng)老

      古書(shū)記史
      2025-12-12 11:21:38
      70歲大爺賴(lài)了300萬(wàn)的網(wǎng)貸,8家催收公司看到統(tǒng)一口徑:這賬收不回

      70歲大爺賴(lài)了300萬(wàn)的網(wǎng)貸,8家催收公司看到統(tǒng)一口徑:這賬收不回

      卡西莫多的故事
      2025-12-15 11:13:59
      賭王女兒何超盈:從220斤瘦成紙片人,女兒6歲長(zhǎng)得像東北學(xué)霸老公

      賭王女兒何超盈:從220斤瘦成紙片人,女兒6歲長(zhǎng)得像東北學(xué)霸老公

      瞻史
      2025-12-17 14:23:31
      網(wǎng)紅狗“佩奇”去世!被人下毒致死,主人情緒崩潰,網(wǎng)友:不同情

      網(wǎng)紅狗“佩奇”去世!被人下毒致死,主人情緒崩潰,網(wǎng)友:不同情

      丁丁鯉史紀(jì)
      2025-12-17 17:46:35
      暴雷!2.7億年薪打工皇帝,恒大“二號(hào)人物”夏海鈞被最后通牒!

      暴雷!2.7億年薪打工皇帝,恒大“二號(hào)人物”夏海鈞被最后通牒!

      歷史偉人錄
      2025-12-16 11:21:40
      安徽一市新任一名副市長(zhǎng)

      安徽一市新任一名副市長(zhǎng)

      網(wǎng)易安徽
      2025-12-18 09:39:01
      央5直播廣東男籃VS廣州,郭艾倫VS徐杰,胡明軒回暖,杜鋒要3連勝

      央5直播廣東男籃VS廣州,郭艾倫VS徐杰,胡明軒回暖,杜鋒要3連勝

      體育大學(xué)僧
      2025-12-17 11:25:37
      泰國(guó)萬(wàn)萬(wàn)沒(méi)想到,柬埔寨竟然自己挑了一個(gè)最強(qiáng)硬的對(duì)手

      泰國(guó)萬(wàn)萬(wàn)沒(méi)想到,柬埔寨竟然自己挑了一個(gè)最強(qiáng)硬的對(duì)手

      樂(lè)天閑聊
      2025-12-17 14:53:15
      俄外長(zhǎng):美已向俄承諾烏將放棄部分領(lǐng)土

      俄外長(zhǎng):美已向俄承諾烏將放棄部分領(lǐng)土

      參考消息
      2025-12-17 18:32:07
      鄧文迪的倆女兒,都是學(xué)霸,深受父親寵愛(ài),出生在羅馬的億萬(wàn)富豪

      鄧文迪的倆女兒,都是學(xué)霸,深受父親寵愛(ài),出生在羅馬的億萬(wàn)富豪

      豐譚筆錄
      2025-12-15 10:41:58
      降得最多的居然是門(mén)頭溝!網(wǎng)傳北京2025年底房?jī)r(jià)出爐~

      降得最多的居然是門(mén)頭溝!網(wǎng)傳北京2025年底房?jī)r(jià)出爐~

      門(mén)頭溝區(qū)論壇
      2025-12-17 20:18:54
      西伯利亞“入冬備戰(zhàn)”:人均儲(chǔ)糧500公斤,窗戶至少加固到三層

      西伯利亞“入冬備戰(zhàn)”:人均儲(chǔ)糧500公斤,窗戶至少加固到三層

      近史談
      2025-12-05 20:48:52
      俄軍步兵遭受巨大傷亡畫(huà)面曝光!不計(jì)代價(jià)沖鋒,尸體鋪滿道路

      俄軍步兵遭受巨大傷亡畫(huà)面曝光!不計(jì)代價(jià)沖鋒,尸體鋪滿道路

      環(huán)球熱點(diǎn)快評(píng)
      2025-11-03 22:40:40
      王石太難了!為了配合田樸珺拍新別墅內(nèi)景,把頭發(fā)都染成黑色的了

      王石太難了!為了配合田樸珺拍新別墅內(nèi)景,把頭發(fā)都染成黑色的了

      娛圈小愚
      2025-12-18 11:23:17
      2025-12-18 13:19:00
      機(jī)器之心Pro incentive-icons
      機(jī)器之心Pro
      專(zhuān)業(yè)的人工智能媒體
      11944文章數(shù) 142512關(guān)注度
      往期回顧 全部

      科技要聞

      谷歌凌晨炸場(chǎng),Pro級(jí)智商只賣(mài)“白菜價(jià)”

      頭條要聞

      牛彈琴:泰柬激烈沖突泰軍占上風(fēng) 中國(guó)又出手了

      頭條要聞

      牛彈琴:泰柬激烈沖突泰軍占上風(fēng) 中國(guó)又出手了

      體育要聞

      巴黎首奪世界級(jí)冠軍 加冕6冠王比肩巴薩拜仁

      娛樂(lè)要聞

      內(nèi)娛解約大戰(zhàn):鞠婧祎和絲芭,誰(shuí)是狼人

      財(cái)經(jīng)要聞

      重大改革,身關(guān)14億人的政策徹底變了!

      汽車(chē)要聞

      開(kāi)箱日產(chǎn)大沙發(fā) 精致辦公or躺平追劇 哪個(gè)更適配?

      態(tài)度原創(chuàng)

      健康
      本地
      房產(chǎn)
      親子
      手機(jī)

      這些新療法,讓化療不再那么痛苦

      本地新聞

      云游安徽|決戰(zhàn)烽火照古今,千秋一脈看宿州

      房產(chǎn)要聞

      太強(qiáng)了!封關(guān)時(shí)刻,兩天砸下50億!央企綠發(fā),重倉(cāng)三亞!

      親子要聞

      2025年幼兒園家具品牌推薦,飛友以“一米高度”設(shè)計(jì)溫暖每一所幼兒園

      手機(jī)要聞

      iOS 26.3首個(gè)公測(cè)版發(fā)布:蘋(píng)果、安卓正式互通 可互傳數(shù)據(jù)

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 2021亚洲爆乳无码专区| 婷婷四虎东京热无码群交双飞视频 | 无套内谢少妇毛片A片樱花| 国产女人18毛片水真多1| 另类内射国产在线| 男人扒女人添高潮视频| 都兰县| 一级国产在线观看高清| 新狼窝色av性久久久久久| 久久人妻av无码中文专区| 色欲av亚洲一区无码少妇| 九一九色国产| 亚洲av无码牛牛影视在线二区| 足交在线观看| 少妇高潮喷水久久久久久久久久| 欧美精品在线观看| 瓦房店市| 制服丝袜无码| 国产精品久久久久久久专区| 偷国产乱人伦偷精品视频| 国产精品欧美福利久久| 狼人久久综合| 国产肥白大熟妇BBBB视频| 欧美日韩久久| 国产免费人成网站在线播放| 国产又黄又爽又刺激的免费网址| 河曲县| 亚洲熟妇无码成人A片| 国产稚嫩高中生呻吟激情在线视频| 三级三级久久三级久久| 99国产欧美另类久久久精品| 国产三级精品三级男人的天堂| 午夜日逼| 熟女中文字幕在线| 91久久国产成人免费观看| 亚洲av无码精品色午夜| 男人的天堂在线视频| 激烈的性高湖波多野结衣| 99热这里只有精品2| 鄯善县| 91探花视频在线观看|