剛剛,備受矚目的ICCV 2025,在美國夏威夷正式“開獎”!
好家伙,在提交論文的作者里,中國直接占了半壁江山,不多不少占比50%。
![]()
各個獎項也是重中之重捷報頻傳,現(xiàn)場更是人山人海……好在前方參會的“詹姆斯邦迪”(小紅書博主,歡迎大家去follow),第一時間分享了最新進展。
讓我們一起膜拜看看頂會榮耀,今年花落誰家?
最佳論文獎(馬爾獎):
Generating Physically Stable and Buildable Brick Structures from Text(從文本生成物理穩(wěn)定且可搭建的積木結(jié)構(gòu))。
![]()
圖源小紅書博主:@詹姆斯邦迪
最佳學(xué)生論文獎:
FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models(基于預(yù)訓(xùn)練流模型的無反演文本編輯方法) 。
![]()
圖源小紅書博主:@詹姆斯邦迪
最佳論文榮譽提名:
Spatially-Varying Autofocus(空間可變自動對焦)。
![]()
圖源小紅書博主:@詹姆斯邦迪
最佳學(xué)生論文榮譽提名:
RayZer: A Self-supervised Large View Synthesis Model(基于自監(jiān)督學(xué)習(xí)的大規(guī)模視圖合成模型)。
![]()
圖源小紅書博主:@詹姆斯邦迪
赫爾姆霍茲獎:
Fast R-CNN(快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò))和Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification(深入研究修正激活函數(shù):在ImageNet分類中超越人類水平)。
![]()
圖源小紅書博主:@詹姆斯邦迪
埃弗林厄姆獎:
The SMPL Body Model Team和The VQA Team。
![]()
圖源小紅書博主:@詹姆斯邦迪
杰出研究員獎:
David Forsyth和Michal Irani。
![]()
圖源小紅書博主:@詹姆斯邦迪
阿茲列爾·羅森菲爾德終身成就獎:
Rama Chellappa。
![]()
圖源小紅書博主:@詹姆斯邦迪
對于上述論文成果和獎項,是不是一下子有點懵?
別慌別慌,咱們一起來詳細學(xué)習(xí)一下。
獲獎的都是啥研究? 最佳論文獎
首先介紹的是最佳論文獎,這含金量就不用多說了吧。
ICCV最佳論文又名馬爾獎(Marr Prize),每兩年評選一次,被譽為計算機視覺領(lǐng)域的最高榮譽之一。 這一獎項因計算機視覺之父、計算機視覺先驅(qū)、計算神經(jīng)科學(xué)的創(chuàng)始人David Courtnay Marr(大衛(wèi)·馬爾)而得名。
![]()
此研究提出了BRICKGPT——首個能夠根據(jù)文本提示生成物理穩(wěn)定的積木結(jié)構(gòu)模型的方法。
研究團隊構(gòu)建了一個大規(guī)模、物理穩(wěn)定的積木結(jié)構(gòu)數(shù)據(jù)集StableText2Brick,包含超過47000個積木結(jié)構(gòu),涵蓋28000多個獨特三維物體,每個結(jié)構(gòu)均配有詳細的文字描述,并訓(xùn)練了一個自回歸大型語言模型,通過逐步預(yù)測“下一個積木”來生成完整結(jié)構(gòu)。
![]()
為了提升生成結(jié)構(gòu)的穩(wěn)定性,他們在推理過程中引入了有效性檢測和物理感知回滾機制,利用物理規(guī)律和裝配約束剔除不可行的預(yù)測。
實驗表明,BRICKGPT能夠生成穩(wěn)定、多樣且美觀的積木結(jié)構(gòu),并與輸入文本高度契合。進一步地,他們還開發(fā)了基于文本的積木紋理生成方法,可生成帶顏色和紋理的設(shè)計,且這些結(jié)構(gòu)既可以由人手動組裝,也可以由機械臂自動搭建。
![]()
值得一提的是,這論文里也有不少華人身影,而帶隊的正是AI才俊朱俊彥。
![]()
朱俊彥,2008年進入清華大學(xué)計算機科學(xué)系,學(xué)習(xí)計算機科學(xué)專業(yè)。在同專業(yè)140人中,朱俊彥排名第2。2012年清華本科畢業(yè)后,朱俊彥奔赴美國,在CMU和UC伯克利經(jīng)過5年學(xué)習(xí),獲得了UC伯克利電氣工程與計算機科學(xué)系的博士學(xué)位,師從Alexei Efros。
其博士畢業(yè)畢業(yè)論文Learning to Generate Images,獲得了計算機圖形學(xué)頂會ACM SIGGRAPH 2018“杰出博士論文獎”。
博士畢業(yè)后,朱俊彥來到MIT計算機與人工智能實驗室(CSAIL),成為一名博士后研究員。2020年秋季,他回到曾經(jīng)的母校CMU(卡內(nèi)基梅隆大學(xué)),擔任助理教授一職。
![]()
其他幾位:Kangle Deng,Roblox的一名研究科學(xué)家,研究重點是3D內(nèi)容創(chuàng)作。本科畢業(yè)于北京大學(xué),博士畢業(yè)于卡內(nèi)基梅隆大學(xué)。
![]()
Ruixuan Liu,本科和碩士均畢業(yè)于卡內(nèi)基梅隆大學(xué),現(xiàn)為該校計算機學(xué)院機器人研究所的博士生,研究方向包括機器人學(xué)習(xí)、操作與控制、生成式智能,以及人機協(xié)作。
![]()
Changliu Liu,本科畢業(yè)于清華大學(xué),博士畢業(yè)于美國加州大學(xué)伯克利分校,現(xiàn)為卡內(nèi)基梅隆大學(xué)機器人研究所的副教授,
最佳學(xué)生論文獎
使用預(yù)訓(xùn)練的文本到圖像(Text-to-Image,T2I)擴散或流模型編輯真實圖像時,通常需要先將圖像反演(inversion)到對應(yīng)的噪聲空間。
然而,僅靠反演往往難以獲得理想結(jié)果,因此許多方法會在采樣過程中額外干預(yù)。這類方法雖然能夠提升效果,但無法在不同模型架構(gòu)之間無縫遷移。
![]()
為此,研究團隊提出了FlowEdit——一種針對預(yù)訓(xùn)練T2I流模型的文本驅(qū)動圖像編輯方法。它無需反演、無需優(yōu)化,并且對模型架構(gòu)無依賴。
FlowEdit構(gòu)建了一個常微分方程(ODE),直接在源分布與目標分布之間映射(對應(yīng)源文本提示和目標文本提示),并實現(xiàn)了比傳統(tǒng)反演方法更低的傳輸成本。
正如團隊在Stable Diffusion 3和FLUX上的實驗所示,該方法取得了最先進的效果。
![]()
最佳論文榮譽提名
透鏡可以將一個平面聚焦到平面?zhèn)鞲衅魃希虼藞鼍爸胁辉谠摻蛊矫嫔系牟糠謺蚴Ы苟:?/p>
來自卡內(nèi)基梅隆大學(xué)的團隊打破常規(guī),設(shè)計使用了Lohmann 透鏡與僅相位空間光調(diào)制器(phase-only spatial light modulator) 的光學(xué)組合,使得每個像素可以聚焦在不同深度上。
![]()
他們將經(jīng)典自動對焦技術(shù)拓展至空間變化場景:利用對比度與視差線索迭代估算深度圖,使相機能夠根據(jù)場景深度動態(tài)調(diào)整景深分布。
通過光學(xué)方式直接獲取全焦圖像,此技術(shù)在以下兩個關(guān)鍵方面超越了現(xiàn)有成果:一是能夠同時使整個場景保持清晰對焦,二是可維持最高的空間分辨率。
![]()
最佳學(xué)生論文榮譽提名
研究團隊提出了RayZer——一種無需任何3D監(jiān)督(如相機位姿與場景幾何信息)即可完成訓(xùn)練的自監(jiān)督多視圖3D視覺模型。
![]()
具體而言,RayZer以未標定且未校準的圖像作為輸入,自主恢復(fù)相機參數(shù)、重建場景表征并生成新視角畫面。
在訓(xùn)練過程中,RayZer僅依賴其自預(yù)測的相機位姿來渲染目標視角,完全無需真實相機標注數(shù)據(jù),實現(xiàn)了僅通過2D圖像監(jiān)督即可完成訓(xùn)練。
RayZer所表現(xiàn)出的三維感知能力主要歸功于兩個關(guān)鍵因素:
自監(jiān)督框架設(shè)計:通過將相機表示和場景表示解耦,實現(xiàn)輸入圖像的三維感知自編碼;
基于Transformer的模型設(shè)計:僅以射線結(jié)構(gòu)作為唯一3D先驗,同步關(guān)聯(lián)相機、像素與場景信息。
實驗表明,RayZer在新視角合成任務(wù)中展現(xiàn)出與”真值標注”方法相當甚至更優(yōu)的性能。
![]()
赫爾姆霍茲獎
獲赫爾姆霍茲獎的一共有兩項研究,且都來自微軟研究院。
其一為Fast R-CNN——一種基于快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)的目標檢測方法。
![]()
Fast R-CNN在之前工作的基礎(chǔ)上,利用深度卷積網(wǎng)絡(luò)對候選目標區(qū)域進行高效分類。與以往方法相比,F(xiàn)ast R-CNN引入了多項創(chuàng)新,不僅提升了訓(xùn)練和測試速度,同時也提高了檢測精度。
實驗表明,在PASCAL VOC 2012數(shù)據(jù)集上,F(xiàn)ast R-CNN對VGG16網(wǎng)絡(luò)的訓(xùn)練速度較R-CNN提升9倍,測試速度提升213倍,并獲得了更高的mAP指標;相較于SPPnet,其VGG16訓(xùn)練速度加快3倍,測試速度提升10倍,且檢測精度更優(yōu)。
![]()
上面提到了,另一個獲赫爾姆霍茲獎的也來自微軟研究院。
![]()
研究從兩個方面研究了用于圖像分類的修正激活神經(jīng)網(wǎng)絡(luò)。
首先,他們提出了一種參數(shù)化修正線性單元(Parametric ReLU,PReLU),它是對傳統(tǒng)修正激活單元的推廣。PReLU在幾乎不增加額外計算開銷且?guī)缀鯖]有過擬合風(fēng)險的情況下,提高了模型的擬合能力。
其次,他們提出了一種專門針對修正激活非線性的魯棒初始化方法,能夠從零開始訓(xùn)練極深的修正激活模型,并探索更深或更寬的網(wǎng)絡(luò)架構(gòu)。
基于PReLU網(wǎng)絡(luò)(PReLU-nets),團隊在ImageNet 2012分類數(shù)據(jù)集上實現(xiàn)了4.94%的Top-5測試誤差,相比ILSVRC 2014冠軍GoogLeNet(6.66%)提升了26%。據(jù)研究人員所知,這是首次在該視覺識別挑戰(zhàn)中超過人類水平(5.1%)的結(jié)果。
![]()
獲獎團隊與大佬 埃弗林厄姆獎
細數(shù)完獲獎的一眾研究,就該看看獲獎的團隊了。
首先是The SMPL Body Model Team,SMPL是一種基于蒙皮和混合形狀技術(shù)、從數(shù)千例3D人體掃描數(shù)據(jù)中學(xué)習(xí)得到的逼真人體三維模型。該模型在精度上超越現(xiàn)有模型,并與主流圖形渲染管線完全兼容。
![]()
值得一提的是,該模型參數(shù)完全從數(shù)據(jù)中學(xué)習(xí)得到,包括:靜態(tài)姿態(tài)模板、混合權(quán)重、姿態(tài)混合形狀、身份混合形狀,以及從頂點到關(guān)節(jié)點位置的回歸器。
![]()
與既有模型不同,此模型的姿態(tài)混合形狀是姿態(tài)旋轉(zhuǎn)矩陣元素的線性函數(shù)。這一簡潔的數(shù)學(xué)表達使得模型能夠基于大量不同人體、不同姿態(tài)的對齊3D網(wǎng)格數(shù)據(jù)進行端到端訓(xùn)練。
接下來是The VQA Team,VQA為一項自由形式開放式視覺問答任務(wù)。
![]()
在該任務(wù)中,給定一張圖像和關(guān)于該圖像的自然語言問題,系統(tǒng)需要提供一個準確的自然語言答案。
與現(xiàn)實場景(例如為視障人士提供幫助)類似,這里的問題和答案都是開放式的。視覺問題會有選擇性地關(guān)注圖像的不同區(qū)域,包括背景細節(jié)和潛在上下文信息。
因此,要在VQA任務(wù)中取得成功,系統(tǒng)通常需要比生成通用圖像描述更深入理解圖像內(nèi)容和進行復(fù)雜推理的能力。
對此,研究團隊提供了一個數(shù)據(jù)集,包含約25萬張圖像、76萬個問題和約1000萬個答案,并討論了數(shù)據(jù)集所提供的信息。他們還提供了多種基線方法及VQA方法,并與人類表現(xiàn)進行了對比。
杰出研究員獎
![]()
David Forsyth,一位出生于南非的美國計算機科學(xué)家,現(xiàn)任伊利諾伊大學(xué)香檳分校(UIUC)計算機科學(xué)Fulton Watson Copp教授,主要研究方向包括計算機視覺、計算機圖形學(xué)和機器學(xué)習(xí)。
他在約翰內(nèi)斯堡維特沃特斯蘭德大學(xué)獲得電氣工程學(xué)士和碩士學(xué)位,并于1989年在牛津大學(xué)獲得計算機科學(xué)博士學(xué)位,導(dǎo)師為J. Michael Brady。
完成博士后工作后,他曾在愛荷華大學(xué)任教,并于1994至 2004 年在加州大學(xué)伯克利分校擔任電氣工程與計算機科學(xué)系教授,2004年起加入UIUC,成為該校計算機科學(xué)領(lǐng)域的領(lǐng)軍人物。
此外,David長期參與國際學(xué)術(shù)會議的組織工作,曾三度擔任IEEE計算機視覺與模式識別會議程序委員會聯(lián)合主席(2000/2011/2018),兩度擔任CVPR大會聯(lián)合主席(2006/2015),并擔任2008年歐洲計算機視覺會議程序委員會聯(lián)合主席。
他是所有主要國際計算機視覺會議程序委員會的常任委員,曾六度入選SIGGRAPH程序委員會并持續(xù)擔任該會議評審。
![]()
Michal Irani,以色列魏茨曼科學(xué)研究院數(shù)學(xué)與計算機科學(xué)學(xué)院的教授及現(xiàn)任院長。曾在希伯來大學(xué)獲得數(shù)學(xué)與計算機科學(xué)學(xué)士及計算機科學(xué)碩士、博士學(xué)位。
Michal的研究領(lǐng)域為計算機視覺、圖像處理和人工智能。她尤其致力于理解自然圖像和視頻的內(nèi)部統(tǒng)計信息、視頻的時空分析以及基于構(gòu)圖的視覺推理。
Michal教授在學(xué)術(shù)界成就卓著,獲得多項榮譽,包括薩諾夫研究中心技術(shù)成就獎、Yigal Alon杰出青年科學(xué)家獎、Morris L. Levinson數(shù)學(xué)獎、ECCV最佳論文獎等。
阿茲列爾·羅森菲爾德終身成就獎
![]()
Rama Chellappa,約翰霍普金斯大學(xué)布隆伯格杰出教授,現(xiàn)任電氣與計算機工程系和生物醫(yī)學(xué)工程系教授,兼任數(shù)據(jù)科學(xué)與人工智能研究所共同主任。
Rama教授于印度馬德拉斯大學(xué)獲得電子與通信工程學(xué)士學(xué)位(1975),隨后在印度班加羅爾的印度科學(xué)研究院獲得電子與通信工程碩士學(xué)位(1977),并在美國普渡大學(xué)獲得電氣工程碩士(1978)和博士學(xué)位(1981)。
他的研究領(lǐng)域涵蓋計算機視覺、模式識別、圖像與信號處理、機器學(xué)習(xí)和生物特征識別等,致力于利用數(shù)據(jù)、幾何和物理學(xué)幫助計算機系統(tǒng)理解視覺世界。
One More Thing
有意思的是,這么大的會議,竟然有許多人坐在地上吃午飯。
![]()
所以網(wǎng)友合理建議:快多放點椅子吧~
![]()
論文鏈接:
[1]https://arxiv.org/abs/2505.05469
[2]https://arxiv.org/html/2412.08629v2
[3]https://imaging.cs.cmu.edu/svaf/static/pdfs/Spatially_Varying_Autofocus.pdf
[4]https://arxiv.org/abs/2505.00702
[5]https://arxiv.org/abs/1504.08083
[6]https://arxiv.org/abs/1502.01852
文章來源:量子位。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.