網易首頁 > 網易號 > 正文申請入駐

何愷明NeurIPS 2025演講盤點：視覺目標檢測三十年

2025-12-11 18:08:21　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

機器之心編輯部

不久前，NeurIPS 2025 順利舉辦，作為人工智能學術界的頂級會議之一，其中不乏學術界大佬的工作和演講。

有一項榮譽的頒發顯得格外厚重且眾望所歸 —— 由任少卿、何愷明、Ross Girshick 和孫劍合著的經典論文《Faster R-CNN》，摘得了「時間檢驗獎」 (Test of Time Award)

凡是接觸過計算機視覺的人，對這個名字絕不陌生。自 2015 年發表以來，《Faster R-CNN》無疑成為了該領域最具里程碑意義的工作之一。它不僅一舉奠定了現代目標檢測框架的核心范式，更像是一座燈塔，深刻影響并指引了隨后整整十年的視覺模型發展方向。

論文地址：https://arxiv.org/pdf/1506.01497

作為這一歷史性時刻的見證與總結，何愷明在大會上發表了題為《視覺目標檢測簡史》 (A Brief History of Visual Object Detection)的演講。

何愷明演講 PPT 已經公開，可以參閱以下鏈接：

https://people.csail.mit.edu/kaiming/neurips2025talk/neurips2025_fasterrcnn_kaiming.pdf

從何愷明的演講內容來看，這不單是一個技術匯報，更像是一部計算機如何學會「看世界」的英雄史詩，總結了 30 年來視覺目標檢測的發展歷程。演講中介紹的每一個工作，都獲得了不同頂會的時間檢驗獎，對視覺智能的發展起到了決定性的作用。

你是否好奇：為什么現在的 AI 能在一瞬間識別出照片里的貓、狗、汽車甚至它們的位置，而在十幾年前這卻被認為是幾乎不可能的任務？

讓我們跟隨大神的視角，穿越回那個「原始」的時代，看看這一路是如何走來的。

原始：手工打磨的「放大鏡」

在深度學習爆發之前，計算機視覺科學家們更像是「工匠」。

人臉檢測的早期嘗試：早在 90 年代，科學家們就開始嘗試用神經網絡和統計學方法找人臉：

1996 年： Rowley 等人發表了《基于神經網絡的人臉檢測》(Neural Network-Based Face Detection) ，這是何愷明閱讀的第一篇 CV 論文，利用早期的神經網絡在圖像金字塔上尋找面孔。
1997 年： Osuna 等人引入了支持向量機，發表了《用于人臉檢測的 SVM》(SVM for Face Detection) ，試圖在數據中畫出一條完美的分類線。
2001 年：著名的Viola-Jones 框架(The Viola-Jones Framework) 橫空出世。它通過簡單的特征組合實現了極快的人臉檢測，直到今天，很多老式相機的對焦功能還得感謝它。

特征工程的黃金時代：既然「整張臉」難找，那就找「關鍵點」和「紋理」。隨后的幾年，特征描述符成為了主角：

1999 年： Lowe 提出了SIFT，這種「尺度不變特征變換」能在旋轉、縮放的情況下依然認出物體，是當年的絕對王者。
2003 年： Sivic 和 Zisserman 借鑒文本搜索，提出了「視覺詞袋模型」(Bag of Visual Words) ，把圖片看作一堆「視覺單詞」的集合。
2005 年： Dalal 和 Triggs 發明了HOG(方向梯度直方圖) ，專門用來描述行人的輪廓。同一年，Grauman 和 Darrell 提出了「金字塔匹配核」 (Pyramid Match Kernel) ，用來比較兩組特征的相似度。
2006 年： Lazebnik 等人進一步提出了「空間金字塔匹配」(Spatial Pyramid Matching) ，解決了詞袋模型丟失空間位置信息的問題。
2008 年：特征工程的集大成者DPM(Deformable Part Model) 登場。它把物體看作一個個可變形的部件（比如人的頭、手、腳），像彈簧一樣連接在一起。這是傳統方法的巔峰。

痛點在哪里？特征是人設計的（Hand-crafted），分類器（比如 SVM）只能在這些有限的信息上工作。這種方法不僅慢，而且很難適應復雜的場景。

破曉：AlexNet 與 R-CNN 的「暴力美學」

2012 年，AlexNet 橫空出世，深度學習證明了它提取特征的能力遠超人類手工設計。但是，怎么用它來做目標檢測呢？

深度學習的驚雷：2012 年，AlexNet (Krizhevsky et al.) 在 ImageNet 競賽中以壓倒性優勢奪冠。它證明了深層卷積神經網絡（CNN）提取特征的能力遠超人類手工設計。

R-CNN：從分類到檢測但是，怎么用 CNN 做目標檢測（框出物體位置）？ 2014 年，Girshick 等人提出了劃時代的 R-CNN (Region-based CNN) 。它的思路很直接：

先用傳統算法（Selective Search）在圖上剪出約 2000 個「候選區域」 (Region Proposals)。
把每個區域都扔進 CNN 提特征，再用 SVM 分類。

巔峰：Faster R-CNN 的「速度進化」

R-CNN 讓每個候選框都過一遍 CNN，計算量巨大。科學家們開始思考如何復用計算。

2014 年：何愷明團隊提出了SPP-Net(Spatial Pyramid Pooling) 。它引入了空間金字塔池化層，允許神經網絡處理任意大小的圖片，并且只算一次全圖特征，大大加速了檢測。
2015 年： Girshick 借鑒 SPP-Net，推出了Fast R-CNN。它引入了 RoI Pooling，把特征提取和分類回歸整合到了一個網絡里，不僅快，還能端到端訓練。

最終的瓶頸：即便如此，候選框（Region Proposals）依然依賴那個笨重的傳統算法（Selective Search），這成為了系統的速度瓶頸。

2015 年，Faster R-CNN 的誕生：何愷明團隊提出了 RPN (Region Proposal Network) 。他們從 1991 年 LeCun 等人的「空間位移神經網絡」 (Space Displacement Net) 中獲得靈感，讓神經網絡自己在特征圖上「滑動」，通過預設的 Anchor (錨點) 來預測物體可能存在的位置。

至此，目標檢測的所有環節 —— 提議、特征提取、分類、回歸 —— 全部被神經網絡接管，實現了真正的「端到端」實時檢測。速度和精度雙重飛躍，計算機視覺終于邁入了實時檢測的時代。

迷霧后的新世界：Transformer 與萬物

Faster R-CNN 開啟了一個時代，但探索從未停止。演講的后半部分，何愷明展示了技術的洪流如何繼續奔涌：

既然要快，能不能連「候選框」這個步驟都不要了？

2016 年：YOLO(You Only Look Once) 和SSD(Single Shot MultiBox Detector) 問世。它們像人類一眼看全圖一樣，直接輸出所有物體的位置和類別，速度極快。
2017 年：為了解決單階段檢測精度低的問題（正負樣本不平衡），何愷明團隊提出了Focal Loss(RetinaNet) 。
2017 年：Mask R-CNN驚艷亮相。它在 Faster R-CNN 的基礎上加了一個分支，不僅能畫框，還能像素級地把物體「摳」出來（實例分割），引入了 RoI Align 解決了像素對齊問題。
2020 年：DETR(Detection Transformer) 將 Transformer 架構引入視覺。它完全拋棄了 Anchor 和復雜的后處理（NMS），用全局注意力機制重新定義了檢測。
2023 年：SAM(Segment Anything Model) 橫空出世。它在大數據的喂養下，學會了「分割萬物」，不再受限于特定的訓練類別，展示了視覺大模型的雛形。

在這個「大航海時代」我們學到了什么？

我們在過去的幾十年里學到了什么？

何愷明說：「Write object detection papers and win Test of Time Awards :)」（寫目標檢測論文然后拿到時間檢驗獎 :) ）

演講最后，他用一張 Nano-Banana 生成的非常有寓意的圖作為結尾：一艘船駛向迷霧中的大海。

他說，科學探索就像是駛入迷霧

這里沒有預先畫好的的地圖。
我們甚至不知道終點是否存在。

從手工特征到 CNN，再到 Transformer，每一次飛躍都是探險者在迷霧中發現的新大陸。Faster R-CNN 不僅僅是一個算法，它教會了我們：當舊的組件成為瓶頸時，用更強大的可學習模型去取代它。

在下一個十年，計算機視覺的「圣杯」會是什么？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.