![]()
機器之心報道
機器之心編輯部
不久前,NeurIPS 2025 順利舉辦,作為人工智能學術界的頂級會議之一,其中不乏學術界大佬的工作和演講。
有一項榮譽的頒發顯得格外厚重且眾望所歸 —— 由任少卿、何愷明、Ross Girshick 和孫劍合著的經典論文《Faster R-CNN》,摘得了「時間檢驗獎」 (Test of Time Award)
凡是接觸過計算機視覺的人,對這個名字絕不陌生。自 2015 年發表以來,《Faster R-CNN》無疑成為了該領域最具里程碑意義的工作之一。它不僅一舉奠定了現代目標檢測框架的核心范式,更像是一座燈塔,深刻影響并指引了隨后整整十年的視覺模型發展方向。
![]()
- 論文地址:https://arxiv.org/pdf/1506.01497
![]()
作為這一歷史性時刻的見證與總結,何愷明在大會上發表了題為《視覺目標檢測簡史》 (A Brief History of Visual Object Detection)的演講。
![]()
何愷明演講 PPT 已經公開,可以參閱以下鏈接:
https://people.csail.mit.edu/kaiming/neurips2025talk/neurips2025_fasterrcnn_kaiming.pdf
從何愷明的演講內容來看,這不單是一個技術匯報,更像是一部計算機如何學會「看世界」的英雄史詩,總結了 30 年來視覺目標檢測的發展歷程。演講中介紹的每一個工作,都獲得了不同頂會的時間檢驗獎,對視覺智能的發展起到了決定性的作用。
你是否好奇:為什么現在的 AI 能在一瞬間識別出照片里的貓、狗、汽車甚至它們的位置,而在十幾年前這卻被認為是幾乎不可能的任務?
![]()
讓我們跟隨大神的視角,穿越回那個「原始」的時代,看看這一路是如何走來的。
原始:手工打磨的「放大鏡」
在深度學習爆發之前,計算機視覺科學家們更像是「工匠」。
人臉檢測的早期嘗試: 早在 90 年代,科學家們就開始嘗試用神經網絡和統計學方法找人臉:
- 1996 年: Rowley 等人發表了《基于神經網絡的人臉檢測》(Neural Network-Based Face Detection) ,這是何愷明閱讀的第一篇 CV 論文,利用早期的神經網絡在圖像金字塔上尋找面孔 。
- 1997 年: Osuna 等人引入了支持向量機,發表了《用于人臉檢測的 SVM》(SVM for Face Detection) ,試圖在數據中畫出一條完美的分類線。
- 2001 年: 著名的Viola-Jones 框架(The Viola-Jones Framework) 橫空出世。它通過簡單的特征組合實現了極快的人臉檢測,直到今天,很多老式相機的對焦功能還得感謝它。
特征工程的黃金時代: 既然「整張臉」難找,那就找「關鍵點」和「紋理」。隨后的幾年,特征描述符成為了主角:
- 1999 年: Lowe 提出了SIFT,這種「尺度不變特征變換」能在旋轉、縮放的情況下依然認出物體,是當年的絕對王者。
- 2003 年: Sivic 和 Zisserman 借鑒文本搜索,提出了「視覺詞袋模型」(Bag of Visual Words) ,把圖片看作一堆「視覺單詞」的集合。
- 2005 年: Dalal 和 Triggs 發明了HOG(方向梯度直方圖) ,專門用來描述行人的輪廓。同一年,Grauman 和 Darrell 提出了 「金字塔匹配核」 (Pyramid Match Kernel) ,用來比較兩組特征的相似度。
- 2006 年: Lazebnik 等人進一步提出了「空間金字塔匹配」(Spatial Pyramid Matching) ,解決了詞袋模型丟失空間位置信息的問題。
- 2008 年: 特征工程的集大成者DPM(Deformable Part Model) 登場。它把物體看作一個個可變形的部件(比如人的頭、手、腳),像彈簧一樣連接在一起。這是傳統方法的巔峰。
痛點在哪里?特征是人設計的(Hand-crafted),分類器(比如 SVM)只能在這些有限的信息上工作 。這種方法不僅慢,而且很難適應復雜的場景。
破曉:AlexNet 與 R-CNN 的「暴力美學」
2012 年,AlexNet 橫空出世,深度學習證明了它提取特征的能力遠超人類手工設計 。但是,怎么用它來做目標檢測呢?
深度學習的驚雷:2012 年,AlexNet (Krizhevsky et al.) 在 ImageNet 競賽中以壓倒性優勢奪冠。它證明了深層卷積神經網絡(CNN)提取特征的能力遠超人類手工設計。
![]()
R-CNN:從分類到檢測 但是,怎么用 CNN 做目標檢測(框出物體位置)? 2014 年,Girshick 等人提出了劃時代的 R-CNN (Region-based CNN) 。它的思路很直接:
- 先用傳統算法(Selective Search)在圖上剪出約 2000 個「候選區域」 (Region Proposals)。
- 把每個區域都扔進 CNN 提特征,再用 SVM 分類。
巔峰:Faster R-CNN 的「速度進化」
R-CNN 讓每個候選框都過一遍 CNN,計算量巨大。科學家們開始思考如何復用計算。
- 2014 年: 何愷明團隊提出了SPP-Net(Spatial Pyramid Pooling) 。它引入了空間金字塔池化層,允許神經網絡處理任意大小的圖片,并且只算一次全圖特征,大大加速了檢測。
- 2015 年: Girshick 借鑒 SPP-Net,推出了Fast R-CNN。它引入了 RoI Pooling,把特征提取和分類回歸整合到了一個網絡里,不僅快,還能端到端訓練。
![]()
最終的瓶頸: 即便如此,候選框(Region Proposals)依然依賴那個笨重的傳統算法(Selective Search),這成為了系統的速度瓶頸。
![]()
2015 年,Faster R-CNN 的誕生:何愷明團隊提出了 RPN (Region Proposal Network) 。他們從 1991 年 LeCun 等人的 「空間位移神經網絡」 (Space Displacement Net) 中獲得靈感,讓神經網絡自己在特征圖上「滑動」,通過預設的 Anchor (錨點) 來預測物體可能存在的位置。
至此,目標檢測的所有環節 —— 提議、特征提取、分類、回歸 —— 全部被神經網絡接管,實現了真正的「端到端」實時檢測。速度和精度雙重飛躍,計算機視覺終于邁入了實時檢測的時代。
迷霧后的新世界:Transformer 與萬物
Faster R-CNN 開啟了一個時代,但探索從未停止。演講的后半部分,何愷明展示了技術的洪流如何繼續奔涌:
既然要快,能不能連「候選框」這個步驟都不要了?
- 2016 年:YOLO(You Only Look Once) 和SSD(Single Shot MultiBox Detector) 問世。它們像人類一眼看全圖一樣,直接輸出所有物體的位置和類別,速度極快。
- 2017 年: 為了解決單階段檢測精度低的問題(正負樣本不平衡),何愷明團隊提出了Focal Loss(RetinaNet) 。
- 2017 年:Mask R-CNN驚艷亮相。它在 Faster R-CNN 的基礎上加了一個分支,不僅能畫框,還能像素級地把物體「摳」出來(實例分割),引入了 RoI Align 解決了像素對齊問題。
- 2020 年:DETR(Detection Transformer) 將 Transformer 架構引入視覺。它完全拋棄了 Anchor 和復雜的后處理(NMS),用全局注意力機制重新定義了檢測。
- 2023 年:SAM(Segment Anything Model) 橫空出世。它在大數據的喂養下,學會了「分割萬物」,不再受限于特定的訓練類別,展示了視覺大模型的雛形。
![]()
在這個「大航海時代」我們學到了什么?
我們在過去的幾十年里學到了什么?
何愷明說:「Write object detection papers and win Test of Time Awards :)」(寫目標檢測論文然后拿到時間檢驗獎 :) )
演講最后,他用一張 Nano-Banana 生成的非常有寓意的圖作為結尾:一艘船駛向迷霧中的大海。
![]()
他說,科學探索就像是駛入迷霧
- 這里沒有預先畫好的的地圖。
- 我們甚至不知道終點是否存在 。
從手工特征到 CNN,再到 Transformer,每一次飛躍都是探險者在迷霧中發現的新大陸。Faster R-CNN 不僅僅是一個算法,它教會了我們:當舊的組件成為瓶頸時,用更強大的可學習模型去取代它。
在下一個十年,計算機視覺的「圣杯」會是什么?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.