![]()
機(jī)器之心報(bào)道
機(jī)器之心編輯部
不久前,NeurIPS 2025 順利舉辦,作為人工智能學(xué)術(shù)界的頂級(jí)會(huì)議之一,其中不乏學(xué)術(shù)界大佬的工作和演講。
有一項(xiàng)榮譽(yù)的頒發(fā)顯得格外厚重且眾望所歸 —— 由任少卿、何愷明、Ross Girshick 和孫劍合著的經(jīng)典論文《Faster R-CNN》,摘得了「時(shí)間檢驗(yàn)獎(jiǎng)」 (Test of Time Award)
凡是接觸過(guò)計(jì)算機(jī)視覺(jué)的人,對(duì)這個(gè)名字絕不陌生。自 2015 年發(fā)表以來(lái),《Faster R-CNN》無(wú)疑成為了該領(lǐng)域最具里程碑意義的工作之一。它不僅一舉奠定了現(xiàn)代目標(biāo)檢測(cè)框架的核心范式,更像是一座燈塔,深刻影響并指引了隨后整整十年的視覺(jué)模型發(fā)展方向。
![]()
- 論文地址:https://arxiv.org/pdf/1506.01497
![]()
作為這一歷史性時(shí)刻的見證與總結(jié),何愷明在大會(huì)上發(fā)表了題為《視覺(jué)目標(biāo)檢測(cè)簡(jiǎn)史》 (A Brief History of Visual Object Detection)的演講。
![]()
何愷明演講 PPT 已經(jīng)公開,可以參閱以下鏈接:
https://people.csail.mit.edu/kaiming/neurips2025talk/neurips2025_fasterrcnn_kaiming.pdf
從何愷明的演講內(nèi)容來(lái)看,這不單是一個(gè)技術(shù)匯報(bào),更像是一部計(jì)算機(jī)如何學(xué)會(huì)「看世界」的英雄史詩(shī),總結(jié)了 30 年來(lái)視覺(jué)目標(biāo)檢測(cè)的發(fā)展歷程。演講中介紹的每一個(gè)工作,都獲得了不同頂會(huì)的時(shí)間檢驗(yàn)獎(jiǎng),對(duì)視覺(jué)智能的發(fā)展起到了決定性的作用。
你是否好奇:為什么現(xiàn)在的 AI 能在一瞬間識(shí)別出照片里的貓、狗、汽車甚至它們的位置,而在十幾年前這卻被認(rèn)為是幾乎不可能的任務(wù)?
![]()
讓我們跟隨大神的視角,穿越回那個(gè)「原始」的時(shí)代,看看這一路是如何走來(lái)的。
原始:手工打磨的「放大鏡」
在深度學(xué)習(xí)爆發(fā)之前,計(jì)算機(jī)視覺(jué)科學(xué)家們更像是「工匠」。
人臉檢測(cè)的早期嘗試: 早在 90 年代,科學(xué)家們就開始嘗試用神經(jīng)網(wǎng)絡(luò)和統(tǒng)計(jì)學(xué)方法找人臉:
- 1996 年: Rowley 等人發(fā)表了《基于神經(jīng)網(wǎng)絡(luò)的人臉檢測(cè)》(Neural Network-Based Face Detection) ,這是何愷明閱讀的第一篇 CV 論文,利用早期的神經(jīng)網(wǎng)絡(luò)在圖像金字塔上尋找面孔 。
- 1997 年: Osuna 等人引入了支持向量機(jī),發(fā)表了《用于人臉檢測(cè)的 SVM》(SVM for Face Detection) ,試圖在數(shù)據(jù)中畫出一條完美的分類線。
- 2001 年: 著名的Viola-Jones 框架(The Viola-Jones Framework) 橫空出世。它通過(guò)簡(jiǎn)單的特征組合實(shí)現(xiàn)了極快的人臉檢測(cè),直到今天,很多老式相機(jī)的對(duì)焦功能還得感謝它。
特征工程的黃金時(shí)代: 既然「整張臉」難找,那就找「關(guān)鍵點(diǎn)」和「紋理」。隨后的幾年,特征描述符成為了主角:
- 1999 年: Lowe 提出了SIFT,這種「尺度不變特征變換」能在旋轉(zhuǎn)、縮放的情況下依然認(rèn)出物體,是當(dāng)年的絕對(duì)王者。
- 2003 年: Sivic 和 Zisserman 借鑒文本搜索,提出了「視覺(jué)詞袋模型」(Bag of Visual Words) ,把圖片看作一堆「視覺(jué)單詞」的集合。
- 2005 年: Dalal 和 Triggs 發(fā)明了HOG(方向梯度直方圖) ,專門用來(lái)描述行人的輪廓。同一年,Grauman 和 Darrell 提出了 「金字塔匹配核」 (Pyramid Match Kernel) ,用來(lái)比較兩組特征的相似度。
- 2006 年: Lazebnik 等人進(jìn)一步提出了「空間金字塔匹配」(Spatial Pyramid Matching) ,解決了詞袋模型丟失空間位置信息的問(wèn)題。
- 2008 年: 特征工程的集大成者DPM(Deformable Part Model) 登場(chǎng)。它把物體看作一個(gè)個(gè)可變形的部件(比如人的頭、手、腳),像彈簧一樣連接在一起。這是傳統(tǒng)方法的巔峰。
痛點(diǎn)在哪里?特征是人設(shè)計(jì)的(Hand-crafted),分類器(比如 SVM)只能在這些有限的信息上工作 。這種方法不僅慢,而且很難適應(yīng)復(fù)雜的場(chǎng)景。
破曉:AlexNet 與 R-CNN 的「暴力美學(xué)」
2012 年,AlexNet 橫空出世,深度學(xué)習(xí)證明了它提取特征的能力遠(yuǎn)超人類手工設(shè)計(jì) 。但是,怎么用它來(lái)做目標(biāo)檢測(cè)呢?
深度學(xué)習(xí)的驚雷:2012 年,AlexNet (Krizhevsky et al.) 在 ImageNet 競(jìng)賽中以壓倒性優(yōu)勢(shì)奪冠。它證明了深層卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取特征的能力遠(yuǎn)超人類手工設(shè)計(jì)。
![]()
R-CNN:從分類到檢測(cè) 但是,怎么用 CNN 做目標(biāo)檢測(cè)(框出物體位置)? 2014 年,Girshick 等人提出了劃時(shí)代的 R-CNN (Region-based CNN) 。它的思路很直接:
- 先用傳統(tǒng)算法(Selective Search)在圖上剪出約 2000 個(gè)「候選區(qū)域」 (Region Proposals)。
- 把每個(gè)區(qū)域都扔進(jìn) CNN 提特征,再用 SVM 分類。
巔峰:Faster R-CNN 的「速度進(jìn)化」
R-CNN 讓每個(gè)候選框都過(guò)一遍 CNN,計(jì)算量巨大。科學(xué)家們開始思考如何復(fù)用計(jì)算。
- 2014 年: 何愷明團(tuán)隊(duì)提出了SPP-Net(Spatial Pyramid Pooling) 。它引入了空間金字塔池化層,允許神經(jīng)網(wǎng)絡(luò)處理任意大小的圖片,并且只算一次全圖特征,大大加速了檢測(cè)。
- 2015 年: Girshick 借鑒 SPP-Net,推出了Fast R-CNN。它引入了 RoI Pooling,把特征提取和分類回歸整合到了一個(gè)網(wǎng)絡(luò)里,不僅快,還能端到端訓(xùn)練。
![]()
最終的瓶頸: 即便如此,候選框(Region Proposals)依然依賴那個(gè)笨重的傳統(tǒng)算法(Selective Search),這成為了系統(tǒng)的速度瓶頸。
![]()
2015 年,F(xiàn)aster R-CNN 的誕生:何愷明團(tuán)隊(duì)提出了 RPN (Region Proposal Network) 。他們從 1991 年 LeCun 等人的 「空間位移神經(jīng)網(wǎng)絡(luò)」 (Space Displacement Net) 中獲得靈感,讓神經(jīng)網(wǎng)絡(luò)自己在特征圖上「滑動(dòng)」,通過(guò)預(yù)設(shè)的 Anchor (錨點(diǎn)) 來(lái)預(yù)測(cè)物體可能存在的位置。
至此,目標(biāo)檢測(cè)的所有環(huán)節(jié) —— 提議、特征提取、分類、回歸 —— 全部被神經(jīng)網(wǎng)絡(luò)接管,實(shí)現(xiàn)了真正的「端到端」實(shí)時(shí)檢測(cè)。速度和精度雙重飛躍,計(jì)算機(jī)視覺(jué)終于邁入了實(shí)時(shí)檢測(cè)的時(shí)代。
迷霧后的新世界:Transformer 與萬(wàn)物
Faster R-CNN 開啟了一個(gè)時(shí)代,但探索從未停止。演講的后半部分,何愷明展示了技術(shù)的洪流如何繼續(xù)奔涌:
既然要快,能不能連「候選框」這個(gè)步驟都不要了?
- 2016 年:YOLO(You Only Look Once) 和SSD(Single Shot MultiBox Detector) 問(wèn)世。它們像人類一眼看全圖一樣,直接輸出所有物體的位置和類別,速度極快。
- 2017 年: 為了解決單階段檢測(cè)精度低的問(wèn)題(正負(fù)樣本不平衡),何愷明團(tuán)隊(duì)提出了Focal Loss(RetinaNet) 。
- 2017 年:Mask R-CNN驚艷亮相。它在 Faster R-CNN 的基礎(chǔ)上加了一個(gè)分支,不僅能畫框,還能像素級(jí)地把物體「摳」出來(lái)(實(shí)例分割),引入了 RoI Align 解決了像素對(duì)齊問(wèn)題。
- 2020 年:DETR(Detection Transformer) 將 Transformer 架構(gòu)引入視覺(jué)。它完全拋棄了 Anchor 和復(fù)雜的后處理(NMS),用全局注意力機(jī)制重新定義了檢測(cè)。
- 2023 年:SAM(Segment Anything Model) 橫空出世。它在大數(shù)據(jù)的喂養(yǎng)下,學(xué)會(huì)了「分割萬(wàn)物」,不再受限于特定的訓(xùn)練類別,展示了視覺(jué)大模型的雛形。
![]()
在這個(gè)「大航海時(shí)代」我們學(xué)到了什么?
我們?cè)谶^(guò)去的幾十年里學(xué)到了什么?
何愷明說(shuō):「Write object detection papers and win Test of Time Awards :)」(寫目標(biāo)檢測(cè)論文然后拿到時(shí)間檢驗(yàn)獎(jiǎng) :) )
演講最后,他用一張 Nano-Banana 生成的非常有寓意的圖作為結(jié)尾:一艘船駛向迷霧中的大海。
![]()
他說(shuō),科學(xué)探索就像是駛?cè)朊造F
- 這里沒(méi)有預(yù)先畫好的的地圖。
- 我們甚至不知道終點(diǎn)是否存在 。
從手工特征到 CNN,再到 Transformer,每一次飛躍都是探險(xiǎn)者在迷霧中發(fā)現(xiàn)的新大陸。Faster R-CNN 不僅僅是一個(gè)算法,它教會(huì)了我們:當(dāng)舊的組件成為瓶頸時(shí),用更強(qiáng)大的可學(xué)習(xí)模型去取代它。
在下一個(gè)十年,計(jì)算機(jī)視覺(jué)的「圣杯」會(huì)是什么?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.