![]()
對李飛飛來說,至關重要的空間智能“北極星”源自何處,又是如何演變的?
文|《中國企業家》記者 王怡潔
見習記者 孫欣
編輯|何伊凡見習編輯|李原
頭圖來源|視覺中國
作為“AI教母”,李飛飛每次對AI的判斷都會成為全球科技的重要風向標,2025年年底,李飛飛發出萬字長文,引發的討論又一次引爆了硅谷。
她篤定AI的下一個十年是“空間智能”——若AI無法理解物體的深度、距離、遮擋與重力,就永遠無法真正“具身”。她表示,語言是用來描述世界的工具,但不是世界本身。
1月6日,李飛飛應邀站在CES 2026的演講臺上,她也再度強調了“大語言模型終究受制于語言本身”的局限性。
“一只蒼蠅沒有萬億級參數,卻能在雜亂空間中極速避障、精準著陸。”關于空間智能,網絡上流傳著這樣一句熱梗。在李飛飛發布的萬字長文末尾,便提到:“若沒有空間智能,我們關于真正智能機器的夢想將永遠不完整。這場探索,是我的北極星。”
這顆恒星對李飛飛來說,意義非凡。它是李飛飛十幾歲時,在一次野外徒步中對自然世界的感悟。她在加州理工學院讀博期間,受認知神經科學啟發,開始研發“如何教計算機識別物體”。后來她一手締造ImageNet數據集,推動計算機視覺領域實現跨越式發展,也是她從寒武紀大爆發與生物視覺起源中攫取到的靈感。
2025年末,李飛飛創立的World Labs發布首款商用“世界模型”Marble。該實驗室于2024年年初成立,9月正式亮相,融資超過2.3億美元,估值超過10億美元。
![]()
來源:視覺中國
如今,50歲的李飛飛已在人工智能領域內研究了二十余年,探索空間智能成了她最新的“北極星”。但回顧她的成長史,從計算機圖像、ImageNet數據集到具身智能,可以梳理出李飛飛為何對空間智能如此篤定的脈絡。
2024年4月,李飛飛首部自傳《我看見的世界》在中國出版發行。這本書是她親自參與創作、迄今為止最完整的個人思想與歷程記錄。該書詳盡敘述了李飛飛青少年時期在美國做洗碗工的困頓艱辛,也描繪了她第一次走進科學殿堂的欣喜若狂。
更重要的是,李飛飛的職業生涯貫穿了AI從實驗室走向產業爆發的全過程,因此這本書可以算得上是一部人工智能發展史。我們拆解了《我看見的世界》一書,全書共12個章節,讀完這篇文章,站在李飛飛的視角,你將看到:
1.這位殿堂級女科學家的成長環境是怎么樣的?支撐她在困頓中破局的是什么?
2.李飛飛在計算機視覺科學內如何發現行業的盲點,又是如何解決的?
3.ImageNet是如何建立起來的?又是如何撬動人工智能的?
4.從學界到產業,李飛飛經歷了什么,又是如何解決“水土不服”的?
5.對李飛飛來說,至關重要的空間智能“北極星”源自何處,又是如何演變的?
6.李飛飛為何將AI的下一個時代定義為“空間智能”,這個判斷最早源于什么時候?
困頓的家境,建立最純粹的信仰
李飛飛出生于北京,成長于成都,她自小熱愛物理學科,課余時間幾乎都在探索和學習相關知識,但這份熱愛在16歲時被迫短暫中斷。
1992年,李飛飛隨著父母來到美國謀生。飛機落地時,母親口袋里的20美元是全部的家產。那時,Facebook的人工智能首席科學家楊立昆在新澤西州霍姆德爾的研究生涯剛剛起步,“神經網絡”算法的應用研究正裹于襁褓之中。但這些都與李飛飛無關,她和父母每天要解決的問題是與人交流和獲取食物。
一家三口擠在一個狹小的一居室,李飛飛的臥室是廚房過道。父親找了份修相機的工作,母親是超市收銀員,李飛飛每日放學后需去一家中餐館打工。2美元的時薪,洗碗、拖地、擦玻璃、傳菜等,都是她的工作內容。那時,李飛飛一天中說得最多的話是Sorry,白天為聽不懂老師、同學們的英文而道歉,晚間因聽不懂客人點餐而低頭。
距離申請大學僅剩兩年的時間,李飛飛不得不擠壓睡覺時間來學習。在她的回憶里,那段日子她幾乎每天只睡4個小時。最后,李飛飛以SAT1250、數學滿分的成績被普林斯頓大學物理學專業錄取,并獲得了全額獎學金。
《American dream come true!(“美國夢”成真了)》是錄取結果出來時,李飛飛所在區的一家當地報紙的封面頭條,一張短發的照片被排版在報道最顯眼的位置。
普林斯頓的大學生活,李飛飛活得十分“割裂”:這里是她一直以來所追逐的“智力天堂”,她每天能汲取關于物理世界的真理,但也不得不時刻面臨現實生活里岌岌可危的家庭財務狀況,母親罹患嚴重心臟病更是她多年來心頭的沉重大石。
這種來自財務狀況的困頓,一直延續到很多年之后。甚至當李飛飛成為斯坦福知名教授之后,她還不得不想辦法解決母親的高昂手術費用。
那時,很多人勸說李飛飛“清醒點”,甚至她自己都曾動搖,自己是否應該把學業作為獲得經濟來源的敲門磚。比如學有所成后,是否該選擇醫學、金融或工程等報酬豐厚的領域,以此來擺脫困難的生活。
但李飛飛的心里始終有個聲音在唱反調,她不甘心失去這唯一一個能進入科學領域的機會。父母的開明給了她一個“強心丸”,父母都支持她進入熱愛的物理學科。普林斯頓畢業后,她并未選擇來自華爾街的眾多橄欖枝,而是進入了另一個“智力天堂”——加州理工學院。
李飛飛的博士研究方向是視覺研究領域,簡單來說就是讓機器學會“看”東西。那時該領域的大多數學生會在神經科學、計算科學選擇其一,而李飛飛則是同時研究兩個領域,這是當時碩士項目的首個案例。
ImageNet:打開人工智能黃金時代
“我們決定做一件史無前例的事情,我們研究的(計算機視覺識別)對象是全世界的物體。”這句話在當時看來,還是天方夜譚。
2005年,李飛飛在伊利諾伊大學厄巴納香檳分校電氣與計算機工程系擔任助理教授,后又來到普林斯頓大學計算機科學系任職助理教授。《我看見的世界》一書中,李飛飛曾先后稱自己經歷了“至暗”和“黑暗”,前者是剛到達美國的窘迫生活,后者便是2005~2009年期間,她將其稱為“人工智能寒冬”。
彼時,人工智能遇冷,研究“計算機視覺識別”幾乎沒人看好。李飛飛每天在不停回答周遭人的勸誡:“飛飛,換個方向吧,這條路走不通的。”
當下,數據已經是各大模型公司瘋搶的關鍵信息。但在千禧年前后,學術界與AI領域都在狂熱地打磨算法,卻唯獨忽視了“數據”的價值。在李飛飛看來,大家對AI領域趨之若鶩,卻從未有人真正研究“數據”。
21世紀初,李飛飛堅定認為,讓AI產生質的飛躍關鍵就在于,能否建立起一個囊括“全世界所有物體”的龐大數據庫。這與如今的境況何其相似,現在她篤定,讓生成式AI產生質的飛躍關鍵在于:大語言模型能否突破模態的限制,真正識別物理世界。
當時主流的計算機視覺研究,大多依賴于精心設計的手工特征和有限的小規模數據集,機器能識別的物體種類不過寥寥數十種。李飛飛卻想構建一個百萬級、標注完備、覆蓋整個世界物體的圖像宇宙——這便是ImageNet的雛形。
![]()
來源:AI生成
在李飛飛的暢想中,ImageNet就是一個圖像識別數據庫,只要將它運用在計算機上,可以直接辨認出物品和人。但現實給她澆了一盆冷水,李飛飛找本科生來手動輸入識別圖片數據,甚至時薪開到了10美元。但按這個速度算下去,ImageNet建成需要90年。而后李飛飛又嘗試以算法來進行數據處理,但更多問題開始顯現:資金鏈斷裂、模型陷入瓶頸等。
亞馬遜的眾包服務,最終成為項目能完成的關鍵支撐。這項服務通過在平臺發布標注任務,以低成本召集全球網民參與協作——正是這一模式破解了海量圖像標注的效率難題。“我看到網站的那一刻,我知道ImageNet成了。”
2009年,歷時兩年半,涵蓋5247個類別、12個子樹的320萬張標記圖片的論文亮相CVPR(國際計算機視覺與模式識別會議),當時團隊在展會的一個小角落。隨后,李飛飛與當時最權威的圖像識別大賽PASCAL VOC合作,這次合作既是轉折,也是起點。
2012年,亞歷克斯·克里熱夫斯基等人提出深度卷積神經網絡模型AlexNet,在當年的ImageNet大規模視覺識別挑戰賽(ILSVRC)中,以領先第二名41%的壓倒性優勢奪冠。AlexNet將Top-5錯誤率從上一年的26%大幅降至15%,這也讓人們不得不相信,優質的AI必須經過ImageNet預訓練。
作為ImageNet的創始人,李飛飛開放數據庫,免費提供給全世界的科研團隊用于計算機圖片識別訓練。這一刻也被許多行業人士稱為AI發展史上的“奇點”之一。被譽為結束了人工智能寒冬,也拉開了人工智能黃金時代的序幕。
此后十年間,從科研到產業界,李飛飛在AI、具身智能上繼續鉆研。2013年,李飛飛正式出任斯坦福人工智能實驗室(SAIL)主任;2015年,她與合作者聯合創立了AI4ALL;2017年,她從斯坦福暫時離開,在Google Cloud擔任AI/ML首席科學家兼副總裁,參與制定谷歌云在人工智能與機器學習上的戰略方向。
空間智能:支撐人類認知的腳手架
“李飛飛是第一位真正理解大數據力量的計算機視覺研究人員,她的工作打開了深度學習的閘門,推動了人工智能技術的問世。”2024年諾貝爾物理學獎獲得者的杰弗里·辛頓,對李飛飛的成就做了最好的總結。
2022年底,ChatGPT大語言模型燃爆AI圈,也讓“語言即世界”成為“行業共識”。但2024年,48歲的李飛飛又踏上了尋找“北極星”的旅程。
李飛飛最擅長的,便是找到行業盲點。她認為,包括視覺模型、空間智能、機器人模型都會數字化,但把“數字”等同于“語言”,便是“偷換概念”。在她看來,信息不光是語言的,還有空間信息。
“算法語言表達的高級程度,已經逼近人類水平。”雖然《我看見的世界》一書成型于2023年,但當時她就表示:以ChatGPT等為代表的大語言模型能力已無需贅述,而機器人正在逐漸學會應對真實的環境。
篤定的視覺模型不僅可以通過照片進行訓練,還可以在全三維世界中進行沉浸式訓練。當世界模型形成后,人工智能能夠像識別內容一樣流暢地生成內容。簡而言之,她要再做一個全新時代的“ImageNet”產品。
《我看見的世界》在中國出版的同時,李飛飛創立了她的最新項目——World Labs,開始研發空間智能。李飛飛認為,時間到了。
“生成三維空間”并非易事,“我自己試著用Blender、Unity,我頭都大了。”李飛飛坦承,“奇點”還未到來,技術也尚未攻克。但ImageNet帶給李飛飛的除了對行業的敏感嗅覺,還有坐冷板凳的“耐心”。她坦言,從技術上來看,空間智能還處于早期,但她也篤定未來一到兩年內,空間智能會爆發。
“我現在可以肯定,等待探索的事物還有太多太多,一個人窮盡職業生涯,甚至一生,都無法抵達終點。”而在李飛飛看來,AGI更像是一個有很多鎖的門,需要不同的鑰匙打開,空間智能是其中一把。這個門并非“開與不開”,而是將會被一點點打開。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.