![]()
GPT Image 2 正式上線后,AI 圖像生成領域現在只剩兩個段位:GPT Image 2,以及其它。
在大模型競技場中,GPT Image 2 以 241 分的絕對優勢遙遙領先,但比起跑分,這份研發名單其實更有看頭。
![]()
搞出這個模型的 OpenAI 核心團隊,滿打滿算只有 13 個人。
![]()
并且華人還占據了團隊的半壁江山。仔細看他們的履歷,你會發現不少人來 OpenAI 之前,就已經在中國某所大學、某個實驗室甚至科研夏令營里打過照面了。
AI 圈就是個巨大的熟人局。
流水的硅谷大廠,鐵打的師徒局
陳博遠是 GPT Image 2 的絕對核心成員,而他的成長卻是華人學術「傳幫帶」的縮影。
高中時,陳博遠在無錫參加科研夏令營,當時他未學過編程,在此認識了后來成為 Google DeepMind 資深研究員的華人學者夏斐。夏斐向他介紹深度學習,成為他進入 AI 領域的引路人。
![]()
兩人此后一直保持聯系。本科階段,陳博遠就讀于 UC Berkeley 計算機科學與數學專業,進入 EECS 榮譽班,GPA 達 3.96,師從 Pieter Abbeel 從事相關研究,還于 2017 年創辦機器人教育公司,經營至 2020 年。
MIT 讀博第一年,陳博遠因無論文產出陷入困境,夏斐提供關鍵支持,協助他發表第一篇有影響力的論文 NLMap。夏斐還兩次邀請他到 DeepMind 實習,2023 年實習期間,他主導搭建多模態大語言模型數據合成管線,其總結的指令微調技術被用于 Gemini 2.0 研發。
![]()
帶著這些積累,陳博遠在 2025 年 6 月加入 OpenAI。除此之外,他還是 Sora 視頻生成團隊的成員,身兼數職。
![]()
在 MIT 期間,陳博遠師從助理教授 Vincent Sitzmann,在計算機科學與人工智能實驗室(CSAIL)做世界模型方向的研究。而 Kiwhan Song,就是同一個實驗室里、同一個導師帶出來的同門師兄弟。
![]()
▲ https://kiwhan.dev/
Sitzmann 實驗室的核心研究方向是「世界模型」,簡單說就是讓 AI 通過心理模擬器預判物理世界的變化,而不只是單純模仿像素。這種研究思路,或許也直接影響了 GPT Image 2 的技術方向。
兩人在博士期間多次合作,聯合發表了《History-Guided Video Diffusion》和《Large Video Planner》兩篇論文,主要探索如何把擴散模型和序列生成結合起來,讓模型在生成內容之前,先理清時序和空間上的因果邏輯。
![]()
▲ https://arxiv.org/abs/2502.06764
值得一提的是,Kiwhan Song 正是「長脖子」貼紙風格漫畫頭像的創作者。
![]()
除了這兩位同門,團隊里還有兩位華人成員,他們來自工業界積累多年的華人研究員網絡。
Jianfeng Wang 在微軟工作了近 9 年,以首席研究員的身份專注于大規模多模態表示學習,在 DALL-E 3 研發期間,就和 OpenAI 團隊有過深入合作。加入 OpenAI 后,他主要負責提升模型的指令遵循能力和對世界知識的理解。
![]()
▲ https://scholar.google.com/citations?user=vJWEw\_8AAAAJ&hl=en
Bing Liang 則在谷歌深耕了 5 年多,以高級軟件工程師的身份參與了 Imagen 3、Veo 視頻模型和 Gemini 多模態系列的核心研發工作,去年 8 月加入 OpenAI,負責圖像生成相關的研究。
![]()
▲ https://www.linkedin.com/in/bing-liang/
他們帶來的不只是自己的個人能力,還有競爭對手多年積累的工程經驗,以及曾經踩過的坑,為團隊省去了不少彎路。
給天才們搭好戲臺子
Weixin Liang 和 Yuguang Yang 是團隊里另一個值得關注的組合,兩人都畢業于浙江大學竺可楨學院,有著相同的本科背景。
Yuguang Yang 的履歷跨度很大。本科時在竺可楨學院學工程,博士階段則去了約翰斯·霍普金斯大學,攻讀計算化學物理與機器學習專業,拿到學位后,先后在亞馬遜 Alexa 做語音識別方向的深度學習研究,之后又去了微軟 Bing,負責查詢理解與大規模檢索相關工作。
![]()
他還曾在清華大學做過訪問研究,研究方向是用于納米機器人在人體血管中導航的強化學習算法,期間發表了 7 篇同行評審的期刊論文。這種跨學科的積累,在 GPT Image 2 的發布演示中也能直接看到。
![]()
和 Yuguang Yang 相比,Weixin Liang 的成長路徑更偏向學術。他在斯坦福 AI 實驗室(SAIL)攻讀博士,期間和 Christopher Manning、Li Fei-Fei、James Zou 等多位知名教授都有過合作。
![]()
▲ https://ai.stanford.edu/~wxliang/
在 Meta 實習期間,他發表了論文《Mixture-of-Transformers(MoT)》,通過引入模態解耦的混合專家模型架構,對 Transformer 的每一個非嵌入參數,包括前饋網絡、注意力矩陣和層歸一化,都實施了模態感知的稀疏化處理,最終將多模態預訓練的計算成本降低了 66%,還在 30B 參數規模下完成了預訓練驗證。
多模態模型因為要同時處理文本和高分辨率圖像,計算量很容易呈指數級增長,而 MoT 憑借模態解耦的注意力機制,在預訓練階段就高效分配了不同模態之間的權重,很好地解決了這個問題。這項研究后來也被稱為「推動多模態理解與生成統一的奠基性貢獻」,在多模態建模領域引發了大量關注。
![]()
▲ https://arxiv.org/abs/2411.04996
近年來,清華姚班、浙大竺可楨學院、中科大學少年班、上海交大等學校的畢業生,已成為 OpenAI、Anthropic、DeepMind、Meta 等海外 AI 實驗室的核心力量。
除了上述成員,團隊還有幾位核心研究者,各自發揮重要作用:
Kenji Hata:斯坦福計算機科學碩士,曾任職于 Google Research。加入 OpenAI 后,參與 4o 圖像生成(即 GPT-Image-1)、Sora 2 等多款模型研發,是團隊中模型迭代經歷最完整的成員之一。
Ayaan Haque:加入 OpenAI 前為 Luma AI 研究員,參與訓練視頻生成模型 Dream Machine。這段經歷讓他具備處理高維時序數據的能力,在 OpenAI 主要負責 GPT Image 2 及思考模式研發。
Dibya Bhattacharjee:耶魯計算機科學本碩,曾在谷歌深耕近 5 年。2024 年 2 月加入 OpenAI 負責圖像生成研究,在發布活動中演示模型多規格生成能力,是模型輸出格式「開箱即用」的關鍵成員。
Mengchao Z.:上海交大本科、德克薩斯 A&M 大學碩士,工程背景扎實。加入 OpenAI 前主導大規模推薦系統架構設計,目前負責將模型技術能力轉化為可用產品形態。
此外,團隊里還有多名成員的身份信息目前暫時無法查詢。
![]()
師門脈絡積累了研究品味,高校背景奠定了基礎認知,這種由師門、同窗、前同事織就的人才網絡,天然形成了一種極高密度的信任——由于價值觀和工程語言的高度統一,創新的磨合成本幾乎為零。
如果只是重金挖走一兩個陳博遠,其實治標不治本。找不到同伴,也就很難復現這種自然涌現的創新。大廠的組織結構決定了層級和目標明確對商業化有利,但對于需要自由探索的基礎研究,往往形成了某種約束。
AI 的競爭,歸根結底是關于「人」的故事,比起尋找下一個陳博遠,我們更需要搭建一個讓陳博遠們能在本土自然相遇、互相成就的生態。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.