網易首頁 > 網易號 > 正文申請入駐

起底 GPT Image 2 團隊后，我扒出了一張華人師徒網

2026-04-23 16:44:45　來源: 愛范兒

廣東舉報

分享至

GPT Image 2 正式上線后，AI 圖像生成領域現在只剩兩個段位：GPT Image 2，以及其它。

在大模型競技場中，GPT Image 2 以 241 分的絕對優勢遙遙領先，但比起跑分，這份研發名單其實更有看頭。

搞出這個模型的 OpenAI 核心團隊，滿打滿算只有 13 個人。

并且華人還占據了團隊的半壁江山。仔細看他們的履歷，你會發現不少人來 OpenAI 之前，就已經在中國某所大學、某個實驗室甚至科研夏令營里打過照面了。

AI 圈就是個巨大的熟人局。

流水的硅谷大廠，鐵打的師徒局

陳博遠是 GPT Image 2 的絕對核心成員，而他的成長卻是華人學術「傳幫帶」的縮影。

高中時，陳博遠在無錫參加科研夏令營，當時他未學過編程，在此認識了后來成為 Google DeepMind 資深研究員的華人學者夏斐。夏斐向他介紹深度學習，成為他進入 AI 領域的引路人。

兩人此后一直保持聯系。本科階段，陳博遠就讀于 UC Berkeley 計算機科學與數學專業，進入 EECS 榮譽班，GPA 達 3.96，師從 Pieter Abbeel 從事相關研究，還于 2017 年創辦機器人教育公司，經營至 2020 年。

MIT 讀博第一年，陳博遠因無論文產出陷入困境，夏斐提供關鍵支持，協助他發表第一篇有影響力的論文 NLMap。夏斐還兩次邀請他到 DeepMind 實習，2023 年實習期間，他主導搭建多模態大語言模型數據合成管線，其總結的指令微調技術被用于 Gemini 2.0 研發。

帶著這些積累，陳博遠在 2025 年 6 月加入 OpenAI。除此之外，他還是 Sora 視頻生成團隊的成員，身兼數職。

在 MIT 期間，陳博遠師從助理教授 Vincent Sitzmann，在計算機科學與人工智能實驗室（CSAIL）做世界模型方向的研究。而 Kiwhan Song，就是同一個實驗室里、同一個導師帶出來的同門師兄弟。

▲ https://kiwhan.dev/

Sitzmann 實驗室的核心研究方向是「世界模型」，簡單說就是讓 AI 通過心理模擬器預判物理世界的變化，而不只是單純模仿像素。這種研究思路，或許也直接影響了 GPT Image 2 的技術方向。

兩人在博士期間多次合作，聯合發表了《History-Guided Video Diffusion》和《Large Video Planner》兩篇論文，主要探索如何把擴散模型和序列生成結合起來，讓模型在生成內容之前，先理清時序和空間上的因果邏輯。

▲ https://arxiv.org/abs/2502.06764

值得一提的是，Kiwhan Song 正是「長脖子」貼紙風格漫畫頭像的創作者。

除了這兩位同門，團隊里還有兩位華人成員，他們來自工業界積累多年的華人研究員網絡。

Jianfeng Wang 在微軟工作了近 9 年，以首席研究員的身份專注于大規模多模態表示學習，在 DALL-E 3 研發期間，就和 OpenAI 團隊有過深入合作。加入 OpenAI 后，他主要負責提升模型的指令遵循能力和對世界知識的理解。

▲ https://scholar.google.com/citations?user=vJWEw\_8AAAAJ&hl=en

Bing Liang 則在谷歌深耕了 5 年多，以高級軟件工程師的身份參與了 Imagen 3、Veo 視頻模型和 Gemini 多模態系列的核心研發工作，去年 8 月加入 OpenAI，負責圖像生成相關的研究。

▲ https://www.linkedin.com/in/bing-liang/

他們帶來的不只是自己的個人能力，還有競爭對手多年積累的工程經驗，以及曾經踩過的坑，為團隊省去了不少彎路。

給天才們搭好戲臺子

Weixin Liang 和 Yuguang Yang 是團隊里另一個值得關注的組合，兩人都畢業于浙江大學竺可楨學院，有著相同的本科背景。

Yuguang Yang 的履歷跨度很大。本科時在竺可楨學院學工程，博士階段則去了約翰斯·霍普金斯大學，攻讀計算化學物理與機器學習專業，拿到學位后，先后在亞馬遜 Alexa 做語音識別方向的深度學習研究，之后又去了微軟 Bing，負責查詢理解與大規模檢索相關工作。

他還曾在清華大學做過訪問研究，研究方向是用于納米機器人在人體血管中導航的強化學習算法，期間發表了 7 篇同行評審的期刊論文。這種跨學科的積累，在 GPT Image 2 的發布演示中也能直接看到。

和 Yuguang Yang 相比，Weixin Liang 的成長路徑更偏向學術。他在斯坦福 AI 實驗室（SAIL）攻讀博士，期間和 Christopher Manning、Li Fei-Fei、James Zou 等多位知名教授都有過合作。

▲ https://ai.stanford.edu/~wxliang/

在 Meta 實習期間，他發表了論文《Mixture-of-Transformers（MoT）》，通過引入模態解耦的混合專家模型架構，對 Transformer 的每一個非嵌入參數，包括前饋網絡、注意力矩陣和層歸一化，都實施了模態感知的稀疏化處理，最終將多模態預訓練的計算成本降低了 66%，還在 30B 參數規模下完成了預訓練驗證。

多模態模型因為要同時處理文本和高分辨率圖像，計算量很容易呈指數級增長，而 MoT 憑借模態解耦的注意力機制，在預訓練階段就高效分配了不同模態之間的權重，很好地解決了這個問題。這項研究后來也被稱為「推動多模態理解與生成統一的奠基性貢獻」，在多模態建模領域引發了大量關注。

▲ https://arxiv.org/abs/2411.04996

近年來，清華姚班、浙大竺可楨學院、中科大學少年班、上海交大等學校的畢業生，已成為 OpenAI、Anthropic、DeepMind、Meta 等海外 AI 實驗室的核心力量。

除了上述成員，團隊還有幾位核心研究者，各自發揮重要作用：

Kenji Hata：斯坦福計算機科學碩士，曾任職于 Google Research。加入 OpenAI 后，參與 4o 圖像生成（即 GPT-Image-1）、Sora 2 等多款模型研發，是團隊中模型迭代經歷最完整的成員之一。

Ayaan Haque：加入 OpenAI 前為 Luma AI 研究員，參與訓練視頻生成模型 Dream Machine。這段經歷讓他具備處理高維時序數據的能力，在 OpenAI 主要負責 GPT Image 2 及思考模式研發。

Dibya Bhattacharjee：耶魯計算機科學本碩，曾在谷歌深耕近 5 年。2024 年 2 月加入 OpenAI 負責圖像生成研究，在發布活動中演示模型多規格生成能力，是模型輸出格式「開箱即用」的關鍵成員。

Mengchao Z.：上海交大本科、德克薩斯 A&M 大學碩士，工程背景扎實。加入 OpenAI 前主導大規模推薦系統架構設計，目前負責將模型技術能力轉化為可用產品形態。

此外，團隊里還有多名成員的身份信息目前暫時無法查詢。

師門脈絡積累了研究品味，高校背景奠定了基礎認知，這種由師門、同窗、前同事織就的人才網絡，天然形成了一種極高密度的信任——由于價值觀和工程語言的高度統一，創新的磨合成本幾乎為零。

如果只是重金挖走一兩個陳博遠，其實治標不治本。找不到同伴，也就很難復現這種自然涌現的創新。大廠的組織結構決定了層級和目標明確對商業化有利，但對于需要自由探索的基礎研究，往往形成了某種約束。

AI 的競爭，歸根結底是關于「人」的故事，比起尋找下一個陳博遠，我們更需要搭建一個讓陳博遠們能在本土自然相遇、互相成就的生態。

聲明：包含AI生成內容

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.