![]()
![]()
出品|搜狐科技
作者|常博碩
編輯| 楊 錦
“如果人生是一場游戲,那我的游戲結算分數是記得我名字的人的數量。”
做更有意義的事,讓更多人記得他的名字,這是翁家翌從高中時代以來的夢想。
近日,ChatGPT背后的一位中國工程師翁家翌在AI播客WhynotTV Podcast中亮相,并首次講述了自己從清華少年到OpenAI基礎設施工程骨干的經歷。
2020年,翁家翌在清華大學計算機科學與技術系獲得本科學位,隨后,在卡內基梅隆大學碩士畢業后,2022年,翁家翌加入OpenAI任研究工程師。
在OpenAI期間,翁家翌的名字出現在了從ChatGPT到GPT-4o再到GPT-5的幾乎每一次重大模型發布的貢獻者名單中。他的核心貢獻可以總結為三個關鍵詞:強化學習(RL)、后訓練(Post-training)以及Infra(基礎設施)。
![]()
在清華“做慈善”
在清華,翁家翌第一次清晰地意識到“信息差”這件事。
“我不覺得信息差是一件值得被保護的東西。”于是,在崇尚內卷和競爭的環境里,翁家翌做了一件在當時并不“討老師喜歡的事”。他把自己所有搜集到的作業、代碼、學習資料,幾乎原封不動地開源到GitHub。
“你現在去清華隨便抓個計算機系的學弟,問認不認識捐樓的人,他們大概率不認識,但你問他認不認識翁家翌,他應該認識。因為畢竟大家都看我的作業。”
在清華,信息差往往被當作一種生存資源,但是他卻覺得,每個人都應該平等的擁有信息。
“我不想讓后人重蹈覆轍,經常疲于奔命。因為很多人不是很擅長搜集東西,但是他其實是很有能力的。如果能夠給這些人一個信息平權的機會,那他可能會活得更好。我當時覺得如果把自己的作業開源的話,可能會幫更多學弟學妹擁有更多自己的時間去做他們更想做的事情。”
這種信息平權與開源的理念后來一直影響著他的生活。
大二那年,他進入朱軍老師的實驗室。在貝葉斯、GAN(生成式對抗網絡)、強化學習三個方向里選了強化學習,“我當時其實不知道它們分別是什么,以為強化學習是搞圖像的。”
翁家翌坦言,圖形學曾是他最感興趣的,他在圖形學課程甚至完成了一個16K高清圖渲染大作業,并發明了一種加速迭代收斂的新算法,最終拿到了全班僅有的兩個A+之一。
但他還是做了取舍。“搞科研不能腳踏兩條船”,他最終選擇了繼續走強化學習的路。
他的第一個科研項目是在一個上世紀90年代的游戲中訓練神經網絡,讓智能體在固定地圖里完成從出生點到終點的任務,包括殺怪、撿血包、避障、通關。雖然最終他用強化學習方法拿下冠軍,但卻意識到自己并不享受整個過程。
他將強化學習研究稱為“煉丹”,因為研究者往往需要花費數周時間在黑盒般的算法中反復調試超參數。這種痛苦的經歷讓他意識到,當時的強化學習研究高度依賴啟發式(Heuristic)方法,且環境單一、算力匱乏,極難實現規模化(Scale up)。
也正因此,他開始有意識地將重心轉向工具層面:“我非常擅長做軟件工程的事,可以重構代碼、優化用戶體驗。至于怎么調,那不是我想碰的東西。”
在進入OpenAI之前,當時業界主流的強化學習框架是RLlib。在翁家翌看來,RLlib雖然功能強大,但極其臃腫且抽象層級過高,導致研究者很難看清底層的邏輯,且修改成本極大。于是秉持著“與其忍受,不如重造”的想法,他在短短兩周內就手擼出了天授框架的第一版。
對他而言,天授不僅僅是一個技術項目,更是一個“產品”。在他看來,技術是什么樣不重要,重要的是抓住需求。
后來,為了解決留學生群體的信息差,他開發了“退學網(Tuixue Online)”,一個能夠自動抓取簽證預約狀態的系統。對翁家翌而言,只要解決了大家真實的痛點,它就是有價值的。
他把這兩個項目都稱作“做慈善”。這不僅讓他確定了自己真正所熱愛的技術方向,也帶給他強大的滿足感:“完全nonprofit(非盈利),這種慈善項目讓我感覺非常滿足。”
![]()
“我不想去大廠當螺絲釘”
碩士期間,翁家翌便開始琢磨找工作的事。“一開始投了18家公司,就收到Google和AutoML(陳天奇團隊)的offer。”
面對大廠的橄欖枝,他說:“我不想去Google,在大廠當螺絲釘,然后做一些自己不是那么喜歡的事兒。”
在此之后,他拿到幻方量化、英偉達、TikTok,以及Facebook AI Research(FAIR)的offer。“當時幻方要搞一個AI Lab,也就是后來的DeepSeek。”
他坦言,如果沒有其他選擇,可能就會加入幻方做強化學習infra。但最終,他等到了OpenAI。
“OpenAI跟DeepMind是當時RL里面搞得最好的兩個research lab(研究實驗室)。我希望能夠有一個機會來體驗世界上最前沿的一些research(研究)到底是怎么做的,而不是像在學校里面,像小作坊一樣只有幾個PHD手搓一個東西。”
2022年,翁家翌正式加入OpenAI,那時ChatGPT還沒走進大家的視野。
翁家翌完整參與了從ChatGPT、GPT-4o到正在研發中的GPT-5幾乎所有重大模型的開發進程。他的名字出現在每一份核心貢獻者名單中,他的工作邏輯可以說是用極致的工程能力為科研算法鋪路。
在OpenAI內部,翁家翌最核心的貢獻是主導并搭建了整個后訓練階段(Post-training)的強化學習基礎設施(RL Infra)。“每發一個大的release(發布),每發一個大的模型,我的名字就得放上去。”他笑著說,“因為大家都在用整個Post-Training infra去訓練RHF的模型。”
所謂的Post-training,其實是讓大模型變得更像人的關鍵環節。翁家翌搭建的RL Infra支撐了模型在這個階段的對齊和邏輯推理訓練。這意味著他要處理的是如何在大規模算力集群上,讓強化學習算法穩定、高效地運行,且能靈活適配研究員們不斷冒出的新想法。
在翁家翌看來,模型的性能差異有時并不源于算法優劣,而源于基礎設施的完善程度。他表示:“每家的Infra structure都有不同程度的Bug,誰修的Bug多,誰的模型性能就越好。”他在OpenAI的日常,很大一部分就是通過極致的工程手段,排除系統中的不確定性,讓算法的潛力得以完全釋放。
“賣鏟子”是翁家翌對自己技術路徑最生動的隱喻。在淘金熱中,挖金礦的人(做研究、發Paper)可能空手而歸,但賣鏟子的人(做工具、造基礎設施)永遠有其確定性的價值。
同時,翁家翌也正在參與OpenAI下一代RL Infra的重構工作。“舊架構已經三年多了,堆積的問題其實已經很多了。”OpenAI要推倒重來,目標是清理技術債,幫助研究員以更高迭代效率推進實。
在OpenAI在取得巨大的成功之后,有無數的團隊成員離開了這家公司。但在翁家翌看來,“一個健康的組織就是所有人都是可以被替代的。”他也承認,在OpenAI內部,現在沒有誰是不可替代的。
談及ChatGPT的成功,翁家翌將其歸功于OpenAI組織內部的信息流暢度。他分享到,領導層始終保持對細節的強關注,Greg Brockman(聯合創始人兼總裁)幾乎參與過公司所有基礎設施模塊,而Sam Altman(聯合創始人兼CEO)也通過研究助理及時了解公司內部所有的技術進展。
談及AGI,翁家翌表示:“OpenAI內部抓15個人,可能有20種定義AGI的方法。”對于他來說,“如果AI能完成80%、90%我認為有意義的任務,那它可能就是是AGI了。”但他也坦言,目前他日常負責的代碼上,尚無法放心交給模型修改。
雖然熱愛開源,但人總是要在現實之間做出權衡。面對“OpenAI不Open”的質疑,翁家翌表示:“你沒法直接把最好的模型開源,因為公司要生存,這很現實”尤其在資源密集型的模型研發階段,資本輸血與商業可持續是讓公司能夠存活和繼續創新的必要條件。
不過他也開心地說道,如果公司資源不受限,“我當然會很開心地開源RL Infra團隊這兩三年的成果。”
![]()
“如果想進工業界,讀PhD是浪費生命”
在找工作之前,其實翁家翌也思考過要不要讀博。他說,在清華的體系里,學歷永遠是越高越好,“當身處那個環境的時候,其實很難跳出這個評價體系。”
但翁家翌想建立一個自己的評價體系。他對這個問題直言不諱:“如果想進工業界,讀PhD其實是在浪費生命。”
在他看來,“教一個研究員(Researcher)如何做好工程(Engineering),要遠比教一個工程師(Engineer)如何做好研究來的難。”
在訪談中,他多次強調一個對工業界極其關鍵、但在學術體系中并不被優先訓練的工程化迭代能力。
傳統PhD訓練,更強調的是如何選一個“學術上成立”的方向,如何把故事講完整、把實驗結果畫得漂亮、把論文寫得自洽。這些能力在學術體系中至關重要,但在工業界,尤其是大模型時代的AI公司里,已經不再是最稀缺的能力。
在他看來,今天的研究型工業實驗室,并不缺創新和想法,也不缺能夠判斷方向對不對的人。真正稀缺的是誰能在單位時間內,驗證更多正確的Idea。而這件事,幾乎完全依賴于工程與Infra。
他表示,如果目標已經非常明確是要進入工業界、進入AI lab,那更有效的路徑,反而是盡早通過碩士、本科階段的項目積累,構建出與博士學生同臺競爭的能力結構。
“你完全可以以master為跳板,甚至在本科的時候,就攢夠進入工業界的籌碼。關鍵不是你有沒有PhD title,而是你有沒有差異化。”
在訪談的最后,翁家翌表示,如果讓AI去解決一個世界難題,他最想做的是預測未來。
“所有的東西都是可以被預測的,所以理論上它是可以用AI解決的。”在翁家翌看來,世界是確定性的,自由意志是幻覺,所有事件在宇宙大爆炸之初就已注定。這是他堅信的宿命論。
“上帝不擲骰子”,他說,“我嘗試去證偽,我也非常想讓他能夠證偽。”“我覺得三維生物都是有自己的局限性的。在三維生物的認知里面,時間就是一個線性單向流動的。但是有可能在四維的時間里面,時間并不是單向流動的,它可以任意跳躍。這是我找到的迄今為止合理的解釋。”
他認為,面對這種令人不安的世界觀,最好的方式就是假裝不知道,然后去體驗當下的人生。
盡管在事業上取得了巨大成功,但翁家翌坦言自己目前正處于一個迷茫期。他感覺在RL Infra這個他長期熱愛的領域確定性的事情變得越來越多。他給自己未來的目標是擁有充分的自由和資源去找到并做自己真正想做的事。
在訪談的最后,他說:“我曾經一度想通了自己想要什么,但是我其實還是沒有那么想通,這個問題值得一生去思考。”
![]()
![]()
運營編輯 |曹倩審核|孟莎莎
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.