網易首頁 > 網易號 > 正文申請入駐

Lex Fridman硬核訪談：5萬字2026 AI全景報告

2026-02-03 12:14:20　來源: 劃重點KeyPoints

浙江舉報

分享至

作者｜林易

編輯｜重點君

2月1日，知名科技播客博主Lex Fridman與兩位機器學習領域的重量級嘉賓開展了一場深度對話。Sebastian Raschka是知名機器學習研究員與教育家，Nathan Lambert是艾倫人工智能研究所（AI2）的后訓練負責人，同時也是RLHF領域的權威專家。兩位嘉賓恰好代表了當前AI領域的兩大核心關切：原理與技術路線。

這場長達數小時的硬核訪談信息密度極高，既是對過去一年AI技術突破的復盤，更是對2026年技術風向的深度預判。我們給你劃下重點：

第一，關于中美AI競爭：2025年的最大變量是DeepSeek時刻，中國公司在開源權重模型上已占據主導地位。

2025年1月發布的DeepSeek R1被視為中美AI競爭的分水嶺，該模型以更低的算力成本達到了接近最先進（SOTA）的性能，震驚了業界。Nathan Lamber說，在開源模型方面表現強勢。DeepSeek、阿里Qwen、MiniMax、Kimi等公司發布了大量高性能開源模型，贏得了開源社區的青睞。

相比之下，美國曾經的開源標桿Llama卻在這一年迷失了方向。Sebastian Raschka說，Meta試圖通過構建巨大的Llama 4模型在基準測試中擊敗ChatGPT，但陷入刷榜陷阱，忽略了AI領域真正需要的是輕量級、可用的模型。這導致Llama留下的生態空白正在被中國的開源模型迅速填補。

第二，主要AI實驗室與模型現狀：Anthropic最有序，OpenAI內部混亂，Meta開源策略可能動搖。

Anthropic：Claude Opus4.5是當前頂流，特別是在編程方面表現出色，深受開發者喜愛。Anthropic組織最有序、最不混亂。

Google：Gemini 3 雖發布時營銷聲量不如對手，但性能極其強大。Google的優勢在于擁有完整的全棧垂直整合能力（TPU芯片、云計算、模型、應用），利潤率極高，不依賴英偉達的高價GPU芯片。

OpenAI：盡管內部混亂，但仍具有極強的交付能力。GPT-5系列（包括o1/o3推理模型）通過推理時計算節省了大量成本，并定義了新范式。

Meta：LLaMA系列似乎面臨內部政治和激勵問題，未來是否會有開源的LLaMA5存疑，Meta的開源策略可能在動搖。

第三，關于技術范式轉移：預訓練的紅利正在消退，AI技術戰場轉向后訓練和RLVR。

Nathan Lamber認為，預訓練已經變得極其昂貴且邊際效益遞減，而現在的模型能力提升重點源自后訓練階段的創新。2025年最大的技術突破是帶有可驗證獎勵的強化學習（RLVR）。這徹底改變了模型的訓練方式。

傳統的基于人類反饋的強化學習（RLHF）更多是調整模型的語氣和風格，屬于微調偏好，容易觸及天花板。RLVR則是讓模型在數學、代碼等有客觀答案的領域進行大規模試錯。通過“生成-評分”的迭代循環，模型能像人類學生一樣，在數萬次的練習中自我修正，從而解鎖預訓練中已有的知識。

預訓練是計算密集型（算力受限），而后訓練階段的RLVR則更像是內存密集型（內存受限），更看重GPU的運行時間而非單純的算力堆疊。

第四，關于AI編程：AI催生Vibe Coding，軟件工程正從寫代碼轉向系統設計。

AI對編程領域的重塑遠超預期。Vibe Coding讓開發者不再糾結于具體的代碼細節，而是通過自然語言描述需求，快速生成并修改代碼Diffs。在這種模式下，人類的角色從代碼編寫者轉變為系統設計師和審查者。

Nathan Lambert預測，隨著AI能力的提升，軟件開發將變得高度工業化。雖然完全自動化的超級智能編程因數據分布的參差不齊而難以在短期內完美實現，但工具的門檻正在急劇降低。未來，一個不懂底層代碼的人，只要擁有清晰的系統設計思維，利用Claude Code或Cursor等工具，就能構建出復雜的軟件系統。

第五，關于Scaling Laws：規模定律并沒有失效，但維度變得更加豐富了。

針對AI發展是否遇到瓶頸的質疑，嘉賓們給出了否定的回答。Nathan Lambert認為，Scaling Laws依然是技術發展的基石，但現在的擴展已從單一的預訓練規模分裂為三個維度：

傳統規模定律：繼續堆疊模型參數和數據集。

強化學習規模：可以進行多長時間的試錯學習。

推理側算力：讓模型在回答前思考更久，生成更多的思維鏈Token。

這種多維度的擴展策略，使得科技巨頭們在2026年依然敢于投入數百億美元建設吉瓦級規模的算力集群。Sebastian Raschka形象地比喻：在一個擁有無限算力的理想世界里，你會把這三個維度的旋鈕全部拉滿；但在現實中，這變成了一場關于性價比的權衡游戲，大公司需要考慮是花1億美元訓練更大的模型，還是花200萬美元做推理側擴展。

第六，關于AGI的終局：單一通用模型的夢想已經破滅，未來屬于多智能體與專業化模型。

對于未來，嘉賓們打破了一個全能模型統治世界的幻想。Nathan Lambert認為，未來的AI生態不會是贏家通吃，而是一個分工明確的系統。

未來不會依賴一個單一的ChatGPT去處理所有事務，而是會有專門負責法律、醫療、編程的垂直模型。現實正在演變為人們針對不同任務調用不同的Agent。未來的數據中心里，將是許多專門的AGI在相互交流、管理和執行任務。

以下為Lex Fridman播客訪談實錄：

1、中國 vs 美國：誰將贏得 AI 競賽？

Lex Fridman：以下是一場關于人工智能前沿動態的對話，涵蓋了過去一年AI領域激動人心的突破，以及我們對未來一年的展望。雖然內容有時會涉及深度的專業技術，但我們力求讓非專業人士也能聽懂，同時絕不降低內容的專業深度。我很榮幸能邀請到AI社區中我最喜歡的兩位嘉賓：Sebastian Raschka 和 Nathan Lambert。他們都是備受尊敬的機器學習研究員、工程師，同時也是優秀的傳播者、教育者和作家。Sebastian著有兩本我強烈推薦給初學者和專家的書：第一本是《從零開始構建大語言模型》（Build a Large Language Model From Scratch），另一本是《從零開始構建推理模型》（Build a Reasoning Model From Scratch）。我堅信在機器學習和計算機科學領域，學習并理解某項事物的最佳方式就是親手從零開始構建它。Nathan是艾倫人工智能研究所的后訓練負責人，也是關于人類反饋強化學習（RLHF）權威著作的作者。

Lex Fridman：讓我們從“DeepSeek時刻”這個視角切入。這大約發生在一年前的2025年1月，當時中國公司DeepSeek發布了開放權重的DeepSeek R1。我認為可以公平地說，它以更少的算力和更低廉的價格，達到了接近或持平SOTA（最先進）的性能，驚艷了所有人。從那時起到今天，AI領域的競爭在研究和產品層面都變得異常激烈，這種趨勢一直在加速。讓我們今天探討所有這些話題。首先我想問一個尖銳的問題：在國際層面上誰處于領先地位？是中國的一系列公司，還是美國的公司？Sebastian，你認為誰是贏家？

Sebastian Raschka：“贏”這個詞涵蓋面很廣。既然你提到了DeepSeek時刻，我確實認為DeepSeek通過分享開源模型，絕對贏得了那些致力于開放權重模型（open weight models）的人們的心。我認為“贏”包含多個時間尺度：當下、明年，還有十年后。我唯一可以肯定的是，我不認為到了2026年的今天，還會存在哪家公司能掌握其他公司無法觸及的獨占技術。主要原因是研究人員頻繁地更換工作和實驗室，人才在不斷流動。因此，我不認為在技術獲取層面會有明顯的贏家。然而，差異化因素將體現在預算和硬件限制上。這些創意本身并非專利，實現這些創意的方式和資源才是關鍵。所以，目前我看不到一個“贏家通吃”的局面。

Lex Fridman：Nathan，你怎么看？

Nathan Lambert：你可以看到各個實驗室在目標投入上存在差異。為了標記我們錄制的時間點，目前針對Anthropic的Claude Opus 4.5模型的炒作簡直瘋狂。我在過去幾周一直用它構建東西，它的熱度甚至有點像個“梗”了。這很有趣，因為這種熱度非常自然。如果我們回到幾個月前，Google發布Gemini 3時的營銷手段和驚艷程度都非常高。但隨后11月底Claude Opus 4.5發布，熱度一路攀升，感覺大家對Gemini 3的討論反而沒那么多了，盡管它剛推出時被視為Google奪回AI架構優勢的時機。Gemini 3依然是一款出色的模型，我目前仍在使用它，只是其差異化程度較低。

我同意Sebastian的觀點，創意空間是非常流動的。但在文化層面上，Anthropic以敢于在代碼能力（即Claude Code）上重注而聞名，目前效果很不錯。所以我認為，即使想法可以自由流動，但很大程度上仍然受限于人力投入以及組織的文化氛圍。Anthropic目前看起來是表現得最不混亂的，這算是一個小小的優勢。另一方面，在技術層面，中國有很多令人驚嘆的技術。除了DeepSeek之外，還有更多的實驗室。DeepSeek在中國引發了一場運動，類似于ChatGPT在美國引發的浪潮，當時所有產品都加上了聊天機器人。現在中國有大量科技公司正在發布實力強勁的前沿開源權重模型，以至于我會說DeepSeek在某種程度上正在失去其作為中國卓越開源模型制作者的桂冠，像智譜AI的GLM模型、MiniMax的模型以及月之暗面（Kimi），尤其是在過去幾個月里，表現得更加出色。

Lex Fridman：所以像DeepSeek這樣的一些模型因為開源權重而受到了大眾的喜愛。你認為中國公司發布開放權重模型的策略會堅持多久？

Nathan Lambert：我認為會持續幾年。就像在美國一樣，目前還沒有一個清晰的商業模式。我寫關于開放模型的文章有一段時間了，中國公司也意識到了這一點。他們很聰明，也看到了同樣的限制：許多美國頂尖科技公司出于安全擔憂，不會購買中國公司的API訂閱服務。這在技術領域是長期存在的習慣。因此，這些公司的從業者將開放權重模型視為一種能力，以此來通過這種方式參與到美國巨大且不斷增長的AI支出市場中。他們對此有著非常務實的認識，而且這對他們很有效。但是開發這些模型非常昂貴，所以我預計在某個時間點會出現整合，但我不認為這會發生在2026年。2026年開放模型構建者的數量將比2025年更多，而且其中許多著名的構建者將來自中國。

Lex Fridman：Sebastian，你剛才想補充什么嗎？

Sebastian Raschka：是的。你提到DeepSeek失去領先地位，我在某種程度上認同，但也必須考慮到，我認為他們仍然處于微弱的領先地位。其他模型的情況并非是DeepSeek變差了，而是其他模型正在借鑒DeepSeek的思路。例如你提到的Kimi，采用了相同的架構進行訓練。我們再次看到了這種“跳躍式領先”的情況：一個人發布了某個東西，另一個緊隨其后。最新的模型往往就是最好的模型。我認為這又回到了那個事實，不會有一個絕對的贏家。

Nathan Lambert：是的。我們還會看到中國公司有著不同的激勵機制。比如DeepSeek非常神秘，而其他一些初創公司則不同，像MiniMax和零一萬物（01.AI）這類公司已經提交了IPO文件，正努力爭取西方市場的關注，并在那里進行了大量推廣。DeepSeek是由幻方量化（Highflyer Capital）這家對沖基金創立的，我們并不確切知道他們將這些模型用于什么，或者他們是否在意商業化。

Lex Fridman：他們在溝通方面很神秘，但在描述模型工作原理的技術報告方面并不保守，在這方面他們仍然保持開放。我們還應該談談對Claude Opus 4.5的炒作。這其中包含了一些層面，即它作為X（原Twitter）信息繭房里的寵兒的熱度，與實際使用該模型的人數之間存在差距。我認為可以公平地說，ChatGPT和Gemini專注于那些僅僅想使用工具解決日常問題的廣泛用戶群體，那個群體非常龐大。所以關于編程能力的炒作可能并不能完全代表實際的大眾使用情況。

Sebastian Raschka：很多使用模式也是出于知名度和品牌，同時也形成了一種肌肉記憶。ChatGPT已經存在很長時間了，人們習慣了使用它，這像一種飛輪效應。還有一個有趣的觀點是LLM的定制化。例如ChatGPT有記憶功能，你可能有一個訂閱用于處理個人事務，但你不一定想在工作中使用同一個賬號。因為私人生活和工作之間存在界限。我認為這也是一個有趣的切入點，你可能會擁有多個訂閱：一個只用于編寫純凈的代碼，不包含任何個人照片或愛好；另一個則是你個人的東西。我認為未來會是多個并存的。

2、ChatGPT vs Claude vs Gemini vs Grok：誰正在領先？

Lex Fridman：你認為哪個模型贏得了2025年？又有哪些模型將贏得2026年？

Nathan Lambert：在消費級聊天機器人的語境下，問題在于你是否愿意押注Gemini而非ChatGPT。直覺告訴我，這似乎是一個有點冒險的賭注，因為OpenAI一直是該領域的領先者，這在科技行業會帶來諸多優勢。回顧2025年，勢頭似乎在Gemini這邊，但我認為他們當時的起點太低了。愿Bard以及那些早期的嘗試安息吧。他們能克服組織內部的混亂并實現這一目標，確實值得稱贊。但與此同時，也很難去賭OpenAI會輸。因為他們雖然表面上顯得混亂，但非常擅長讓項目落地。就我個人而言，我對GPT-5的評價褒貶不一，但它肯定通過高端線路功能的路由機制為他們節省了大量資金，即大多數用戶不再像以前那樣消耗昂貴的GPU資源了。

Lex Fridman：你對2026年怎么看？誰會勝出？

Nathan Lambert：盡管有風險，我還是要說，我認為Gemini將繼續追趕ChatGPT的進展。當兩者都以如此極端的規模運行時，Google的規模優勢在于它能夠更好地將研究與產品分開。而OpenAI在運營上常被傳非常混亂，一直在追求高影響力的事物，這是典型的創業公司文化。在軟件和企業端，我認為Anthropic將會延續他們的成功。Google Cloud擁有豐富的產品線，Gemini這個品牌對他們的建設至關重要。Google Cloud將繼續保持良好的發展勢頭，但在生態系統中解釋清楚這一點會更加復雜，因為那是與Azure和AWS的競爭。

Lex Fridman：所以在基礎設施方面，你認為TPU帶來了優勢？

Nathan Lambert：很大程度上是因為NVIDIA芯片的利潤率高得離譜，而Google可以從上到下開發一切來適配他們的技術棧，不需要支付這部分利潤空間。而且他們在建設數據中心方面擁有先發優勢。因此，在這些既需要漫長前置時間，又有著極高利潤門檻的領域，Google擁有一種歷史性的優勢。如果將出現新的范式，它最有可能來自OpenAI，因為他們的研究部門一次又一次地證明了這一點，比如Deep Research、Sora、o1推理模型。這種落地全新研究理念或產品的能力是OpenAI的核心特質。很難賭他們會輸，但我認為今年的重點將很大程度上圍繞規模化（Scaling）和優化模型中那些“垂手可得的果實”。

Lex Fridman：顯然，在智能與速度之間存在權衡。這就是ChatGPT-5在幕后試圖解決的問題。廣大公眾到底是想要智能，還是想要速度？

Sebastian Raschka：我覺得這實際上是一個很棒的多樣化選擇。就我個人的使用習慣而言，大多數時候當我查閱某些內容時，我會用ChatGPT問一個簡單的問題，快速獲取信息。對于大多數日常任務，我會使用快速模型。現在自動模式已經做得相當不錯了。但有時我也想要Pro模式。例如當我寫好東西后，我會把它放入ChatGPT并說：“做一個非常徹底的檢查。我的所有引用、想法、格式都正確嗎？”這種情況下我不需要立即得到答案，可以讓它運行著，回頭再看。這就是擁有這種選項的重要性。如果每個查詢都要讓我等30分鐘甚至10分鐘，我一定會瘋掉的。

Nathan Lambert：那就是我。我坐在這兒簡直要瘋了，你居然還在用路由模式和非思考模型（non-thinking models）。我心想：“你是怎么受得了那種東西的？”我已經重度使用ChatGPT很長時間了，從來沒碰過非思考模型。我覺得它的語氣和出錯的概率似乎更高。這可以追溯到OpenAI發布o3的時候，那是第一個能夠進行深度搜索、整合多個來源的模型。我已經習慣了那樣。所以在處理工作信息查詢時，我只會使用GPT-5.2 Thinking或Pro版本。我經常會同時進行五個Pro查詢，尋找特定的論文或代碼參考。

Sebastian Raschka：我有一個有趣的例子，當時我只需要盡快得到答案。在這次旅行之前的播客中，我家里運行著一個本地GPU，我想運行一個長時間的RL（強化學習）實驗。通常我會拔掉電源，但我如果不小心拔掉了GPU電源，當時我妻子已經在車里等著了，我心想：“噢，糟了。”我想要以最快的速度寫出一個Bash腳本，用來運行不同的實驗和評估。我知道怎么用Bash終端，但在那一刻我只需要大概10秒鐘把命令給我。所以我用了不帶思考過程的最快模型。它給了我Bash命令，我需要將不同的腳本串聯在一起，這就解決了問題。

Nathan Lambert：我用Gemini處理這類需求。我會用思考模型處理所有信息類事務，然后用Gemini處理追求速度的任務，或者那些通過Google搜索能更好解釋的內容。Gemini應用也變得好多了。對于代碼和任何形式的哲學討論，我會使用Claude Opus 4.5，而且總是開啟擴展思考（extended thinking）。擴展思考和推理時間擴展（inference time scaling）只是讓模型變得稍微更聰明一點的方式。然后有時我會使用Grok來獲取實時信息，或者在AI Twitter上尋找內容。Grok-4 Super Heavy發布時表現非常出色，但我后來因為習慣用ChatGPT App就慢慢把它忘了。

Lex Fridman：是的，我確實也在用Grok-4 Heavy用于調試。對于那些其他模型無法解決的硬核調試問題，我發現它是最擅長的。這很有趣，因為你說ChatGPT是最好的界面，對我來說Gemini是更好的界面。我想是因為我愛上了它們最出色的“大海撈針”（needle in the haystack）能力。如果我放入包含大量上下文的內容并尋找非常具體的信息，Gemini一直表現最好。這就像有一種閾值效應：你會堅持使用一個模型，直到它做了一件蠢事，然后你就會換個工具。

Sebastian Raschka：沒錯，你會一直使用它直到它出故障。就像我們使用瀏覽器一樣，你不會在不同瀏覽器中輸入同一個網址對比，除非網頁無法渲染。關于長上下文，我之前也是為了這個功能使用Gemini，但GPT-4o發布時展示了驚人的長上下文評分提升。現在我更看好GPT-5.2的長上下文。

3、最適合編程的AI

Lex Fridman：我們還沒怎么提到編程。那是另一個很多人非常關注的使用場景。所以我基本上是一半一半地在使用Cursor和Claude Code。你們呢？

Sebastian Raschka：我用的是VSCode的Codex插件。它非常方便，就像一個可以訪問你代碼庫的聊天界面。我知道Claude Code似乎有點不同，它更具智能體（agentic）特征，能為你完成整個項目。我目前還沒到能完全放心使用它的程度，也許是因為我有控制欲，我希望能看到具體發生了什么。Cursor對我來說目前處于一個恰到好處的平衡點，它在幫助我，但沒有完全取代我的工作。

Lex Fridman：我使用Claude寫代碼的原因之一是為了培養用英語編程的能力。這種體驗從根本上是不同的。你不再是微觀管理代碼生成的細節，而是查看diff。如果你使用Cursor這種IDE，你可以看到修改和變更代碼時的差異。去觀察、閱讀并深入理解代碼，而不是僅僅停留在設計層面進行宏觀引導，這是思考編程過程的另一種方式。Claude Code似乎更好地利用了Claude 3.5 Opus。

Nathan Lambert：這對人們來說是一個很好的并排對比。你可以同時打開Claude Code、Cursor和VSCode，選擇相同的模型并提出問題。Claude在代碼能力那個領域要出色得多。

Lex Fridman：好的，我們應該說明你們兩位在多個領域都是名副其實的專家，包括研究員、程序員、教育者以及作家。Nathan，希望你能很快出一本關于RLHF的書。

Nathan Lambert：已經可以預訂了，而且有完整的數字預印本。我只是在為實體書做美化和更好的排版。

Lex Fridman：Sebastian Raschka是一位機器學習研究員和作家，出版了多本具有影響力的書籍。其中有兩本我想特別提一下：一本是我強烈推薦的《從零開始構建大語言模型》，以及新書《從零開始構建推理模型》。我感到非常興奮，因為從頭開始構建東西是學習最有效的方式之一。

Sebastian Raschka：說實話，從頭開始構建一個LLM非常有趣。這也是一個學習很多東西的過程。正如你所說，這可能是了解事物真實運作機制的最佳方式。你可以看圖表，但圖表可能會有錯誤；你可以看概念，但可能會誤解。但如果你看到代碼并且能運行，你就知道它是正確的，它是精確的。這就是編程背后的魅力，它不會撒謊。即使是數學，我認為書里也可能存在你永遠察覺不到的錯誤。因為你在讀書時并沒有實際運行那些數學計算，所以無法去驗證它。而代碼的優勢就在于，你可以動手驗證。

Lex Fridman：沒錯，我同意你關于《LLM From Scratch》這本書的看法。屏蔽掉互聯網等一切干擾，全身心投入到書本中，這種感覺確實很好。但是，我也讀過一些書，比如歷史書。某種程度上，讀書讓你不再感到孤獨，這真的更有趣。不過在編程方面，我認為與LLM一起編程確實更有意思。其實我認為與LLM一起閱讀也更有趣。你說得對。不過這種干擾應該被降到最低。也就是說，你是利用LLM來從根本上豐富體驗，通過它增加更多的上下文。也許吧。我只是覺得，在小規模應用上，LLM帶給我的“頓悟時刻”頻率真的很高。

Sebastian Raschka：確實如此。我也想修正一下我的觀點，我并不是建議完全不使用LLM。我建議的是分階段進行：先進行一輪離線、專注模式的學習，這時候雖然我會記筆記，但我會努力克制住立即查閱資料的沖動；之后我會進行第二輪。對我來說，以這種方式組織學習更有效。有時候問題在后續章節中自然會得到解答，而有時候，讓問題沉淀一下、多思考一會兒也會有所幫助。當然，每個人的偏好不同。我強烈建議在閱讀書籍時使用LLM，只是對我而言，它不是首選步驟，更像是第二輪的復習工具。

Lex Fridman：作為一個建議，我的做法恰恰相反。我喜歡在開始時就使用LLM。我想先理清整個背景，比如了解我正要踏入的是一個什么樣的世界。但我會盡量避免從LLM的界面跳轉到Twitter或博客之類的網頁，因為那樣你就真的會陷入無底洞。你會讀到某人的觀點，或者看到關于某個特定話題的激烈爭論，突然間你就脫離了學習狀態，進入了互聯網和Reddit的領域。但如果你純粹是讓LLM為你提供“這件事為什么重要”的背景，以及大局觀是什么，這會非常有幫助。雖然有些書本身也很擅長搭建背景，但并不總是如此。

Nathan Lambert：這就是為什么我喜歡ChatGPT的桌面應用，因為它把AI整合到了你的電腦工作中，你可以全身心投入其中，而不只是把它當作雜亂無章的瀏覽器標簽頁中的一個。我認為Claude Code以及類似的特定工具在營造這種愉悅感方面做得很好。作為一種產品設計，它非常吸引人，充當了一個讓你的AI走向世界的界面。Claude與OpenAI的Codex之間有一種難以言表的區別：Claude給人一種溫暖且引人入勝的感覺；而Codex雖然通常也同樣出色，但總讓人覺得在細節處理上稍微有點粗糙。相比之下，Claude Code讓構建東西變得很有趣，尤其是從零開始的時候，你完全不用操心，因為你相信它一定能做出來。

這對搭建網站和類似的數據刷新工具非常有用。我用它來進行數據分析。比如我的博客需要爬取Hugging Face的數據，以便持續保存每個數據集和模型的下載量。現在我們有了這些數據，Claude就像是說：“沒問題，我已經利用這些數據做好了分析。”我當時心想，這原本得花掉我好幾天的時間。我有足夠的局勢感知能力去判斷它生成的趨勢是合理的，并且可以去核查。這確實是一種美妙的交互界面，你擁有了一個中間層，而不必親自去處理那些維護Web項目時必須面對的底層繁瑣工作。

4、開源 vs 閉源 LLMs

Lex Fridman：好的。剛才我們討論了一系列關于閉源模型的話題。讓我們聊聊開源模型。跟我說說開源LLM的格局。哪些模型比較有趣？哪些讓你印象深刻，為什么？我們已經提到了DeepSeek。

Nathan Lambert：你想看看我們憑記憶能說出多少個嗎？

Lex Fridman：來吧，不用看筆記。

Nathan Lambert：DeepSeek、Kimi、MiniMax、智譜AI（Zhipu AI）、面壁智能（ModelBest）。這就已經是不少中國模型了。然后我們把Mistral AI、Gemma也加進來。還有GPT-OSS，也就是ChatGPT相關的開源模型。實際上，NVIDIA也有一個非常酷的模型叫Nemotron 3。特別是在年底這段時間，涌現了很多東西。Qwen（通義千問）也是一個顯而易見的名字。你至少可以列出10個中國的和10個西方的模型。

OpenAI實際上也發布了他們的第一個開源模型——隔了很久，自GPT-2以來。這就是我當時寫關于“OpenAI發布開源模型”的文章時所指的。當時人們都說“別忘了GPT-2”，我覺得這很有趣，因為那完全是不同的時代了。但GPT-OSS實際上是一個非常強大的模型，并且能做到其他模型做得不太好的一些事情。

出于私心，我也想推介一些西方公司。在美國和歐洲都有完全開放的模型。我在艾倫人工智能研究所工作，我們一直在構建OLMo，并發布了數據、代碼以及所有相關內容。現在我們面臨著真正的競爭，人們正致力于發布所有內容以便他人訓練模型。例如基礎模型研究所（Institute for Foundation Models）推出的LM360，他們發布了K2模型。Apertus是一個瑞士的研究聯盟。Hugging Face推出了SmallLM，非常受歡迎。此外，NVIDIA的Nemotron也已經開始發布數據。還有斯坦福大學的Marin社區項目，它建立了一套流程，讓人們可以通過提交GitHub issue來實現新想法，并使其在穩定的語言建模棧中運行。所以在2024年，這個領域的名單要比以前豐富得多。我認為這對于更多人參與進來并理解語言模型是一件好事。

目前還沒有一家中國公司有類似的對應機構。我要指出的是，中國的開源語言模型往往規模大得多，這使得它們作為混合專家模型（MoE）具有更高的峰值性能。而許多我們非常喜歡的西方模型，無論是Gemma還是Nemotron，往往是來自美國的較小模型。不過這種情況正開始改變。Mistral Large 3在12月發布了，它是一個巨大的MoE模型，架構與DeepSeek非常相似。還有一家名為Reka的初創公司。Nemotron和NVIDIA已經預告了參數量遠超1000億甚至達到4000億級別的MoE模型，將在2026年第一季度左右推出。所以我認為，在“人們使用中國還是美國的開源模型”這一問題上的平衡狀態，今年將會發生改變。這是我個人非常期待看到的。

Lex Fridman：首先，非常佩服你能叫出這么多名字。LLaMA是你命名的嗎？

Nathan Lambert：不是我。

Lex Fridman：好的。你能提到有哪些表現突出的有趣模型嗎？你剛才提到了Qwen3顯然是一個佼佼者。

Sebastian Raschka：這一年幾乎是以DeepSeek的兩個動作作為開端和結尾的：DeepSeek V3和R1。DeepSeek V3是在2024年12月發布的，R1緊隨其后。我喜歡它們的地方在于，它們總是在架構上有一些有趣的微調，這是其他公司所不具備的。

除此之外，如果你想選擇熟悉但性能非常出色的模型，Qwen3是個好選擇。另外我還提到了GPT-OSS。我認為GPT-OSS的有趣之處在于，它算是第一個在訓練時就充分考慮到“工具調用（Tool Use）”的公開權重模型。我確實認為這在某種程度上是一種范式轉移，之前的生態系統尚未完全準備好。

所謂“工具調用”，是指LLM能夠進行網頁搜索，或者調用Python解釋器。我認為這是一個巨大的突破。因為關于LLM最常見的抱怨之一就是“幻覺（Hallucinations）”。在我看來，解決幻覺問題的最佳方法之一，就是不要試圖讓模型總是去記憶信息或憑空捏造。對于數學問題，為什么不直接讓它使用計算器應用或Python呢？如果我問LLM“誰贏得了1998年的世界杯？”，與其讓它去死記硬背，不如讓它完全通過搜索來回答。它會進行工具調用來訪問Google，也許會找到FIFA官網，然后告訴你“哦，是法國隊”。它能可靠地為你獲取信息。

所以我認為這是一個巨大的突破，目前尚未被開源、開放權重生態系統充分利用。很多人不使用工具調用模式，首先是因為信任問題。你不想在自己的電腦上運行一個擁有訪問工具權限的模型，因為它可能會抹掉你的硬盤。所以你可能需要將其容器化。但我確實認為，擁有這種能力是未來幾年非常重要的一步。

Lex Fridman：有幾件事簡要說一下。首先，謝謝你定義了你所說的“工具調用”的具體含義。在討論這些概念時，這樣做非常好。即使是像MoE這樣已經非常成熟的概念，你也得說明那代表“混合專家模型（Mixture of Experts）”，建立起直覺，讓人們理解那意味著什么，它是如何被實際應用的，以及有哪些不同的變體。那么，開放模型如此爆發式增長意味著什么？你的直覺是怎么樣的？

Nathan Lambert：如果你發布一個開放模型，首要目的就是希望人們去使用它。緊隨其后的是透明度和信任等因素。當你觀察中國時，最大的原因在于他們希望全球用戶都能使用這些模型。如果你觀察美國以外的地區，很多人不會為軟件付費，但他們可能擁有計算資源，可以把模型部署在本地運行。此外，還有一些數據是你不想發送到云端的。因此，首要任務是讓人們開始使用AI，或者使用你的AI，因為如果沒有模型訪問權限，他們無法做到這一點。

Lex Fridman：我想我們應該明確說明，我們一直在討論這些中國模型和權重開放模型，通常情況下，它們的運行方式是在本地運行。所以這并不是說你把數據發送到了中國，或者發送給了硅谷的任何開發者。

Nathan Lambert：沒錯。許多美國初創公司通過托管這些來自中國的模型并進行銷售來賺錢，這被稱為賣Token，意味著有人會調用該模型來完成工作。

我認為另一個原因是，像OpenAI這樣的美國公司非常缺乏GPU。他們已經達到了GPU的極限。每當他們發布新產品時，總是在說GPU資源非常緊張。在GPT-4o的發布環節中，Sam Altman曾暗示過，發布這個是因為可以利用用戶的GPU，他們不必動用自己的資源，卻仍然可以獲得分發渠道。這對他們來說沒有任何成本，是一個非常現實的考量。

Sebastian Raschka：對于用戶來說，有些用戶只是像使用ChatGPT那樣在本地使用模型。但對于公司而言，擁有這些模型是一個巨大的突破，因為你可以定制它們，可以通過后期訓練添加更多數據。比如將它們專門化為法律、醫療模型等。

此外，中國權重開放模型的吸引力在于，它們的許可協議往往更加友好，通常是無限制的開源許可（如Apache 2.0）。而如果我們使用像LLaMA或Gemma這樣的模型，其實是附帶條件的。比如在用戶數量方面有一個上限，如果你超過了幾百萬用戶，就必須向Meta之類的公司報告財務狀況。雖然它是免費模型，但確實存在束縛。人們更喜歡沒有束縛的東西。除了性能之外，這也是為什么來自中國的開源權重模型如此受歡迎的原因之一：你可以直接使用它們，沒有任何陷阱。

Nathan Lambert：在這方面，生態系統已經變得更好了。當你打開Perplexity并看到它顯示“在美國托管的Kimi-K2 Thinking”時，這真的很有趣。這正是我們所討論的現象。Kimi-K2是一款非常受歡迎的模型，人們評價它在創意寫作以及處理軟件方面表現出色。這些就是人們在不同模型中發現并喜愛的細微特質。

Lex Fridman：那么，在這些模型探索過的想法中，有哪些是你覺得特別有趣、值得聊聊的嗎？也許我們可以按時間順序來談。

Sebastian Raschka：首先當然是DeepSeek。如果我們聚焦2025年，R1其實是基于前一年（2024年12月）發布的DeepSeek V3。

在架構方面，令人著迷的是，你仍然可以像我在《從零開始構建LLM》項目中做的那樣，從GPT-2開始，通過添加組件將其轉化為另一個模型。它們之間有著非常緊密的血脈聯系。DeepSeek的獨特之處在于混合專家模型（MoE）——當然，并不是他們發明了MoE，我們稍后可以詳細聊聊MoE具體意味著什么。除了MoE，他們還采用了多頭潛在注意力（Multi-head Latent Attention, MLA），這是對注意力機制的一種改進。

我想說，在2025年，這些權重開放模型之間的主要區別因素在于針對推理或KV緩存（KV cache）大小所做的各種微調。其目的主要是為了讓長上下文的成本更低，通過縮小KV緩存的體積來實現。

我們可以做哪些調整？大部分集中在注意力機制上。DeepSeek使用了多頭潛在注意力。還有一種“分組查詢注意力（Group Query Attention, GQA）”，目前仍然非常流行，這也不是新發明的。OLMo-3使用了滑動窗口注意力（Sliding Window Attention）。這些不同的微調使得模型各不相同。但我曾把它們全部放在一篇文章里進行過對比，發現它們驚人地相似。只是在中間層有多少次Transformer塊的重復等數字上有所不同。這就像是微調了一些小旋鈕，但無論如何它都能奏效。你可以移動歸一化層來獲得性能提升。OLMo在消融實驗（Ablation Studies）中展示了移動組件對模型的具體影響。

實現Transformer并使其保持運行的方法有很多。目前盛行的大思路包括MoE、MLA、滑動窗口注意力以及GQA。到了年底，研究重點轉向了使注意力機制能夠隨推理Token數量線性擴展。例如Qwen2.5-1M增加了一個門控Delta網絡（Gated Delta Net），有點像受到了狀態空間模型（SSM）的啟發，本質上是用一種更廉價的操作取代了昂貴的注意力機制。

5、Transformers：2019 年以來 LLMs 的演進

Lex Fridman：也許退一步來談談Transformer架構的總體情況會很有幫助。

Sebastian Raschka：好的，也許我們應該從GPT-2架構開始。Transformer源自《Attention Is All You Need》這篇論文，原始架構包含編碼器（Encoder）和解碼器（Decoder）。而GPT只專注于解碼器部分。它本質上仍然是一個神經網絡，內部包含注意力機制。你一次預測一個Token。將其通過一個嵌入層（Embedding Layer），接著是Transformer塊（包含注意力模塊和全連接層），中間還有一些歸一化層。

從GPT-2發展到現在，出現了例如混合專家（MoE）層。MoE并不是新發明的，其核心思想是在不增加每次前向傳播算力消耗的情況下，使模型參數總量變大。

在Transformer內部有一個全連接層（可以想象成微型多層感知器MLP），它非常昂貴，因為它是全連接的。如果你有一千個輸入、一千個輸出，那就是一百萬個連接。MoE的想法是將這個全連接層擴展為多個前饋網絡。假設你有256個這樣的網絡（專家），但你不會同時使用所有的。你有一個路由器（Router），它會根據輸入Token決定：“好的，使用這個專家網絡會很有用。”

這就叫混合專家。根據輸入內容，比如是數學密集型任務，還是英譯西任務，它可能會咨詢不同的專家。當然，這種分工并不像“數學專家”或“語言專家”那樣界限分明，它是一個更模糊的概念。但其核心思想是你把更多知識封裝進了網絡，但并非所有知識都會被時刻調用，因為那樣太浪費了。在Token生成過程中，路由器會有選擇性地分配任務。這增加了復雜性和訓練難度，有很多環節可能出錯。這可能也是為什么OLMo-3仍然使用稠密（Dense）模型的原因。稠密是指只有一個全連接模塊，并且始終被利用；而MoE被稱為稀疏（Sparse），因為只有部分專家是活躍的。

Lex Fridman：從根本上說，從GPT-2到現在，有多少新想法被實現了？比如，這些架構之間到底有多大區別？

Sebastian Raschka：想象一下GPT-OSS中的分組查詢注意力（GQA），它只是從多頭注意力（MHA）微調而來的。或者他們把LayerNorm換成了RMSNorm，但這只是一種不同的歸一化方式。非線性激活函數從Sigmoid換成ReLU，這也并沒有從根本上改變網絡。

這只是微調，做了一點點調整。我會說，它在本質上并沒有那么大的不同，仍然是相同的架構。你可以通過添加這些改動，從一個模型演進到另一個。例如，我那本書里用的是GPT-2模型（約1.2億參數），但在獎勵材料中，我幾乎從零開始構建了Gemma 3.0。我總是從GPT-2模型開始，然后調整組件，就能從一個模型演進到另一個。從某種意義上說，這是一種傳承。

Lex Fridman：這真的很有意思。當你退一步審視，你會發現AI領域的發展如此迅猛，但與此同時，從根本上講，架構并沒有發生翻天覆地的改變。那么，這種劇烈變革和進步的動能究竟源自何處？收益究竟在哪里？

Sebastian Raschka：在開發或訓練網絡的過程中存在不同的階段。在過去GPT-2的時代，只有預訓練（Pre-training）。而現在，我們有了預訓練、中訓（Mid-training）和后訓練（Post-training）。所以我認為，我們目前正處于“后訓練聚焦”階段。當然，如果你能利用更好、更高質量的數據進行擴展，預訓練仍然會帶來優勢。

但是，我們現在擁有了GPT-2所不具備的能力解鎖。例如ChatGPT，它本質上是一個GPT-3模型。就架構而言，GPT-3與GPT-2是相同的。新的突破在于增加了有監督微調（SFT）以及人類反饋強化學習（RLHF）。所以這更多是算法層面的改進，而非架構層面的變革。

Nathan Lambert：我認為系統層面也發生了很大變化。如果你關注過Nvidia的發布會，他們會提到諸如“現在支持FP8，支持FP4”之類的技術。這些實驗室正在研究如何將更多的算力投入到單個模型中，這讓他們能夠訓練得更快，從而輸入更多數據。通過這種方式，你可以更快地找到更優的配置。

沒錯，本質上“每GPU每秒處理的Token數”是你進行大規模訓練時關注的核心指標。通過開啟FP8訓練，性能可以從10K提升到13K左右。這意味著模型中每個參數占用的內存更少，通信開銷降低，從而實現更快的訓練速度。所有這些系統層面的優化，支撐了數據和算法上更快速的實驗迭代。

這就是一個不斷循環的過程。當你觀察它們的架構時，很難描述清楚，因為它們看起來幾乎一樣，但訓練這些模型的代碼庫卻截然不同。比如訓練GPT-OSS 20B的實際用時比當年訓練GPT-2要快得多。在混合專家模型（MoE）中，他們采用了FP4優化，從而獲得了更高的吞吐量。但這并沒有賦予模型新的“能力”，這僅僅關乎我們能在多大程度上使計算變得更粗粒度，而不導致模型性能下降。

目前Transformer架構的替代方案正在涌現，比如文本擴散模型（Text Diffusion Models）或Mamba這種狀態空間模型（SSM）。但它們都存在權衡，事實是目前還沒有任何東西能取代自回歸Transformer作為SOTA（最先進）模型的地位。所以對于追求最先進性能而言，你仍然會選擇它。

6、AI Scaling Laws：它們已經失效還是依然成立？

Lex Fridman：我想這里的大問題是，規模定律（Scaling Laws）在預訓練、后訓練、推理、上下文長度、數據以及合成數據方面是否依然穩固？

Nathan Lambert：我想先從規模定律的技術定義開始。它本質上是一種冪律關系，你可以將X軸視為算力和數據的結合，而Y軸是對下一個Token的留出預測準確率。人們發現這是一種非常可預測的關系，我認為這一技術趨勢仍在繼續。

現在的維度更加豐富了。OpenAI的o1引入了推理時擴展（Inference Time Scaling）。此外，你還可以通過擴展強化學習（RL）訓練來獲得性能提升。所以目前存在三個維度：

傳統規模定律：即模型規模和數據集規模。

強化學習規模：即你可以進行多長時間的試錯學習。

推理側算力：即讓模型針對特定問題生成更多的思維鏈Token。

我對這三者都持看好態度。過去一年在強化學習方面（特別是可驗證獎勵學習，即RLVR）以及推理側擴展方面已經達成了很多容易實現的目標。這就是為什么現在的模型使用起來感覺如此不同：以前你會立即得到第一個Token，而現在它們在給出回答前會思考幾秒鐘甚至幾小時，生成隱藏的思維鏈。這在模型能力變化方面簡直是一種美妙的階躍函數。

這種能力幾乎完全源自于通過可驗證獎勵進行的強化學習訓練。當你觀察模型生成大量Token時的推理過程，你會發現它經常在嘗試：調用一個工具，查看結果；再嘗試另一個API，查看結果。模型很快就能學會執行這些操作，這為模型在代碼庫中使用CLI命令、處理Git、整理文件等提供了通用基礎。

Lex Fridman：你提到你基本上看好每一種形式的Scaling。那么關于預訓練，我們是否在暗示預訓練規模化中那些“唾手可得的果實”已經被采摘殆盡了？預訓練是否遇到了瓶頸，還是你依然看好它？

Nathan Lambert：預訓練已經變得極其昂貴。要擴大預訓練規模，意味著你要提供一個非常龐大的模型。目前業內共識是，像GPT-4這一代模型的大小大約在萬億參數量級。其實隨著訓練效率的提高，你會希望把模型做小，因為這樣提供服務的成本會成比例下降。

相對于向數億用戶提供服務的成本來說，訓練成本其實是非常低的。DeepSeek有一個著名的數據，按云市場價格計算，預訓練費用約為500萬美元。在我們剛剛發布的OLMo 3論文中詳細說明了，包括工程調試、實驗和集群閑置在內，訓練一個模型大約花費了200萬美元。很多人都能籌到幾百萬美元來訓練模型，但為數百萬用戶提供服務的持續成本需要耗費價值數十億美元的算力。

問題在于，如果擴展規模確實能帶來更好的模型，它在財務上是否值得？我認為隨著AI解決更多引人注目的任務，市場會推動這一點。比如Claude 3.5 Opus與之前的模型相比，徹底解決了我在七月份構建項目時遇到的問題。所以進步仍在繼續。

Lex Fridman：所以你的直覺是，如果不考慮財務可行性，僅僅從定律的角度來看，如果擴展計算規模，模型會變得更聰明嗎？

Nathan Lambert：是的。雖然這聽起來像是對AI公司領導層的盲目信任，但這一規律已經支撐了13個數量級的算力增長，不太可能突然停止。只是最終我們可能無法測試更大的規模，因為規模越大帶來的算力問題越多。

現在大家都在討論2026年，屆時超大規模云服務商將投入運營吉瓦（Gigawatt）級規模的Blackwell算力集群。這些電力和數據中心合同都是在ChatGPT發布前后簽署的，建設周期需要兩三年。實驗室將擁有更多的算力用于訓練，這是一個既定事實。我預計我們會看到訂閱服務價格上漲，比如出現2000美元的訂閱服務，這都源于更大一點的模型所提供的技術優勢。

Lex Fridman：據報道xAI將在2026年初達到1吉瓦規模，并在年底達到2吉瓦。你認為他們會在規模定律的背景下如何利用這些資源？很大一部分是推理嗎？還是訓練？

Nathan Lambert：結果證明是“以上所有”。你在訓練模型時做出的所有決策最終都會回到預訓練。即使你打算擴展RL，你也需要決定能夠實現這一點的架構。比如我們討論的混合專家模型（MoE），其稀疏特性使得生成效率大大提高，這已成為后訓練的重要組成部分。

但我認為大多數算力仍然正投入到預訓練階段，因為你仍然希望擁有盡可能最好的基礎模型。幾年后這可能會達到飽和，屆時RL算力投入的比例將會變大。

Lex Fridman：是否有人不同意你的觀點，認為預訓練基本上已經過時了？認為現在的重點全在于推理擴展、后訓練擴展、上下文擴展以及合成數據？

Nathan Lambert：人們普遍有這種感覺，但我認為實際情況并非如此。那種“預訓練已死”的論調只是因為興奮點轉移到了別處。

以我們在11月發布的模型為例，如果不算預訓練，僅僅做后訓練就花了五天時間，這對于一個300億參數的模型來說是很長的。到了12月，我們又讓強化學習運行了三周半，模型變得顯著更好。把這么長的時間分配給后訓練是前所未有的。

但這并不意味著預訓練被遺棄了。這是一種循環：你重新進行預訓練，然后進行一個月的后訓練，接著進行安全性測試發布給用戶。總有可以改進的地方。當你使用10萬塊GPU進行大規模預訓練時，你會遇到截然不同的故障，幾乎肯定隨時至少有一塊GPU是宕機的。你需要讓訓練代碼能夠處理這種冗余，這完全是另一回事。

當我們轉向強化學習時，它非常適合異構計算。簡要介紹一下語言模型的強化學習：你需要準備兩組GPU。一組是Actor（執行者），負責生成內容；另一組是Learner（學習者），負責實際的策略梯度更新（如PPO或GRPO算法）。你可以讓分布在世界各地的許多不同Actor處理問題，將結果發回給Learner進行評分和學習。

至于推理側擴展，問題變成了：你如何向1億用戶提供一個需要思考一小時的模型服務？這背后存在巨大的系統性挑戰。

Lex Fridman：但我聽下來，你對所有這些維度的擴展都持樂觀態度。無論是推理、邏輯推理，還是預訓練？

Sebastian Raschka：是的。在一個假設擁有無限計算資源的世界里，你會想要全面發力：預訓練、中訓、后訓練、推理擴展全部拉滿。更大的模型會賦予模型更多的知識。

但是正如Nathan所說，預訓練變得太昂貴了。我們沒有無限的算力，所以必須進行權衡。如果你把錢花在預訓練上，這是一項固定成本，模型訓練好后就永久擁有了這種能力。而對于推理側擴展，你是為單次查詢付費。

這就變成了一筆賬：如果我的模型半年后就會被替換，也許花1億美元去訓練更大的模型并不值得，不如花200萬美元做推理側擴展來獲得同等的性能提升。這就是ChatGPT現在的策略，他們擁有海量用戶，所以選擇了一條更具性價比的路線，可能使用了一個稍微小一點的GPT-5模型配合推理擴展。

但在某些特定任務（如奧數）中，你可能需要巔峰性能。總而言之，我認為預訓練、中訓、后訓練以及推理側擴展都是必須做的，關鍵在于找到合適的比例以獲得最高的性價比。

7、AI是如何訓練的：Pre-training、Mid-training 和 Post-training

Lex Fridman：我認為這里可能是定義預訓練、中訓和后訓練的好地方。

Sebastian Raschka：預訓練（Pre-training）是經典的訓練方式，即在海量的互聯網數據、書籍、論文等語料庫上，針對交叉熵損失進行“預測下一個Token”的訓練。現在的變化在于，不再僅僅是原始數據，還包括合成數據。合成數據并不一定意味著純粹由AI虛構，它也包括從文章中提取內容并改寫為高質量的問答或總結。這就像人類學習：讀一本結構清晰的書比看亂七八糟的Reddit帖子學得更快。高質量數據能讓LLM訓練得更快、更準確。

中訓（Mid-training）以前其實也被統稱為預訓練。被稱為中訓是因為它介于預訓練和后訓練之間。它本質上還是預訓練，但更加專業化。例如，你在預訓練階段沒有那么多的長上下文文檔，所以你會設立一個特定的階段來專門訓練長上下文能力。

這就涉及到LLM的一個問題：它是神經網絡，存在“災難性遺忘”。你教它新東西，它就會忘記舊東西。這就像天下沒有免費的午餐。

Lex Fridman：Nathan剛才實際上是在說他攝取了太多的內容，以至于出現了一種災難性的遺忘問題。

Sebastian Raschka：是的。我試著學習關于AI的一切，感覺就像我正在學習預訓練并行性時，腦子里丟掉了一些東西，但我甚至不知道丟掉的是什么。

雖然我不想將LLM（大語言模型）擬人化，但在某種意義上，這和人類學習的方式是一樣的。數量并不總是越大越好，這就涉及篩選機制。Mid-training（中期訓練）階段就是針對高質量內容進行最終篩選，確保模型最后接觸到的是最優質的素材。隨后的Post-training（后訓練）包含了所有的微調、監督微調以及帶有可驗證獎勵的DPO強化學習。

通過人類反饋等方式進行的微調階段非常有趣，這也涉及到成本問題。我們在預訓練上投入了巨資，相比之下強化學習（RL）的作用稍小一些。我認為RL并不真正教給模型知識，它更像是解鎖知識，是一種技能學習，教模型如何利用預訓練中獲得的知識來解決問題。雖然去年有幾篇關于將RL用于預訓練的論文，但這目前還停留在玩具級示例階段，沒有人在生產環境中使用。泛化RL后訓練更像是技能解鎖，而預訓練本質上是吸收知識。

Nathan Lambert：關于合成數據，很多人誤以為它對模型訓練不利。實際上，像DeepSeek和AI2等實驗室都在做這方面的工作。比如OCR（光學字符識別）技術，因為網絡上存在大量PDF和數字文檔，其格式難以進行文本編碼。DeepSeek通過OCR提取了數萬億用于預訓練的候選數據Token。預訓練數據集的規模通常以萬億級Token衡量，研究人員的小模型大約在5到10萬億，Qwen達到了50萬億，有傳言稱閉源實驗室甚至達到100萬億。我們通過巨大的漏斗篩選出極小部分的數據用于實際訓練。此外，利用像ChatGPT生成的高質量回答進行訓練，也屬于合成數據的一種，這與早期模型產生幻覺的數據截然不同。

以OLMo-3為例，盡管其訓練數據量少于一些開放權重模型，甚至可能少于OLMo-2，但性能卻更優，這主要歸功于數據質量。當然，如果我們有更多算力，肯定會訓練更長時間。對于大模型而言，增加參數量和吸收更多數據是必然趨勢。目前的對數圖表顯示，小模型會更早進入瓶頸期，而大模型能從海量數據中獲益更多。但在目前的模型規模下，獲取最高質量數據是我們的自然起點。

Lex Fridman：關于數據質量，是否還有一些唾手可得的機會可以進一步提升它？

Nathan Lambert：這需要按部就班地推進。開源界一直有公認的最佳預訓練數據集，但隨著新數據集發布，這個地位會不斷更迭。比如AI2的Dolmo、Hugging Face的FineWeb以及DCLM項目。以前語言模型主要測試知識和對話能力，現在則要求處理數學和代碼。因此，訓練推理模型需要重新混合整個數據集。這涉及精妙的科學方法：從GitHub、Stack Exchange、Reddit、維基百科等來源提取小樣本，針對不同配比訓練小模型并評估，最后通過線性回歸得出最優數據集配比。OLMo-3正是引入了新數據源來提升推理能力。隨著編程環境或網頁導航等新熱門領域的出現，你需要不斷引入新數據并更改預訓練過程。

Lex Fridman：有什么出乎意料的高質量數據源嗎？你提到過Reddit。

Nathan Lambert：Reddit確實非常有用。此外PDF也是重要來源，特別是arXiv。AI2運營Semantic Scholar很久了，它是Google Scholar的強力競品。我們抓取了大量公開訪問的論文PDF，這些是真正的開放科學資源。前沿實驗室在數據清洗和處理上早就投入了大量工作。現在的趨勢是，如果你想在AI領域產生影響力，與其研究花哨的算法（如O1或擴展RL），不如致力于挖掘新數據或優化基礎設施。

與此同時，出于法律原因，訓練數據的具體構成是目前守得最嚴的秘密之一，各方都在試圖隱藏數據來源以防止泄露。有些人嘗試僅使用授權數據訓練，以符合歐盟的合規性要求。而像Common Crawl這種對整個互聯網的抓取，很大程度上是未經明確授權的。

Sebastian Raschka：這里存在許可方面的區別。正如你所說，有些公司購買了Amazon Kindle或Manning出版社的電子書用于訓練，但這處于灰色地帶，因為即便付費購買，用于訓練可能仍受限制。OpenAI等巨頭也開始接觸私營企業獲取專有數據，而企業為了建立護城河也更加注重保護數據。未來，制藥、法律、金融等行業可能會利用專有數據構建內部模型，實現目前無法達到的預訓練突破。目前的通用LLM還沒觸及針對特定任務訓練后所能發揮潛力的皮毛。

Nathan Lambert：提到數據版權，Anthropic在2025年輸掉了一場官司，欠了作者15億美元。他們雖然購買了數千本書進行掃描（這是合法的），但也通過種子下載了書籍，正是這種下載行為導致法院判決巨額賠償。

Lex Fridman：這些法庭案件將定義人類文明的未來。你們兩位都是作家，當傾注心血的作品被不加署名地用于訓練時，感覺就像是偷竊。

Sebastian Raschka：正如Nathan所說，這包含兩個層面。一種是購買書籍后訓練的公平性爭議，另一種是三家大公司直接使用盜版書籍且不給補償，后者正是讓人憤怒的癥結所在。我們需要建立某種類似Spotify流媒體模式的補償機制。

Lex Fridman：還有一件事，隨著LLM應用越來越廣泛，GitHub上越來越多的代碼是由LLM生成的。這種情況有多嚴重？

Nathan Lambert：這是不可避免的。這基本上是由人類進行篩選的LLM生成數據。

Sebastian Raschka：我有一個名為mlxtend的倉庫，是學生時代開發的，主要用于頻繁項集數據挖掘。最近有人在極短時間內提交了大量PR（拉取請求），我確信這是LLM生成的。作為維護者，我感到有些應接不暇，因為沒時間仔細審核。但同時我也表示贊賞，因為這畢竟經過了人類的驗證，類似于RLHF中的數據標注過程。

Lex Fridman：感覺原始的LLM生成數據與有人類參與（human in the loop）驗證的數據之間存在本質區別。

Sebastian Raschka：是的，即便只有一小部分經過驗證，也是有價值的。這就像專家使用LLM編寫代碼并剔除糟糕部分，這種經過“預消化”的信息能節省大家的時間。與其我自己花幾個小時去閱讀并可能產生誤解，不如獲取一份經過專家篩選的執行摘要。

Lex Fridman：這就很有意思了。我觀察到基于LLM的摘要往往會磨平原始內容的棱角，這是否意味著信號的丟失？

Nathan Lambert：這就是我常說的“聲音（Voice）”。我在寫作時嘗試將研究者認知的感性直覺轉化為文字，這種粗放但高信息量的風格正是研究的本質。然而，經過RLHF訓練的模型旨在收集大量人類反饋并取平均值，這種過濾器導致模型難以表現得犀利，無法提取核心洞察。這已成為RLHF研究中的基礎性難題：它雖然提升了性能，但也扼殺了深層表達。

這也是非常可怕的，因為有數百萬人正在使用這些產品。去年GPT-4o發布時，用戶甚至因為察覺到模型微小的變化而發郵件投訴，就像電影《Her》一樣，人們對模型產生了情感依賴。

Lex Fridman：但這同時也帶來了風險。如果人們因抑郁或有自殺傾向而向LLM傾訴，記者可能會報道將自殺事件與LLM聯系起來。這會導致公司出于法律考量進一步削弱模型的鋒芒，使其變得盡可能平庸。

Nathan Lambert：確實如此。你既不希望LLM對人類造成傷害，又希望它能進行豐富、有挑戰性的對話，這對于RLHF研究人員來說是極難平衡的。Anthropic和OpenAI的研究人員在文化上都希望通過技術造福世界。但這確實是一種心理煎熬：一方面，這項技術可能成為推向極端、導致某人崩潰的誘因；另一方面，它也可能挽救其他人的生命。這需要極強的信念感，將其視為一個必須解決的艱巨難題來對待。

Lex Fridman：我們作為一個社會，作為技術用戶，必須確保關于AI的對話深入且復雜，而不是僅僅散布恐懼。比如指責科技巨頭正在傷害人類或竊取數據，情況其實要比這復雜得多。這些公司內部有很多好人，其中很多你也認識，他們真誠地想幫助他人。他們不僅考慮硅谷，也在考慮全世界不同背景人們的需求。要設計一個能服務所有年齡層、文化背景和心理狀態的人的單一系統，確實非常困難。

Nathan Lambert：我希望AI出現的時機能有所不同，避開目前科技巨頭與普通人之間的這種緊張關系。現在看來，AI不可避免地成了大公司的游戲，因為投入實在太昂貴了。人們常說美國正將經濟押注在AI上，這使得溝通環境變得異常艱難。但我很喜歡你提到的“自主性”。與其因為討厭科技巨頭而拒絕AI，甚至被動消費互聯網上泛濫的AI垃圾內容，不如通過使用AI進行構建來獲得主動權。建立直覺，理解它的運作機制和弱點，這是一種賦能。這樣你就能更有底氣地評價：“這是對技術的錯誤使用”或“這是良好的應用”。作為深度融入系統的一員，你能比普通消費者更好地引導它。

Sebastian Raschka：我覺得你提到的“自主性”這一點很好。與其忽視它，不如思考如何利用它提升自我。不過我也擔心，如果你完全用AI做你熱愛的事情，那份熱愛會不會消失？這可能會導致職業倦怠。舉個例子，如果我用LLM幫我完成所有的編碼工作，編碼過程本身就不存在了。我只是在管理一個幫我寫代碼的東西。假設兩年后，我每天八小時都只是在指揮AI編碼，我還會感到充實嗎？這是否會削弱我對工作的熱情，以及親手構建事物的自豪感？

Lex Fridman：關于享受工作這點很有趣。最近有一項針對791名專業開發者的調查，“專業”指的是擁有10年以上經驗的人。結果顯示，無論是初級還是高級開發者，都在交付的代碼中使用了AI生成的內容。更有趣的是，在那些超過50%代碼由AI生成的案例中，高級開發者占比更高。至于這是否會奪走熱愛，大約80%的人表示，將AI作為工作的一部分讓他們感到更有趣，甚至樂趣顯著增加。

Sebastian Raschka：我認為這取決于具體任務。比如調整網站細節這種瑣事我并不喜歡，如果AI能代勞，我完全支持。但在解決復雜問題、追蹤并修復Bug時，那種成就感是無與倫比的。如果直接問LLM，你就失去了這種樂趣。或許折中方案是先自己嘗試，卡住后再用LLM。正如你提到的例子，處理那種需要修復幾百個鏈接的枯燥工作，AI能消除挫敗感，表現非常出色。

Lex Fridman：對我來說，編程的樂趣很大一部分在于代碼本身。你說調試是一種樂趣，我會說調試就像在沙漠跋涉數日后終于喝到一口水。你是跳過了在沙漠受苦的部分。如果有結對編程的伙伴，即便他不能直接找到Bug，但他提供的直覺能陪你一起走出沙漠。這也反映了編程過程中的孤獨感，而AI能扮演這個伙伴的角色。

Sebastian Raschka：這可能也與延遲滿足有關。就像小時候期待圣誕禮物往往比真正收到時更快樂，或者餓的時候吃飯更香。調試雖然令人沮喪，但解決后的感覺很棒。這里存在一個“金發姑娘原則”般的適度區間：太難是浪費時間，太容易則學不到東西。資深開發者使用AI生成的代碼更多，可能是因為他們知道如何高效使用并審查代碼。未來的問題是，如果從未親手從頭做起，初學者如何成為專家？如果不經歷掙扎，就難以建立深刻的思維框架。也許我們需要每天專門抽出時間進行不依賴AI的深度學習，而不是把所有事情都交給LLM。

8、Post-training 詳解：LLMs領域令人興奮的新研究方向

Lex Fridman：這確實是我們需要尋找的平衡點。現在讓我們回到編程語境。剛才我們聊了預訓練和中期訓練，現在談談后訓練（post-training）。在這個階段有哪些有趣的思路？

Nathan Lambert：2025年最大的突破是學習帶有可驗證獎勵的強化學習（RLVR）。通過大量擴展“生成-評分”的迭代循環，模型能學習工具調用和復雜的軟件行為。這種訓練方式完美結合了推理時擴展（inference time scaling），徹底改變了人們處理后訓練的方式。

Lex Fridman：你能解釋一下由DeepSeek R1推廣的RLVR的工作原理嗎？

Nathan Lambert：有趣的是，RLVR這個術語源自我們在DeepSeek之前的Tulu 3研究。學術界往往擁有定義術語的話語權，因為封閉實驗室透露的信息有限。DeepSeek實現了訓練突破，擴展了強化學習的應用：讓模型生成答案，根據正確率評分，這個準確率就是獎勵。傳統RL是在環境中最大化獎勵，而在語言模型中，獎勵通常是數學或編程任務的準確率。現在這種可驗證的邊界正擴展到事實核查或特定格式約束。其核心是找到更多可驗證的問題讓模型嘗試。基礎設施已從基于人類偏好的RLHF演變為針對客觀結果的優化，這開啟了模型能力的重大變革。

Lex Fridman：RLVR適用于哪些領域？

Nathan Lambert：最著名的是數學和代碼。此外還有基于“評分細則”（rubrics）的方法，即“LLM作為裁判”：用另一個模型根據準則給生成的回答打分。雖然不如數學那樣絕對可驗證，但這種思路正被推向更開放的科學問題領域。

Sebastian Raschka：回到RLVR，我覺得美妙之處在于，當你給LLM一個已知答案的數學題并讓它求解時，即便不加太多約束，它也會像學生或數學家一樣展示推導步驟。這些步驟不僅提高了準確性，還體現了“推理擴展”，即通過消耗更多Token（思考更久）來換取更好的結果。R1論文中提到了“頓悟時刻”，即模型意識到錯誤并自我修正，表現得就像人類一樣，這非常有意思，也能建立用戶對模型的信任。

今年關于“頓悟時刻”有很多爭論。我認為這在某種程度上是虛假的，因為預訓練數據包含了整個互聯網，模型見過人類自我修正的文本。RLVR實際上是在放大這種有助于“思考”的行為。舉個實際例子，我在Math 500數據集上訓練Qwen 3基座模型，僅用了50個步數，幾分鐘內準確率就從15%飆升到50%。這說明模型并不是在幾分鐘內學會了數學，而是RL解鎖了預訓練中已有的知識。

Nathan Lambert：關于Qwen存在數據污染的爭議很大。比如把題目中的數字改掉但保留文字描述，在不使用工具的情況下，它依然能給出極高精度的答案，這暗示它在訓練時見過測試題。因此，RLVR帶來的迅速提升可能部分歸因于格式化或記憶，而非真正的智力提升。除非我們在模型部署截止日期后建立全新的基準測試，否則很難公平評估。

Lex Fridman：我們能否總結一下后訓練（post-training）的“配方”？除了RLVR，RLHF還有什么作用？

Nathan Lambert：這可以看作是一個序列。首先是中期訓練（mid-training），這是O1等推理模型的核心，需要極高質量的“推理鏈”數據（將問題分解為中間步驟），讓模型學會如何思考。

接下來是針對可驗證獎勵的強化學習（RL with Verifiable Rewards）。隨著模型變強，簡單問題已無法提供足夠的訓練信號（比如GRPO算法在所有答案一致時就沒有信號），所以前沿模型正向科學或復雜軟件等更難的領域進軍，通過大量試錯來提升技能。

最后是人類反饋強化學習（RLHF）。這依然是必不可少的“點睛之筆”，用于調整模型的語氣、風格和格式（比如生成易讀的Markdown列表），使其更實用、更符合人類交互習慣。雖然RLHF也能提升數學表現，但在可驗證領域，RLVR是更直接的路徑。簡而言之：中期訓練賦予技能，RLVR通過試錯深化能力，RLHF負責最后的潤色與交互體驗。

關于RLVR（基于驗證的強化學習）所需的算力消耗，其熱度確實在持續攀升。OpenAI的Greg Brockman曾有一句名言，提到他們在預訓練（Pre-training）和后訓練（Post-training）階段使用了數量相近的算力。但回到關于擴展（Scaling）的討論，這兩個階段涉及非常不同的硬件擴展方式。預訓練是受限于計算能力的（Compute-bound），也就是我們常說的FLOPS（每秒浮點運算次數），即單位時間內能完成多少次矩陣乘法運算。

而在強化學習（RL）階段，你是在生成答案并在真實世界環境中嘗試模型，它最終會變得更加受限于內存（Memory-bound）。因為你在生成長序列，而注意力機制的特性導致內存占用會隨著序列變長呈二次方增長。因此，計算方式變得非常不同。如果在后訓練階段使用FLOPS這個指標，情況會變得很奇怪，現實情況更應該看你分配了多少GPU小時。

我認為RL的運行天數正在接近預訓練的天數，但可能沒有同時使用那么多GPU。預訓練的計算密度極高，所有GPU都在高效通信；而RL包含各種動態環節，生成一個10萬Token的序列可能需要很長時間。比如考慮到GPT-5級別模型的推理可能需要運行一個小時，如果你有一個小時長的訓練樣本，必須設法高效處理它。所以從GPU小時數或實際時長來看，RL的規模正在趕上，但人們不想像GPT-4那樣把所有雞蛋放在同一個籃子里進行一次性的超大規模訓練，現在的開發更傾向于漸進式。

Sebastian Raschka：RLVR在訓練時長或收益獲取方面更具無限潛力，而RLHF（基于人類反饋的強化學習）本質上是一種偏好微調，達到某個點后，再投入更多資源意義不大。對于同一個問題，不同人有不同的偏好（比如有人買電腦看重電池，有人看重算力），RLHF試圖找到一種“平均”的風格。一旦模型學會了這種風格，繼續訓練就沒有意義了。而RLVR是讓模型解決越來越復雜的問題，因此長期來看，將更多預算分配給RL更為合理。

Nathan Lambert：目前我們正處于RL 1.0階段，即只關注“問題”和“答案”，沒有處理中間過程。未來的重點將是過程獎勵模型（Process Reward Models），即對推理過程中的每一個中間步驟進行評分，這可以稱為RLVR 2.0。Google的相關論文和DeepSeek Math V2都展示了能夠自我評分的模型，這將是推理擴展（Inference Scaling）的重要方向。過去在推理模型出現之前，人們嘗試過過程獎勵模型但并未完全證實其有效性，現在隨著o1等推理模型的出現，人們對價值函數（Value Functions）再次感到樂觀。

9、給初學者進入AI開發與研究領域的建議

Lex Fridman：現在我想稍微偏離一下主題，談談教育。如果聽眾是聰明的、對編程和AI感興趣的人，想從零開始構建一些東西，你建議該怎么做？

Sebastian Raschka：我建議先從頭開始實現一個可以在單機上運行的簡單模型。這么做的目的不是為了用它取代ChatGPT或開源權重模型作為日常助手，而是為了確切了解LLM的輸入輸出以及預訓練的運作機制。在自己的電腦上從零構建，能讓你深入理解預訓練、監督微調（SFT）和注意力機制。

隨著模型規模擴大，復雜性會呈指數級增長，比如需要考慮參數分片到多GPU、KV緩存（KV-cache）的各種實現方式。為了理解原理，你不需要一開始就寫最優化的代碼（比如預分配Tensor），雖然這會增加代碼量。這本書（指Sebastian的書）的訣竅在于讓你理解LLM是如何工作的，一旦掌握了這些，你就能理解生產級的LLM。我構建的大多數模型，包括混合專家模型（MoE），目標都是能在單張GPU上運行。

這幾乎就像RLVR一樣，你可以進行自我驗證。當你從零編寫代碼時，可以參考Hugging Face的Transformers庫，但我認為那里不是學習LLM原理的最佳起點。Transformers庫為了兼容成百上千種模型和生產環境，代碼極其復雜且交織在一起，閱讀體驗不是線性的。我的建議是“逆向工程”：去查看模型倉庫中的配置文件（Config），了解它用了多少層、是分組查詢注意力（GQA）還是多頭注意力。然后嘗試從你的基礎模型（比如GPT-2）開始，把這些組件加進去，加載預訓練權重，看看能否得到相同的輸出。這能作為一種可驗證的獎勵，確保你的架構正確。比如我曾花了一天時間處理Llama 3，挑戰在于位置嵌入的RoPE和YaRN擴展，在這個掙扎的過程中你會逐漸真正理解它。

Nathan Lambert：我非常贊同。每一位對當今AI領域感興趣的人都應該這樣做。我是從強化學習和機器人領域轉到語言模型的，我必須花時間補習Transformer架構這些極其基礎的東西。掌握基礎后，很多人會感到迷茫，不知道如何產生影響力或找到職業路徑。因為AI語言模型讓基礎知識變得易于獲取，問題變成了“我該如何獲得參與研究的機會？”

對此我相當樂觀。這個領域發展太快，很多頂尖人才會轉向解決更大、更唾手可得的難題，從而留下許多細分領域。我的建議是，在掌握基礎后，深入研究一個細分領域。比如我最近對“性格訓練”產生了濃厚興趣，如何通過調整數據讓模型變得幽默、諷刺或嚴肅。曾有一位牛津大學的博士生聯系我，我對他說這很有趣，現在他已經發布了相關論文。在這個充滿噪音的領域，如果你能深耕某個看似冷門或無人解答的細分問題（比如閱讀三篇論文并深入理解），你會發現很多有趣的東西值得學習。

Sebastian Raschka：是的，試圖面面俱到會讓人精疲力竭。說回你的書（指Nathan正在編寫的RLHF相關書籍），我認為它性價比極高。如果想學RLHF，直接讀論文可能會浪費兩年時間，因為很多觀點相互矛盾。

Nathan Lambert：沒錯，我剛編輯完那本書。書中的章節涵蓋了后訓練的大局觀：從偏好數據、獎勵建模、正則化、指令微調、拒絕采樣到強化學習、憲法AI（Constitutional AI）、合成數據等。RLHF的核心難點在于“偏好”是多么的雜亂。我們在書中有一章專門討論了為什么RLHF永遠無法被完全解決，因為從根本上講，它試圖將多維度的偏好（如準確性與風格）壓縮為單一數值，這涉及經濟學中的馮·諾依曼-摩根斯坦效用定理和社會選擇理論。

我認為對數學感興趣的人會在這里發現很多樂趣。比如在第14章，我列出了所有我喜歡的推理模型技術報告。現在的語言模型非常擅長數學，比如DPO（直接偏好優化）這篇著名論文，它的推導過程省略了一些數學步驟。我為了寫書嘗試重新推導時非常痛苦，心想“這個對數技巧（log trick）到底是什么鬼？”雖然現在的模型可以直接告訴你答案，但我認為經歷這種推導的掙扎對學習是有好處的。

Lex Fridman：你們都提到了“掙扎”這一點。這非常有價值，如果學習過程中沒有感到掙扎，說明你沒有遵循正確的學習流程。

Nathan Lambert：現在一些提供商開始研發教育專用模型，設計初衷就是不直接給出所有信息，而是讓人們為此付出努力。這就像玩解謎游戲（如塞爾達傳說）卡關時，你只想要一個提示而不是劇透。你可以對模型說：“我算到這一步卡住了，不要直接給我答案，告訴我下一步該嘗試什么思路。”這需要自律，但也正是培養研究品味和長期眼光的方式。我們需要知道在哪些事情上磨煉，在哪些事情上不必糾結，這很難判斷，但必須培養這種品味。

我之前可能在和未婚妻或朋友聊這事，感覺就像存在一個短暫的10年窗口期，期間所有的作業和考試都實現了數字化。但在那之前，每個人都必須在答題本上完成所有考試，因為當時別無他法。而現在有了AI，每個人似乎又要回歸紙筆考試和口試了，因為作弊變得太容易。感覺這短暫的一代人經歷了一個完全不同的教育系統，一切雖已數字化卻依然能防止作弊，但現在一切又要倒退回去了，這真的很有趣。

Lex Fridman：你剛才提到了角色訓練，讓我們放大到更宏觀的話題。就這個領域而言，需要多少算力支持？總的來說，作為一名研究人員，是否有一些不需要太多算力，且個人也能真正做出貢獻的領域？

Nathan Lambert：僅就字符訓練而言，這項研究通常是基于微調（fine-tuning）的。比如在7B參數模型上使用LoRA技術，本質上你只微調了模型權重的一個很小的子集。雖然我不確定具體需要消耗多少GPU小時，但這種做法是完全可行的。

但這并非對所有學者都可行。有些學者的處境非常艱難，唯一能做的就是進行推理工作，無論是使用閉源模型還是開放權重模型。你可以獲取它們的補全結果，通過觀察這些結果來進行研究和理解模型。這非常適合評估工作。如果你渴望成為那個最擅長設計題目、能展示模型在何處失敗或具備何種能力的人，我認為你可以通過這種方式取得突破。

對于從事評估工作的研究人員來說，最高目標可能就是去Frontier Labs（前沿實驗室）。你不需要讓每個項目都達到那個高度，但如果你來自一所沒有算力的小型大學，卻發現了一些Claude難以處理的問題，而下一代Claude模型在博客文章中專門提到了這點，那就是你職業生涯的“火箭時刻”。這很難，但如果你想用最小的算力實現最大可能的影響力，就需要變得非常專注，并了解模型的發展方向。比如，構建一個工具來測試Claude 4.5不會失敗的地方。如果要啟動一個研究項目，我需要思考八個月后的模型會在哪些方面遇到困難。

Lex Fridman：但是開發完全新穎的想法呢？

Nathan Lambert：這是一個權衡。如果你在讀博士，你也可以認為研究語言模型的風險太大了，從而決定關注更長遠的東西，思考什么將在10年后定義語言模型的發展。

我認為我最終成為了一個相當務實的人。當年我去讀博士時心想：“我考進了Berkeley，最壞的情況也就是拿個碩士學位，然后去科技行業工作。”如今回看，在這些AI公司工作給人們帶來的生活變化是巨大的。比如OpenAI員工的平均薪酬僅股票部分每年就超過100萬美元。在美國，任何普通人只要能進入這類AI實驗室，人生都會發生翻天覆地的變化。

所以我非常務實地認為，如果你足夠專注，在語言模型領域工作仍然有很大的上升空間，看看這些職位的產出就知道了。但從研究角度來看，如果你的目標是獲得學術獎項，想成為下一個Yann LeCun，那就不應該太在意語言模型當前的具體發展，因為這在經濟上是一個巨大的犧牲。

我有機會和一些非常優秀的學生一起工作，他們會問：“我應該去AI實驗室工作嗎？”我會說：“你正在頂尖學府攻讀博士學位，你打算離開去實驗室嗎？”我的反應通常是“我不知道”。如果你是去頂尖實驗室工作，我不怪你；別去那些可能歸零的隨機創業公司。但如果你是去OpenAI，我覺得那確實值得為了它放棄博士學位。

Lex Fridman：讓我們更嚴謹地思考一下，你會建議人們在哪里做出研究貢獻？選項包括：留在學術界花五年時間讀博士發論文；去那些計算資源受限但專注于開放權重模型的研究實驗室；或者是去閉源的前沿實驗室，比如OpenAI、Anthropic、xAI等等。

Nathan Lambert：這兩個方向的梯度是：環境越封閉，你往往能拿到的錢越多，但獲得的個人認可越少。作為一名學者，建立個人作品集是非常清晰的，你完成了什么一目了然。而去企業就像達成了一項合理的交易，你在這個進階過程中成為大機器中的一顆螺絲釘，但這也可以非常有趣。這是非常不同的職業路徑。

成為一名研究員的機會成本非常高，因為博士生的薪水微乎其微。我認為這最終會獎勵那些擁有穩定安全網的人，他們意識到自己可以在長期內運作，想要從事有趣的工作。處于這種位置是相當優越的，可以說“我要讀完PhD再去解決之后的事情”。與此同時，學術生態系統正遭受資金方面的沉重打擊，撥款被削減。這里存在太多的權衡取舍，我能理解很多人因為無法應對資金搜尋的壓力或未來的不確定性，而傾向于選擇那份薪水豐厚且具有重大影響力的工作。在OpenAI并不是拿薪水閑坐，你正在構建最前沿的東西，這些東西正在改變數以百萬計的人與技術的關系。

Lex Fridman：但在論文發表方面，這些公司變得越來越保守，趨勢日益明顯。所以你發表的東西越來越少，雖然在大范圍內產生積極影響，但你只是機器上的一個齒輪。

Sebastian Raschka：老實說，我覺得情況并沒有改變那么多。我曾在學術界工作，當時我與合作者將機器學習方法應用于計算生物學領域，很多人也是直接從學術界去了Google。那時教授們會對學生進入工業界感到難過，因為學生無法繼承他們的衣缽。現在唯一的區別在于規模。以前這是一個封閉的行業，你無法談論它。現在的區別在于你的偏好：你是喜歡談論你的工作、發表成果，還是更傾向于待在一個封閉的實驗室里？當然還有薪酬的差別。

目前唯一不同的是有了第三種選擇：創辦初創公司。這是非常冒險的舉動，屬于高風險高回報。而加入工業界實驗室則相當穩妥，且有晉升空間，一旦有過這種經歷，未來找工作也會更容易。這取決于你有多享受團隊合作以及開發專有技術，相比之下你有多喜歡發表論文。發表論文壓力很大，會議錄用率具有隨機性，可能讓人沮喪，但如果發表了，那種署名的成就感是很高的。

Nathan Lambert：我覺得我那些當教授的朋友平均來看似乎比在公司工作的朋友更快樂。前沿實驗室絕對在實行“996”工作制，這基本上就是“一直工作”的代名詞。

10、AI行業的職場文化

Lex Fridman：你能描述一下996這種文化嗎？

Sebastian Raschka：就是早上9點工作到晚上9點，每周六天，總共72小時。這種拼命工作的心態在硅谷AI公司里越來越普遍。

也許不完全是那樣，但確實有這種趨勢。這很有趣，我覺得情況幾乎反轉了。當我在學術界時，作為教授必須寫撥款申請、教課、做研究，這簡直是三份工作合而為一，想成功就絕不僅是一份全職工作。相比之下，教授們現在的壓力或工作量甚至可能比前沿實驗室還要小。

我覺得教授們工作非常努力，只是感到非常充實。通過與學生一起工作，擁有持續的導師制路徑和以人為本的使命，在一個發展極快且混亂的時代，這種成就感很重要。而在初創公司，壓力在于必須成功。大家投入時間確實非常重要，雖然辛苦，但必須不斷交付成果。我待過初創公司，雖然愉快，但那種節奏我不確定是否還能再經歷一次。正如我們一開始討論的，模型正在互相超越，競爭非常殘酷。

Nathan Lambert：這種互相超越的特性以及多方參與，實際上是語言建模進程中一個被低估的驅動因素。競爭深深植根于人心，這些公司有意創造了強勢的企業文化。比如Anthropic以其高度專注和嚴密組織的文化聞名，大家非常齊心協力。置身于這種凝聚力極強的競爭態勢中，絕對會讓你努力工作并創造出更好的東西。但這以人力資本為代價，人們肯定會感到職業倦怠。我自己也曾深陷其中，尤其是嘗試在擔任管理者的同時還要全身心投入模型訓練。

Sebastian Raschka：我作為學者或獨立工作者時也會過度工作，這很不健康，我曾因此有過背部和頸部問題，但這并不是因為有人強迫我，而是因為事情太令人興奮了。OpenAI和Anthropic的氛圍也是這樣，他們渴望做這些工作。

11、硅谷泡沫

Lex Fridman：是的，但同時也有一種正在積聚的狂熱感，特別是在硅谷。這種狂熱與“規模定律”（Scaling Laws）的理念相契合，認為世界將在幾周內發生翻天覆地的變化，大家都希望處于變革的中心。我有幸能觀察到各處存在的泡沫和信息繭房。硅谷某種程度上就是一個回音壁和孤島。這種泡沫實際上非常有用且有效，因為它能帶來極高的效率，類似于史蒂夫·喬布斯的“現實扭曲場”，通過互相說服突破近在咫尺，從而讓突破真的發生。

Burn Hobart寫過一本對泡沫分類的書，提到一種是金融泡沫（投機），另一種則是建設性泡沫。AI正處于建設性階段，但我擔心它會轉變為金融泡沫。而且如果你在偏離現實的同時進行996工作，可能會錯過人類體驗中最基本的方面。這是硅谷的一個普遍問題，作為一個特定地理區域，可能無法理解中西部地區乃至全世界其他人類的完整體驗。這種與現實脫節可能會讓你陷入麻煩。

Lex Fridman：我甚至不太理解，但舊金山的AI圈已經演變出了“永久底層階級”這種梗。其中一個觀點是，2025年的最后六個月是建立具有持久價值的AI初創公司或模型的唯一時機，否則所有價值都將被現有公司攫取，你將因此陷入貧困。

Nathan Lambert：這就是舊金山那種走極端的例子。我仍然認為，對于能接觸到資源的年輕人，如果你熱衷于在AI領域產生影響力，舊金山是最可能實現目標的地方，但也有權衡。

Lex Fridman：舊金山是一個不可思議的地方，但確實存在泡沫。進入泡沫固然有價值，但也請記得走出來。去讀讀歷史書、文學作品，去世界其他地方看看。Twitter和Substack并不是整個世界。

Nathan Lambert：我的一位同事準備搬到舊金山，我得送他一本《Season of the Witch》，這是一本講述舊金山1960年到1985年歷史的書。書中詳細描述了嬉皮士革命、同性戀群體如何接管城市及文化的興起，還有后來的HIV/AIDS危機。舊金山經歷了如此多的動蕩和傷痛，同時也充滿了愛。這感覺就像發生在不久前，那是一本很棒的書。

12、文本擴散模型（Text diffusion models）及其他新研究方向

Lex Fridman：好的，我們談了很多過去一年的事。但在今年，你們提到的一個令人興奮點是文本擴散模型（Text Diffusion Models）的規模化，以及對文本擴散的不同探索。能談談那是什么，以及它蘊含著怎樣的可能性嗎？是與目前的語言模型（LM）不同的方法嗎？

Sebastian Raschka：是的。我們討論了很多關于Transformer架構和自回歸Transformer的內容（如GPT）。這并不意味著沒人在研究其他東西，不把雞蛋放在同一個籃子里總是個好主意。目前Transformer架構是主流且效果最好，但人們正在開發自回歸Transformer的替代方案，其中之一就是文本擴散模型。

聽眾可能通過Stable Diffusion了解了圖像生成中的擴散模型。在生成圖像領域，人們曾使用GAN（生成對抗網絡），后來出現了擴散過程，通過隨時間迭代地對圖像進行去噪，產生了高質量圖像。現在人們想：“能不能把這種方法用于文本？”

這在直覺上不太好理解，因為文本是離散的，不像像素那樣是可微分的連續事物。這有點類似于Google的BERT模型。在原始Transformer中，有編碼器（Encoder）和解碼器（Decoder）。GPT使用的是解碼器，采用自回歸方式一次生成一個Token來完成句子。而在BERT（編碼器）中，你有一段帶有缺口（Mask）的文本，通過一次迭代來填補這些缺口。

文本擴散與之類似，你從一段隨機文本開始，通過多次迭代不斷填補和完善缺失部分。最酷的一點是，它可以同時處理多個Token，實現了并行化，從而帶來更高效率的承諾。當然權衡在于質量。現在有了“去噪過程”這個維度，執行步驟越多，文本質量越好。

目前有一些論文表明，如果想獲得與自回歸模型相同的質量，必須增加去噪步數，最終消耗的算力可能是一樣的。另一個缺點是，有些任務如推理或工具調用并不是并行的，這對于擴散模型來說有點棘手。Google提到正在推出Gemini Diffusion并整合到Nano2環境中，聲稱在大多數基準測試中，以相同質量可以更快地生成內容。我不認為文本擴散模型會取代自回歸大語言模型，但它可能用于快速、廉價且大規模的任務。

Nathan Lambert：我覺得有幾個例子表明它已經開始被投入使用了。舉個例子，GPT-5可能需要30分鐘才能做出響應，因為它是一次生成一個Token。而擴散思路本質上是在一個批次中生成所有補全內容，所以快得多。

我聽說的初創公司，比如做代碼的，有人在進行所謂的“氛圍編程”（vibe coding），他們對模型說“做這個修改”。代碼差異（code diff）本質上不需要模型給出包含大量外部上下文的詳盡回復。通過使用擴散模型，可以非常快速地獲取結果。對于面向用戶的產品，如果使用自回歸模型生成非常長的代碼差異可能需要幾分鐘，這會導致用戶流失。

所以它會不斷成長并產生應用。但我原以為不同類型的模型會比現在更早被用于不同場景。目前的阻礙在于“工具調用”（tool use）。例如ChatGPT在使用Cloud Code時，自回歸鏈會被外部工具中斷，我不知道在擴散模型設置下該如何實現這一點。

13、工具調用

Lex Fridman：今年以及未來幾年，工具調用（tool use）的前景如何？你認為這方面會有怎樣的發展，以及它是如何集成到整個技術棧中的？

Sebastian Raschka：我認為這方面會有巨大的發展。目前主要集中在閉源的專有LLM上，但我認為我們會看到更多開源工具的涌現。這是一個巨大的突破，因為這意味著你可以將某些單純依靠記憶的任務外包給工具。這就像如果你要算23加5，不需要讓LLM去死記硬背，直接調用計算器即可。

Lex Fridman：你認為這能幫助減少幻覺問題嗎？

Sebastian Raschka：不是徹底解決，但能減少。LLM仍然需要判斷何時調用工具。但這并不意味著互聯網上的信息總是正確的。比如我問誰贏得了1998年世界杯，模型仍然需要找到正確的網站并獲取正確的信息。如果訪問了錯誤的網站，依然會給出錯誤信息。所以它不會完全解決那個問題，但確實有所改進。

今年早些時候，或者說是去年年底，有一篇關于遞歸語言模型（recursive language model）的論文提出了很有趣的觀點。正如Nathan剛才提到的，學術界受限于算力預算，做前沿研究很難。那篇論文的作者甚至沒有使用本地模型，而是全部用GPT-5（注：此處可能指代當時的SOTA模型如GPT-4等）完成的。其核心理念是：對于非長上下文任務，與其讓LLM試圖一站式解決所有問題，不如將其分解為子任務。由LLM決定什么是合適的子任務，然后遞歸地調用自身來解決。這種方式配合工具調用，比如在一個龐大的問答任務中，針對每個子問題去網上搜集信息，最后再匯總縫合。這種在不改變LLM本身的情況下改進其使用方式和資源調用能力的模式，會帶來很多突破。

目前工具調用的一個缺點是必須賦予LLM權限，這需要極大的信任。如果要解鎖讓LLM回復郵件，或者僅僅是分類篩選郵件的功能，這都伴隨著巨大的風險。我不知道今天我是否敢給LLM訪問我郵件的權限。

Nathan Lambert：關于工具調用還有一點很有趣，那就是開源模型與閉源模型在使用工具的方式上截然不同。對于開源模型，用戶從Hugging Face下載模型后，會根據自己的偏好選擇工具，比如有人喜歡Xa作為搜索提供商，有人喜歡另一家初創公司。這就要求發布模型時，必須將其打造為通用的推理引擎，使其能適應多種工具和用例，這正是GPT-OSS擅長的地方。

相比之下，閉源模型是將特定的工具深度集成到體驗中。我很難用閉源模型復制一些我喜歡的操作，比如嘗試通過提示詞讓模型像使用Codex那樣直接更新我的GitHub倉庫。那種安全的云環境非常適合將任務發送出去執行并返回結果。最初因為大家急于實現工具調用功能，導致開源模型處于劣勢，這在某種程度上是不可避免的。前沿實驗室擁有海量資源，但當開源模型解決這個問題時，情況會變得很有趣，因為這將需要一種更靈活的模型來配合這種遞歸模式工作，充當編排器和工具調用者的角色。

14、持續學習

Lex Fridman：持續學習（continual learning）是一個長期存在的課題，隨著模型訓練成本的上升，其重要性也在增加。你能解釋一下什么是持續學習，以及在未來幾年中，它對于技術進步有多重要嗎？

Nathan Lambert：這很大程度上與舊金山關于AGI（通用人工智能）和ASI（人工超智能）的時代精神有關。現在的語言模型雖然能解決很多任務，但在AI社區看來，關鍵的里程碑是AI能夠像遠程員工一樣，接收信息、執行數字化任務。目前的局限性在于，語言模型無法像員工那樣從反饋中學習。如果你雇傭一名編輯，他犯錯后你會指正，優秀的編輯不會再犯同樣的錯誤。但語言模型不具備這種自我修正和快速學習的能力。如果我們想實現真正的、通用的、適應性強的智能，它必須能夠從反饋和在職學習中快速提升。

我個人更看好通過提供極佳的Context（上下文）來解決問題。你可以向模型提供海量文檔，告訴它這是你所有的博客文章、寫作風格和語調。雖然以前的模型不支持這么大的上下文，但現在智能體模型（agentic models）才剛剛起步。這就帶來了一個權衡：我們是否真的需要通過持續學習來更新模型的權重？還是只需要提供更多的上下文信息，讓它們憑借高智能和豐富的信息表現出類似快速學習的效果？

Sebastian Raschka：我們需要厘清這里的術語。持續學習（continual learning）是指持續、快速且頻繁地改變權重，以便模型能夠根據新傳入的信息進行適配。而另一面通常被稱為上下文學習（in-context learning），即利用巨大的上下文窗口，每次提示系統時不斷加載額外信息。這兩者都可以被視為學習，只是發生的場所不同。

老實說，我認為不同形式的持續學習（即權重更新）已經存在了。如果是指全球范圍內的模型更新，比如從GPT-5演進到5.1、5.2，這本質上就是一種包含反饋（針對失敗任務或社區反饋）的精選更新。更細粒度的例子像RLVR，運行后會更新。

真正的問題在于個性化定制。為每個人更新權重的成本太高了，即使以OpenAI的規模也無法負擔這種數據中心級別的開銷。我認為只有當這種運算在設備端運行且成本由消費者承擔時才可行，就像Apple嘗試將基礎模型放在手機上并從經驗中學習那樣。

Lex Fridman：這引出了另一個相關話題——“記憶”，這可能是一個擬人化的術語。隨著系統閱歷的增加，關于如何為這些系統增加記憶機制，尤其是個性化記憶，有哪些不同的想法？

Sebastian Raschka：目前主流的做法還是“上下文填充”，即把東西塞進上下文里然后通過檢索召回。但這非常昂貴，因為需要消耗Token，且能力有限。這更多像是一種風格偏好，比如告訴模型“按照我上次喜歡的去做”，但并不能解鎖新能力。

另一種方法是使用LoRA適配器。這種方式不更新整個權重矩陣，而是并行或疊加兩個較小的權重矩陣。但這歸根結底是經濟學問題。有論文指出，LoRA學到的東西較少，但遺忘的也較少。天下沒有免費的午餐，如果你想學得更多，就需要動用更多權重，成本也會隨之升高。而且學得越多，遺忘的也越多，必須找到那個適中的平衡點。

15、長上下文

Lex Fridman：雖然我們沒明說，但討論中隱含了上下文長度（context length）這一因素。這方面是否還有很多創新的空間？

Nathan Lambert：目前的共識是這主要取決于算力和數據。架構上的一些微調，比如混合注意力模型（hybrid attention models），本質上是在Transformer中加入類似狀態空間模型（SSM）的結構，在建模時消耗的算力更少。但這也需要大量算力和正確的數據支持。世界上并沒有那么多高質量的10萬Token序列數據。

我認為擴展規模最終會變得非常昂貴。雖然我們已經很快達到了100萬Token的水平，預計今年可能會達到200萬或500萬，但我不認為會很快達到1億級別，那將是真正的突破。遞歸語言模型那篇論文就是試圖解決長上下文問題的嘗試之一。與其將所有內容塞進長上下文，不如將其分解為多個更小的任務，這樣不僅節省內存，甚至能獲得比一次性處理更高的準確率。

關于預訓練有一些經驗法則。以OLMo為例，我們在大約8K的上下文長度下預訓練，然后擴展到32K。通常當你將訓練上下文長度翻倍時，會消耗大約2倍的算力。這在很大程度上受限于預訓練階段的算力瓶頸。

但在后訓練（post-training）方面，隨著智能體（agents）的發展，情況會更有趣。智能體將自行管理上下文。現在很多用Claude寫代碼的人擔心“壓縮”（compaction）問題，即模型將10萬Token的內容壓縮成要點列表會丟失細節。但我確信下一代模型將能夠控制何時以及如何進行壓縮。你可以訓練RL算法，將壓縮視為一種動作，目標是在將歷史記錄壓縮到最短的同時，保持最高的任務評估分數。這意味著模型學會了以一種不同于以往只會“一路向前”的方式來利用上下文。

Sebastian Raschka：最近DeepSeek V3（或類似版本）采用的稀疏注意力機制（sparse attention mechanism）也是一個有趣的例子。它擁有高效輕量的索引器，不再關注所有Token，而是只選擇需要的Token。這幾乎回到了Attention最初的理念——具有選擇性，甚至直接掩蓋掉不需要處理的部分。OLMo的滑動窗口注意力也是這類思路。

如果使用全部信息，確實最安全且性價比最高，因為不會遺漏信息。但今年將是探索如何變得更“聰明”的一年。大家先通過暴力計算堆出SOTA（最先進水平），一旦達到那個準確度，就開始研究如何通過技巧以更低的成本實現它。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.