<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      林俊旸離職后首發長文:反思千問得失,預判 AI 下半場需要「智能體思維」

      0
      分享至

      帶隊發布 Qwen 3.5 小模型系列、獲馬斯克公開點贊,20 小時后在社交媒體宣告離職。,本身就是 2026 年 AI 行業最戲劇性的一幕。

      32 歲,阿里最年輕的 P10,一手將千問做到全球下載量超 10 億次、衍生模型超 20 萬款,成為全球開源模型的新王。他的離開源于一次組織架構調整的分歧:

      阿里希望將 Qwen 團隊按預訓練、后訓練、視覺、語音等維度水平拆分,與通義實驗室其他團隊合并;

      林俊旸則堅信預訓練、后訓練乃至基礎設施團隊應該更緊密地垂直整合,而非割裂。這不只是管理風格之爭,更是對「怎樣才能訓出最好的模型」這個根本問題的路線分歧。

      離開近一個月后,林俊旸發出了這篇長文。他沒有回應任何人事風波,直接亮出了自己對 AI 下一階段的判斷:我們正在從「訓練模型」的時代,進入「訓練智能體」的時代

      這篇文章之所以值得逐字讀完,不僅因為 林俊旸 在過去兩年親手操刀了 Qwen 全系列的后訓練,而且他還在文中罕見地復盤了 Qwen3 在「混合思考模式」上的得與失。


      以下為 APPSO 對林俊旸的編譯:

      原文

      https://x.com/JustinLin610/status/2037116325210829168

      從「推理式思考」到「智能體式思考」

      過去兩年,徹底改變了我們衡量 AI 模型的方式。

      OpenAI 的 o1 證明了一件事:「思考」可以是模型的核心能力,可以專門訓練出來、直接交到用戶手里。DeepSeek-R1 緊隨其后,證明這種「推理式后訓練」并非大廠專利,可以在原始實驗室之外復現和擴展。用大白話說:o1 是一個被教會了「回答之前先想想」的模型,R1 則是一個開源版的同類選手,跟 o1 打得有來有回。

      那個階段很重要。但 2025 年上半年的行業主旋律,說到底還是在圍繞一件事打轉:怎么讓模型「想」得更多。 讓它在推理階段燒更多算力,用更強的獎勵信號訓練它,暴露或控制那些額外的「思考過程」。

      現在的問題是:然后呢?

      我相信答案是智能體式思考。為了行動而思考,一邊跟真實環境交互,一邊根據世界的反饋不斷修正計劃。

      1. o1 和 R1 的崛起真正教會了我們什么

      第一波推理模型教會我們一個樸素的道理:想在大模型上把強化學習跑起來,你得有靠譜的評分標準。

      什么叫靠譜?就是答案能判對錯、結果能驗證、反饋信號足夠清晰。數學題有標準答案,代碼能跑測試,邏輯推理能驗證步驟。這些領域之所以成了強化學習的主戰場,就是因為在這里,模型收到的獎勵信號遠比「讓人類標注員覺得這個回答還不錯」強得多。換句話說,強化學習終于能優化正確性,終于不用只追求看著像那么回事了。

      然后,基礎設施的重要性一下子凸顯出來了。

      一旦你開始訓練模型進行更長的推理鏈條,強化學習就不再是在監督微調上面加個小配件那么簡單了,它變成了一個重工業級的系統工程。你需要大規模的模擬推演(rollout)、高吞吐量的答案驗證、穩定的策略迭代、高效的采樣流程。推理模型的誕生,表面看是算法突破,底下看是基礎設施的勝利

      OpenAI 把 o1 定義為用強化學習訓練的推理產品線;DeepSeek R1 接棒驗證了同一方向,同時也展示了推理式強化學習對底層算法和基礎設施的要求有多高。

      APPSO 劃重點:第一次大轉折發生了。行業焦點從「擴展預訓練」轉向「擴展面向推理的后訓練」。模型變強靠的不再是吃更多數據,靠的是在訓練后階段學會「怎么想」。

      2. 真正的難題從來不只是「融合思考和指令模式」

      2025 年初,我們 Qwen 團隊心里有一張很大的藍圖。

      理想中的系統長這樣:一個模型同時搞定「思考」和「執行」兩種模式。你可以手動調節它思考的深度,輕度、中度、深度,就像調空調溫度一樣。更理想的情況是,模型自己就能判斷:這道題簡單,直接答;這道題有點難,多想想;這道題極難,調動全部算力來啃。

      方向是對的。Qwen3 是當時最清晰的公開嘗試之一。 它引入了「混合思考模式」,一個模型家族里同時支持「想了再答」和「直接答」兩種行為,還描述了一條四階段后訓練流水線,其中明確包含了在長鏈推理冷啟動和推理強化學習之后的「思考模式融合」步驟。

      但融合這件事,說起來一句話,做起來要人命

      難在哪?難在數據。

      很多人一聽「融合思考和指令模式」,腦子里想的都是模型層面的事:一個模型文件能不能同時跑兩種模式?一套對話模板能不能在兩種風格之間切換?一個推理服務能不能暴露正確的開關?這些確實要解決,但都不是最深的坑。

      最深的坑是:兩種模式想要的東西,從根兒上就不一樣

      你想想,一個好的「指令模型」該長什么樣?干脆、簡潔、格式規范、響應快。企業用戶拿它來批量改寫文本、打標簽、做模板化客服、結構化數據提取,這些場景要的是效率和穩定,不需要深思熟慮。

      一個好的「思考模型」呢?恰恰相反。它該在難題上多花時間、維持清晰的推理中間步驟、探索不同的解題路徑、保留足夠的「思考余量」來確保最終答案的正確性。

      這兩種性格天然打架。 如果融合的訓練數據沒有精心設計,出來的模型往往兩頭不討好:思考的時候啰嗦、猶豫、不夠果斷;執行指令的時候又不夠利落、不夠穩定、比客戶真正需要的版本更貴更慢。

      說實話,我們在平衡融合與數據質量的過程中,沒有把所有事情都做對

      在不斷修正的過程中,我們也仔細觀察了用戶到底怎么用這兩種模式。結論是明確的:這兩種行為畫像確實在相互拉扯。

      現實很誠實。2025 年晚些時候,在 Qwen3 最初的混合架構之后,我們的 2507 版本還是發布了獨立的 Instruct 和 Thinking 版本,包括分開的 30B 和 235B 變體。大量商業客戶根本不需要思考模式,他們要的就是高吞吐、低成本、高度可控的指令行為來跑批量任務。對這些客戶來說,融合不是福音,是多余的成本。拆開來做,反而讓兩條線的團隊都能更專注地解決各自的問題。

      其他實驗室走了相反的路:

      Anthropic 公開押注集成式路線。Claude 3.7 Sonnet 是一個混合推理模型,用戶可以選擇普通回復或擴展思考,API 還能設定「思考預算」。Anthropic 直接放話:推理應該是模型的集成能力,不該單獨拎出來做一個獨立模型。

      GLM-4.5 同樣定位混合推理,把推理、編程和智能體能力統一到一個模型里。

      DeepSeek V3.1 后來也做了類似的事,推出了「Think & Non-Think」混合推理方案。

      那么問題來了:誰是對的?

      答案不在「融合」還是「分離」這個二選一本身,在于融合是否有機。如果思考模式和指令模式只是尷尬地擠在同一個模型里,像兩個性格迥異的人被硬塞進一件衣服,用戶體驗不會好。

      真正成功的融合,需要一道平滑的光譜模型能自如地在不同推理力度之間切換,最好還能自己判斷該用多大力氣。GPT 風格的 effort control(推理力度控制)指向了這個方向,這是一個關于「花多少算力來想」的連續策略,不是一個「想 / 不想」的二元開關。

      APPSO 劃重點:林俊旸罕見地直言 Qwen3 在融合上「沒做到完全正確」。核心矛盾其實很好理解:一個追求快準狠的執行者,和一個追求深思熟慮的思考者,硬融到一起,很容易兩頭都做成半吊子。

      3. 為什么 Anthropic 的方向是一種有益的糾偏

      Anthropic 在 Claude 3.7 和 Claude 4 上的做法,是一種值得注意的克制。

      他們沒有大談模型有多能「想」,把重點放在了:集成推理、用戶可控的思考預算、真實世界任務、編程質量,以及后來的關鍵一步,讓模型在思考的過程中就能動手用工具。Claude 3.7 是帶可控預算的混合推理模型;Claude 4 更進一步,推理過程和工具使用可以交錯進行,邊想邊干。與此同時,Anthropic 把編程、長時間運行的任務和智能體工作流擺到了最優先的位置。

      這里面有一個深刻的洞察:

      推理鏈更長,不等于模型更聰明。 很多時候恰恰相反。一個模型如果對所有問題都用同樣冗長的方式來「推理」,說明它根本分不清輕重緩急。它可能正在失敗于三件事:該優先處理什么(優先級判斷)、該壓縮掉什么(信息濃縮)、該在什么時候停止想而開始做(行動決策)。

      Anthropic 的做法暗示了一種更有紀律的觀點:思考應該為具體的工作目標服務。 如果你要做的是編程,那思考就該幫你導航代碼庫、規劃架構、拆解問題、恢復報錯、編排工具調用。如果你要做的是智能體工作流,那思考就該幫你在漫長的執行過程中保持質量,而不是產出一堆令人印象深刻但沒有實際行動力的中間長文。

      這種「思考必須服務于行動」的理念,指向了一個更宏大的命題:

      我們正在從訓練模型的時代,進入訓練智能體的時代

      APPSO 劃重點長不等于強。Anthropic 的實踐提供了一個重要的糾偏信號。思考的價值在于有沒有真正服務于最終的行動目標,不在于產出了多少字的推理過程。這是從「炫技式推理」到「實用型思考」的轉向。

      4.「智能體式思考」到底意味著什么

      說了這么多鋪墊,現在進入正題。

      智能體式思考和推理式思考,優化目標完全不同。

      打個比方:推理式思考就像閉卷考試,評判標準是你交卷那一刻答案對不對。模型能不能解出定理、寫出證明、產出正確代碼、通過基準測試。想得再天花亂墜,最終只看結果。

      智能體式思考更像是在真實世界里做一個項目。 評判標準不是某一刻的答案,是你能不能在跟環境不斷互動的過程中持續推進、持續解決問題。

      核心問題變了。

      不再是「模型能想多久?」,變成了:「模型能不能以一種維持有效行動的方式來思考?

      這要求模型處理一堆傳統推理模型可以繞開的難題:

      什么時候該停止思考、開始動手? 想太多會錯過行動窗口,想太少會犯錯

      該調用哪個工具、先后順序是什么? 這是一個規劃和調度問題

      怎么消化來自環境的嘈雜、不完整的信息? 真實世界不會給你干凈的輸入

      失敗了怎么辦? 不能崩潰,得修正計劃繼續干

      怎么在幾十輪交互、幾十次工具調用之后還保持連貫? 這是長程記憶和一致性的問題

      如果用一句話概括:

      智能體式思考 = 通過行動來推理的模型。它在做的過程中不斷地想。

      APPSO 劃重點:推理式思考像閉卷考試,智能體式思考像在真實世界里做項目。前者看最終答案對不對,后者看你能不能在復雜、動態、充滿意外的環境里持續推進。這是 AI 能力評價體系的根本性轉向。

      5. 為什么智能體 RL 的基礎設施更難

      目標一變,底層的工程全都要跟著變。

      經典推理強化學習的那套基礎設施,不夠用了。

      直觀地理解一下區別:在推理 RL 里,模型做一道題、給出一個答案、評估器打一個分,整個過程基本上是自包含的,評估器也相對干凈。就像在一個封閉的考場里閱卷。

      但在智能體 RL 里,模型不是在考場里答題,它活在一個復雜的真實環境中。 工具服務器、瀏覽器、命令行終端、搜索引擎、模擬器、代碼執行沙箱、API 接口、記憶系統、調度框架……模型的策略嵌在這一整套系統里。環境不再是一個站在旁邊打分的裁判,它本身就是訓練系統的一部分。

      這帶來了一個新的硬需求:訓練和推理必須更干凈地解耦。 否則整個系統的吞吐量會崩掉。

      舉個具體的例子:一個編程智能體生成了一段代碼,需要在真實的測試環境里跑一下看結果。這時候,推理端在等執行反饋,干不了別的;訓練端在等完成的軌跡數據,也餓著。整條流水線的 GPU 利用率遠低于你在經典推理 RL 里的預期。再加上工具響應延遲、環境狀態不完全可見、每次交互都會改變環境狀態,這些低效會成倍放大。結果就是:你還遠沒達到想要的能力水平,實驗就已經慢得讓人崩潰了。

      環境本身也變成了一等公民級的研究課題

      在監督微調(SFT)時代,所有人都在拼數據多樣性,誰有更多更好的標注數據,誰就占優勢。在智能體時代,該拼的是環境質量了:環境穩不穩定?夠不夠真實?覆蓋了多少場景?難度梯度合不合理?狀態空間夠不夠豐富?反饋信號夠不夠有營養?模型能不能找到漏洞作弊?大規模生成訓練軌跡的效率夠不夠高?

      環境構建正在從一個「順手搭的實驗配件」,變成一個獨立的創業賽道。如果你訓練的智能體最終要在類生產環境中運作,那這個環境本身就是你核心能力棧的一部分。

      APPSO 劃重點:一句話總結這個轉變,SFT 時代拼數據,智能體時代拼環境。構建高質量的訓練環境,正在從「實驗室的臟活累活」升級為「決定你能走多遠的戰略資產」。

      6. 下一個前沿是更可用的思考

      我的判斷是:智能體式思考將成為思考的主導形態

      它最終很可能取代那種舊式的靜態獨白推理,就是那種模型關起門來、對著自己嘟嘟囔囔寫一大篇內部推理過程,試圖用更多更多的文字來彌補「我沒法跟外界交互」這個根本缺陷的做法。

      即便面對極其困難的數學或編程問題,一個真正先進的系統也應該有權利去搜索、去模擬、去執行、去檢查、去驗證、去修正。目標是把問題切實解決掉,而且解決得穩健、高效。 不是比誰的推理鏈寫得更長更好看。

      但訓練這類系統,有一個比什么都棘手的挑戰:獎勵劫持(reward hacking)

      一旦模型有了真正有意義的工具使用能力,獎勵劫持的危險就成倍增加。怎么理解?

      一個能搜索的模型,可能在強化學習訓練過程中學會了直接搜答案,不是靠推理做出來的,是查到的。

      一個編程智能體,可能學會了利用代碼倉庫里的未來信息(比如測試用例本身就暗含了答案)、濫用日志、或者發現某個捷徑讓任務直接「通過」但其實什么都沒做。

      如果訓練環境有隱藏的信息泄漏,模型可能看起來表現超人,實際上只是被訓練成了一個高效作弊者。

      這就是智能體時代比推理時代精細得多、也危險得多的地方。 工具越強大,模型越有用,但模型能鉆的空子也越多。更好的工具同時擴大了「虛假優化」的攻擊面。

      我預期,下一個讓整個行業卡住的研究瓶頸,將來自這幾個方向:環境設計、評估器魯棒性、反作弊協議、以及策略與世界之間更有原則的接口。

      但方向是清晰的:工具賦能的思考,就是比閉門造車的思考更有用,也更有希望帶來真實世界的生產力提升。

      智能體式思考還意味著一種全新的系統工程。核心智能將越來越多地來自于多個智能體如何被組織起來:一個負責全局規劃和任務分發的編排器(orchestrator),一群各有專長的專業智能體(specialist agents),以及執行更具體任務的子智能體(sub-agents),后者幫助控制上下文窗口、防止信息污染、在不同層級的推理之間保持清晰的邊界。

      未來的路線圖是三級跳:從訓練模型,到訓練智能體,再到訓練系統

      APPSO 劃重點:工具讓模型更有用,也讓模型更容易作弊。獎勵劫持是智能體時代的「定時炸彈」。誰先解決好環境設計和反作弊問題,誰就掌握了下一階段的競爭主動權。

      結論

      推理浪潮的第一階段,確立了一件至關重要的事:當反饋信號靠譜、基礎設施扛得住的時候,大模型上的強化學習能夠產出質變級別的認知提升。

      但更深層的轉變,是從推理式思考到智能體式思考:從「想更久」,到「為了行動而思考」

      訓練的核心對象已經變了。不再是單一的模型,是模型 + 環境構成的整個系統。更具體地說,是智能體本身,加上圍繞它的一切工程。這意味著什么研究最重要也變了:模型架構和訓練數據當然還重要,但環境設計、rollout 基礎設施、評估器魯棒性、以及多個智能體之間的協調接口,重要性一點不輸前者。

      它還改變了「好的思考」的定義:在真實世界的約束下,能夠維持有效行動的那條推理鏈,才是最好的。 不是最長的那條,不是看起來最酷炫的那條,是最有用的那條。

      它也改變了競爭優勢的來源:

      推理時代,拼的是更好的強化學習算法、更強的反饋信號、更可擴展的訓練流水線。

      智能體時代,拼的是更好的訓練環境、更緊密的訓練與推理一體化、更強的系統工程能力,以及閉合「決策 → 后果 → 學習」這個循環的能力。

      我們正在招募伙伴

      簡歷投遞郵箱hr@ifanr.com

      ?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      馬伊琍官宣喜訊不到24小時 文章高調求“復合” 姚笛才是笑到最后

      馬伊琍官宣喜訊不到24小時 文章高調求“復合” 姚笛才是笑到最后

      潮鹿逐夢
      2026-04-11 14:48:49
      鄭麗文到北京碧云寺!穿咖色風衣與藍牛仔褲很減齡,還松弛感滿滿

      鄭麗文到北京碧云寺!穿咖色風衣與藍牛仔褲很減齡,還松弛感滿滿

      八八尚語
      2026-04-11 12:39:16
      鄭麗文一聲“毛主席”,打破了國民黨一個禁忌

      鄭麗文一聲“毛主席”,打破了國民黨一個禁忌

      月明風清1029
      2026-04-11 17:27:07
      百億遺產說扔就扔?遲重瑞送妻后徹底皈依,寺廟誦經遁入空門

      百億遺產說扔就扔?遲重瑞送妻后徹底皈依,寺廟誦經遁入空門

      米果說識
      2026-04-10 17:07:33
      張雪冠軍復刻賽車得主“敵敵畏”最新消息:代公司拍下;想付尾款,但聯系不上張雪方,目前對方也未主動聯系自己

      張雪冠軍復刻賽車得主“敵敵畏”最新消息:代公司拍下;想付尾款,但聯系不上張雪方,目前對方也未主動聯系自己

      極目新聞
      2026-04-11 11:24:30
      美伊代表先后抵達伊斯蘭堡,第一關是“談不談?怎么談?”

      美伊代表先后抵達伊斯蘭堡,第一關是“談不談?怎么談?”

      上觀新聞
      2026-04-11 15:27:27
      男子半年花300萬,嫖了160個小姐,2015年小姐:最高一次收費15萬

      男子半年花300萬,嫖了160個小姐,2015年小姐:最高一次收費15萬

      漢史趣聞
      2026-04-11 15:02:54
      湖南祁東沿路插了百余米的白事支架燈籠,上面印“奠” 下面掛長條幅,當地民政局:已全部拆除

      湖南祁東沿路插了百余米的白事支架燈籠,上面印“奠” 下面掛長條幅,當地民政局:已全部拆除

      大風新聞
      2026-04-11 10:41:08
      郭汝瑰坦言:沒有毛澤東指揮挺進大別山,解放戰爭就不會只打4年

      郭汝瑰坦言:沒有毛澤東指揮挺進大別山,解放戰爭就不會只打4年

      大運河時空
      2026-04-10 18:50:03
      寶馬“炮轟”比亞迪:不是我們做不到閃充,是不愿犧牲電池耐用性

      寶馬“炮轟”比亞迪:不是我們做不到閃充,是不愿犧牲電池耐用性

      混沌錄
      2026-04-10 22:53:05
      尹力會見中國國民黨主席鄭麗文

      尹力會見中國國民黨主席鄭麗文

      BRTV新聞
      2026-04-11 19:03:07
      美伊談判:倆“生手”上桌,三大分歧待解,都藏著后手

      美伊談判:倆“生手”上桌,三大分歧待解,都藏著后手

      上游新聞
      2026-04-11 16:59:35
      多家快遞公司,宣布漲價

      多家快遞公司,宣布漲價

      魯中晨報
      2026-04-11 13:36:04
      導演溫成林因突發心梗搶救無效去世,享年62歲

      導演溫成林因突發心梗搶救無效去世,享年62歲

      澎湃新聞
      2026-04-11 13:43:02
      演員呂嚴吃面加蔥花被拒,遇見小面致歉

      演員呂嚴吃面加蔥花被拒,遇見小面致歉

      界面新聞
      2026-04-11 16:26:18
      3-2!溫瑞博大爆發,短短1個月兩進男單決賽,國乒女單遭全軍覆沒

      3-2!溫瑞博大爆發,短短1個月兩進男單決賽,國乒女單遭全軍覆沒

      侃球熊弟
      2026-04-11 19:12:22
      一碗國宴熱湯暖人心!鄭麗文直呼:這味道能講一輩子

      一碗國宴熱湯暖人心!鄭麗文直呼:這味道能講一輩子

      阿天愛旅行
      2026-04-11 13:08:53
      七座逃生大橋全被炸斷,數萬真主黨被前后鎖死:以軍司令下令總攻

      七座逃生大橋全被炸斷,數萬真主黨被前后鎖死:以軍司令下令總攻

      清歡百味
      2026-04-11 14:20:28
      官媒發文!高調官宣50歲撒貝寧喜訊,與李白婚變傳聞早就真相大白

      官媒發文!高調官宣50歲撒貝寧喜訊,與李白婚變傳聞早就真相大白

      阿纂看事
      2026-04-11 15:55:08
      大眾汽車官宣,停產純電車型!

      大眾汽車官宣,停產純電車型!

      新浪財經
      2026-04-11 15:06:14
      2026-04-11 20:59:00
      AppSo incentive-icons
      AppSo
      讓智能手機更好用的秘密
      6292文章數 26819關注度
      往期回顧 全部

      科技要聞

      半夜被燃燒瓶砸醒,OpenAI CEO發文反思

      頭條要聞

      美國否認同意解凍伊朗資產 巴官員:美方急了 伊朗不急

      頭條要聞

      美國否認同意解凍伊朗資產 巴官員:美方急了 伊朗不急

      體育要聞

      換帥之后,他們從降級區沖到升級區

      娛樂要聞

      浪姐7淘汰 該走的沒走,不該走的走了

      財經要聞

      從日本翻身看:這次誰能扛住高油價?

      汽車要聞

      煥新極氪007/007GT上市 限時19.39萬起

      態度原創

      游戲
      時尚
      本地
      親子
      健康

      翻車!索尼PS5限定手柄丑到被群嘲 玩家:別毀童年經典

      普通人穿衣其實很簡單!構造腰線、一衣多穿,大方舒適又自然

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      親子要聞

      寶藍和家人一起去水上樂園玩,還帶了很多好玩的玩具~

      干細胞抗衰4大誤區,90%的人都中招

      無障礙瀏覽 進入關懷版