<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型比預期聰明得多,也愚笨得多 | 卡帕西點評2025

      0
      分享至


      2025 年是大語言模型取得顯著進展、且事件頻發(fā)的一年。下面列出的是一些在我個人看來尤為重要、并且略顯出人意料的“范式變化”——它們改變了大模型面貌,也改變了我的理解。

      1. 來自可驗證獎勵的強化學習(RLVR)

      在 2025 年初,幾乎所有實驗室的大模型生產級技術棧和工程流程體系大致都是這樣:

      預訓練(GPT-2/3,大約 2020 年)

      監(jiān)督微調(InstructGPT,大約 2022 年)

      以及來自人類反饋的強化學習(RLHF,大約 2022 年)

      一段時間以來,這一套方法被證明是訓練可用于生產的大模型的穩(wěn)定配方。到了 2025 年,來自可驗證獎勵的強化學習(RLVR)出現,并事實上成為新的主要階段。

      通過在多個環(huán)境中針對可自動驗證的獎勵來訓練大模型(例如數學或代碼謎題),模型會自發(fā)地產生在人類看來像是“推理”的策略——它們學會把問題拆解為中間計算步驟,也學會多種來回求解的策略(可參見 DeepSeek R1 論文中的示例)。在此前的范式下,這些策略極難獲得,因為并不清楚對大模型而言,什么樣的推理軌跡和恢復路徑才是最優(yōu)的——模型必須通過獎勵優(yōu)化自行發(fā)現哪些方式對它有效。

      與 SFT 和 RLHF 這兩個相對薄/短(計算量較小的微調)的階段不同,RLVR 是在客觀(無法投機利用)的獎勵函數下進行訓練,因此允許更長時間的優(yōu)化。實踐證明,運行 RLVR 帶來了高能力/成本比,直接吞噬了原本打算用于預訓練的算力。因此,2025 年的大部分能力進展,實際上來自于各大實驗室消化這一新增階段的積壓,總體表現為模型規(guī)模相近,但 RL 運行時間顯著拉長。

      這一新階段還有一個獨特之處:我們獲得了一個全新的調節(jié)旋鈕(以及與之對應的縮放規(guī)律),可以通過在測試時生成更長的推理軌跡、增加“思考時間”,來控制模型能力。OpenAI 的 o1(2024 下半年)是第一個 RLVR 模型的演示,而 o3(2025 年初)的發(fā)布,則是一個明顯的拐點,人們可以直觀地感受到差異。

      1. 幽靈 vs 動物 / 鋸齒狀智能

      2025 年,是我(我想也是整個行業(yè))第一次以更直覺的方式真正理解大模型智能“形狀”的一年。我們并不是在“進化或培育動物”,而是在“召喚幽靈”。

      大模型體系的方方面面都與生物智能不同(神經結構、訓練數據、訓練算法,尤其是優(yōu)化壓力)因此我們在智能空間中得到的是完全不同的實體,用“動物”的視角去理解它們并不合適。從監(jiān)督信息的角度看,人類神經網絡是為叢林中部落的生存而優(yōu)化的;而大模型的神經網絡則是為模仿人類文本、在數學謎題中獲取獎勵、以及在語言模型競技場中獲得人類點贊而優(yōu)化的。

      隨著可驗證領域為 RLVR 打開空間,大模型在這些領域附近會出現能力的“尖峰”,整體表現出一種頗為有趣的鋸齒狀性能特征——它們一方面像是博學的天才通才,另一方面又像是認知混亂、容易受騙的小學生,隨時可能被一次越獄攻擊誘導交出你的數據。


      (人類智能為藍色,AI 智能為紅色。我很喜歡這個梗圖,它指出人類智能本身也以另一種方式呈現出鋸齒狀。)

      與此相關的,是我在 2025 年對基準測試普遍產生的冷淡與不信任。核心問題在于:基準測試幾乎在結構上就是可驗證環(huán)境,因此極易受到 RLVR 及其弱化形式(通過合成數據)影響。在典型的“刷榜”過程中,實驗室團隊不可避免地會構建環(huán)境,靠近一個角落,位于基準測試所占據的嵌入空間,并在這些地方“長出鋸齒”。在測試集上訓練,已經成為一種新的藝術形式。

      把所有基準測試都碾壓一遍,卻仍然得不到 AGI,這是怎么回事?

      我在以下文章中對這一主題寫了更多內容:

      Animals vs. Ghosts (動物 vs.幽靈)

      Verifiability (可驗證)

      The Space of Minds (心智空間)

      1. Cursor / 新一層的大模型應用

      Cursor 今年最讓我印象深刻的,并不僅是它的爆發(fā)式增長,而是它清晰地揭示了一種全新的“大模型應用層”——人們開始談論“某領域的 Cursor”。

      正如我在今年的 Y Combinator 演講中所強調的那樣,像 Cursor 這樣的應用會為特定垂直領域打包并編排大模型調用:

      它們負責“上下文工程”;

      在后臺將多次模型調用串聯成越來越復雜的有向無環(huán)圖(DAG),在性能與成本之間精細權衡;

      為人類參與者提供特定應用的圖形界面;

      并提供一個“自主程度滑塊”。

      2025 年有大量討論圍繞這一新應用層到底有多“厚”。大模型實驗室會不會吃下所有應用?是否仍有空間留給獨立應用?我個人的判斷是:實驗室會培養(yǎng)出通用能力相當于大學生的模型,而具體的大模型應用則會通過提供私有數據、傳感器、執(zhí)行器和反饋回路,把這些模型組織、微調并真正“激活”為特定領域中的專業(yè)團隊。

      1. Claude Code / 駐留在你電腦里的 AI

      Claude Code(CC)是我見到的第一個真正令人信服的大模型智能體示例——它以一種循環(huán)的方式,將工具使用與推理串聯起來,完成長時間的問題求解。

      同時,它運行在你的電腦上,使用你的私有環(huán)境、數據和上下文。這一點在我看來非常重要。我認為OpenAI在這里的方向是錯誤的,因為它早期將 Codex /智能體聚焦于由 ChatGPT 編排的云端容器,而不是直接運行在本地。

      雖然云端運行的智能體集群可能是“AGI 終局”,但我們目前身處的是一個能力鋸齒、起飛速度較慢的中間階段,在這種情況下,把智能體直接運行在開發(fā)者的電腦上更合理。真正重要的區(qū)別并不在于 AI 運算發(fā)生在哪里,而在于:已經啟動的電腦本身、其安裝環(huán)境、上下文、數據、密鑰、配置,以及低延遲的交互。

      Anthropic 把優(yōu)先級順序理清了,并將 CC 打包成一個令人愉悅、極簡的 CLI (命令行界面)形態(tài),改變了 AI 的樣貌——它不再只是一個你訪問的網站,而是一個“住在你電腦里”的小幽靈。這是一種全新的、獨立的 AI 交互范式。

      1. 氛圍編程(Vibe Coding)

      2025 年,是 AI 跨過一個關鍵能力門檻的一年:人們可以僅通過英語構建各種令人印象深刻的程序,甚至忘記代碼的存在。有趣的是,我是在一條隨手寫下的推文中無意創(chuàng)造了“vibe coding”這個詞,完全沒想到它會流傳開來。

      在這種模式下,編程不再只是專業(yè)人士的專利,而成為任何人都能做的事情。這也再次印證了我在《權力歸于大眾》中寫過的觀點:與此前所有技術不同,大模型讓普通人獲得的收益遠大于專業(yè)人士、企業(yè)或政府。

      (2025/4/8) 閱讀全文>

      與此同時,氛圍編程也讓專業(yè)開發(fā)者能夠寫出大量原本不會被寫出來的軟件。今年我用這種方式寫了多個項目,只是為了快速驗證某個想法。代碼突然變得廉價、短暫、可塑,用完即棄。

      氛圍編程將重塑軟件,并改變工作描述。

      1. NanoBanana /大模型GUI

      Google 的 Gemini Nano Banana 是 2025 年最令人震撼、最具范式意義的模型之一。在我看來,大模型是繼 1970、80 年代計算機之后的下一代計算范式,因此我們將看到類似的創(chuàng)新:個人計算、微控制器、互聯網等。

      在 UI/UX 層面,與大模型“聊天”,就像 1980 年代在命令行里給計算機下指令。文本是計算機偏好的數據形式,但并不是人類偏好的輸入形式。人們更喜歡視覺和空間化的信息呈現,這正是 GUI 出現的原因。

      同樣,大模型也應該用人類偏好的方式與我們交流——圖像、信息圖、幻燈片、白板、動畫、網頁應用等。Nano Banana 是這一方向的早期信號,它的重要之處不僅在于生成圖像,而在于文本生成、圖像生成與世界知識在模型權重中的糾纏。

      總結

      2025 年是令人興奮、略顯意外的一年。大模型正在顯現為一種全新的智能形態(tài):既比我預期的聰明得多,又比我預期的愚笨得多。它們極其有用,而行業(yè)甚至還沒有意識到它們潛力的 10%。

      與此同時,想法多得令人應接不暇,整個領域依然是一片廣闊的開放空間。正如我今年早些時候在 Dwarkesh 播客中提到的那樣,我同時相信(表面看似矛盾):我們既會看到快速而持續(xù)的進展,也還有大量工作要做。

      系好安全帶。

      原文來自卡帕西的博客:

      https://karpathy.bearblog.dev/year-in-review-2025/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      霍爾木茲海峽關閉,甲醇漲停,尿素跌了

      霍爾木茲海峽關閉,甲醇漲停,尿素跌了

      21世紀經濟報道
      2026-03-02 16:58:03
      小獵豹現場發(fā)瘋!AB已經老實了!

      小獵豹現場發(fā)瘋!AB已經老實了!

      八卦瘋叔
      2026-03-03 11:39:58
      苦走10年投資路,李斌熱淚盈眶:今天,我們終于贏了!

      苦走10年投資路,李斌熱淚盈眶:今天,我們終于贏了!

      少數派報告Report
      2026-01-12 17:41:03
      尷尬!扣12分,春節(jié)最冤種司機出現!一粵s車牌兩次駛入應急車道

      尷尬!扣12分,春節(jié)最冤種司機出現!一粵s車牌兩次駛入應急車道

      火山詩話
      2026-03-02 10:11:01
      上千部違禁境外劇“唾手可得”,社科院建議:壓實平臺責任

      上千部違禁境外劇“唾手可得”,社科院建議:壓實平臺責任

      大象新聞
      2026-03-02 12:18:25
      好險!網友差點拿40萬接盤小區(qū)超市,評論區(qū)高手仗義挽救一個家庭

      好險!網友差點拿40萬接盤小區(qū)超市,評論區(qū)高手仗義挽救一個家庭

      另子維愛讀史
      2025-10-11 22:40:25
      OpenClaw最佳工具榜來了!這6款龍蝦最受歡迎

      OpenClaw最佳工具榜來了!這6款龍蝦最受歡迎

      量子位
      2026-03-02 18:07:33
      為什么美國、日本第一時間就知道中國的決策、軍事及重大的工程等

      為什么美國、日本第一時間就知道中國的決策、軍事及重大的工程等

      Thurman在昆明
      2026-03-02 01:31:00
      三大交易所齊發(fā)風險提示

      三大交易所齊發(fā)風險提示

      每日經濟新聞
      2026-03-03 12:17:31
      曝林葳將回CBA但會被同曦交易 鍍金后留國內還是繼續(xù)旅外追夢?

      曝林葳將回CBA但會被同曦交易 鍍金后留國內還是繼續(xù)旅外追夢?

      大嘴爵爺侃球
      2026-03-03 10:56:42
      剛剛,集體漲停!伊朗:不許一滴石油流出!

      剛剛,集體漲停!伊朗:不許一滴石油流出!

      數據寶
      2026-03-03 11:01:24
      “不想干可以退圈!”陳昊宇劇宣一直低頭疊紙惹爭議,評論區(qū)淪陷

      “不想干可以退圈!”陳昊宇劇宣一直低頭疊紙惹爭議,評論區(qū)淪陷

      秋楓凋零
      2026-03-03 07:41:48
      山東姑娘獲 127 票高票當選聯合國法官,這才是真正的中國驕傲!

      山東姑娘獲 127 票高票當選聯合國法官,這才是真正的中國驕傲!

      眼界看視野
      2026-03-02 19:22:50
      今年,北京已無離職潮

      今年,北京已無離職潮

      微微熱評
      2026-03-01 18:45:40
      伊朗臨時領袖上任幾小時被殺?以色列斬首戰(zhàn)術,撕開伊朗最大軟肋

      伊朗臨時領袖上任幾小時被殺?以色列斬首戰(zhàn)術,撕開伊朗最大軟肋

      荷蘭豆愛健康
      2026-03-03 11:58:27
      曾是央視知名主持,如今桂林街頭買菜!她的選擇為何讓人深思?

      曾是央視知名主持,如今桂林街頭買菜!她的選擇為何讓人深思?

      全球風情大揭秘
      2026-01-11 23:10:48
      表演藝術家陶玉玲病逝!她身患3癌,去天堂里追隨丈夫了

      表演藝術家陶玉玲病逝!她身患3癌,去天堂里追隨丈夫了

      陳意小可愛
      2026-03-03 00:38:09
      記者:35歲維爾貝克續(xù)約選項生效,將和布萊頓續(xù)約到2027年

      記者:35歲維爾貝克續(xù)約選項生效,將和布萊頓續(xù)約到2027年

      懂球帝
      2026-03-03 13:59:04
      既然給臉不要臉,那就徹底撕破臉!王毅外長已經把話挑明了

      既然給臉不要臉,那就徹底撕破臉!王毅外長已經把話挑明了

      安安說
      2026-02-01 14:01:51
      一個U盤裝走180億,200萬人的血汗錢48小時人間蒸發(fā)

      一個U盤裝走180億,200萬人的血汗錢48小時人間蒸發(fā)

      流蘇晚晴
      2026-03-01 16:54:18
      2026-03-03 14:28:49
      未盡研究 incentive-icons
      未盡研究
      新能源、人工智能、合成生物、地緣X
      319文章數 62關注度
      往期回顧 全部

      科技要聞

      手機AI在MWC上卷出了新高度

      頭條要聞

      伊朗稱摧毀美空軍基地大樓:20架無人機和3枚導彈命中

      頭條要聞

      伊朗稱摧毀美空軍基地大樓:20架無人機和3枚導彈命中

      體育要聞

      35輪后積分-7,他們遭遇史上最早的降級

      娛樂要聞

      謝娜霸氣護夫:喊話薛之謙給張杰道歉

      財經要聞

      霍爾木茲海峽近乎停擺 布油直逼80美元

      汽車要聞

      長安汽車2月銷量151922輛 環(huán)比逆勢增長12.8%

      態(tài)度原創(chuàng)

      本地
      游戲
      家居
      公開課
      軍事航空

      本地新聞

      食味印象|一口入魂!康樂烤肉串起千年絲路香

      卡普空現已移除《生化危機4:重制版》新加密保護

      家居要聞

      萬物互聯 享科技福祉

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      美國中央司令部透露對伊朗動武全部武器裝備清單

      無障礙瀏覽 進入關懷版