<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Andrej Karpathy:2025 年度盤點

      0
      分享至

      本文來自 Andrej Karpathy

      https://karpathy.bearblog.dev/year-in-review-2025/

      2025 年是大語言模型突飛猛進的一年

      以下是我個人認為最值得關注的幾個「范式轉變」,這些變化重塑了整個行業格局,也在概念上給我留下了深刻印象


      可驗證獎勵的強化學習(RLVR)

      2025 年初,各大實驗室訓練 LLM 的標準流程大致是這樣的:

      1. 1. 預訓練(Pretraining),GPT-2/3 時代約 2020 年確立的基礎

      2. 2. 監督微調(Supervised Finetuning, SFT),始于 InstructGPT,約 2022 年

      3. 3. 基于人類反饋的強化學習(RLHF),同樣始于約 2022 年

      這套流程久經驗證,是訓練生產級 LLM 的穩定配方

      而到了 2025 年,可驗證獎勵的強化學習(Reinforcement Learning from Verifiable Rewards, RLVR)正式成為這條流水線上的新主力環節


      RLVR 的核心思路是讓 LLM 在一系列「答案可以自動驗證」的環境中訓練,比如數學題、編程挑戰等。神奇的是,經過這種訓練,模型會自發地「學會思考」:它們開始把復雜問題拆解成中間步驟,并摸索出各種解題策略,比如反復推敲、來回驗證(詳見 DeepSeek R1 論文中的案例)


      這些能力在之前的訓練范式下很難實現,因為我們根本不知道對于這個模型而言「最優的推理路徑」長什么樣,它必須自己在優化獎勵的過程中摸索出來

      與 SFT 和 RLHF 這兩個相對輕量的階段不同,RLVR 的訓練對象是客觀的、無法被刷分的獎勵函數,模型沒法通過投機取巧來騙取高分,必須真正解決問題,因此可以進行更長時間的優化。實踐證明 RLVR 的性價比極高,它像饕餮一樣吞噬了原本留給預訓練的算力

      因此 2025 年的能力提升主要來自實驗室們消化這個新階段帶來的紅利,模型參數規模沒怎么變,但 RL 訓練跑得更久了


      RLVR 還帶來了一個全新的調節旋鈕和配套的 Scaling Law:
      通過生成更長的推理鏈條、增加「思考時間」,我們可以在推理階段用更多算力換取更強的能力


      OpenAI 的 o1(2024 年底發布)是 RLVR 模型的首次亮相,但真正讓人直觀感受到質變的是 2025 年初發布的 o3

      「召喚幽靈」vs「培育動物」/ 參差不齊的智能

      2025 年,我以及整個行業開始真正在直覺層面理解 LLM 智能的「形狀」。我們不是在培育、進化某種動物,而是在召喚幽靈

      LLM 的一切都與生物智能不同,神經網絡架構、訓練數據、訓練算法,尤其是優化目標。所以我們得到的是一種在智能空間中截然不同的實體,用動物的思維模式去理解它們并不合適

      從監督信號的角度看,人類神經網絡是為了讓部落在叢林中存活而優化的,但 LLM 的神經網絡是為了模仿人類的文字、在數學謎題中拿分、在 LM Arena 上獲得點贊而優化的

      由于可驗證領域允許 RLVR 訓練,LLM 在這些領域附近的能力會尖峰式飆升,整體呈現出一種令人啼笑皆非的參差不齊特征。它們可以同時是學富五車的天才博學家,又是一個困惑懵懂、隨時可能被越獄攻擊騙走你數據的小學生

      下圖,展示了人類智能「藍色」和 AI 智能「紅色」的對比

      這張 meme 的有趣之處在于,它也指出了人類智能同樣是參差不齊的,只是參差的形狀不同


      與此相關的是我在 2025 年對基準測試產生了普遍的冷感和不信任。核心問題在于基準測試幾乎從定義上就是可驗證的環境,因此天然容易被 RLVR 或通過合成數據生成的弱化版本攻克

      在典型的刷榜流程中,實驗室團隊不可避免地會在基準測試所占據的嵌入空間小角落周圍構建訓練環境,然后長出覆蓋它們的尖刺。在測試集上訓練已經成為一門新的藝術形式

      如果我們刷爆了所有基準測試,卻依然沒有實現 AGI,那會是什么樣子?

      關于這一節的話題,可參考之前的內容:

      • ? Animals vs. Ghosts(動物 vs 幽靈)
        https://karpathy.bearblog.dev/animals-vs-ghosts/

      • ? Verifiability(可驗證性)
        https://karpathy.bearblog.dev/verifiability/

      • ? The Space of Minds(心智的空間)
        https://karpathy.bearblog.dev/the-space-of-minds/

      Cursor / LLM 應用的新層級

      Cursor 今年最讓我印象深刻的地方,除了它火箭般的增長,是它令人信服地揭示了 LLM 應用的一個新層級,人們開始討論「X 領域的 Cursor」


      正如我今年在 Y Combinator 演講中所說,像 Cursor 這樣的 LLM 應用會針對特定垂直領域打包和編排 LLM 調用:

      • ? 它們負責上下文工程(Context Engineering)

      • ? 它們在底層編排多次 LLM 調用,串聯成越來越復雜的有向無環圖,在性能和成本之間精細權衡

      • ? 它們為人在回路中(Human in the Loop)提供針對特定應用的圖形界面

      • ? 它們提供一個自主性滑塊,讓用戶決定 AI 可以自己做多少決定

      2025 年有大量討論圍繞這個新應用層有多厚展開。LLM 實驗室會不會通吃所有應用場景?還是說 LLM 應用創業者仍有廣闊天地?

      我個人的判斷是 LLM 實驗室傾向于培養出能力全面的大學畢業生,而 LLM 應用則會通過組織、微調,并結合私有數據、傳感器、執行器和反饋回路,把這些畢業生真正培訓成特定垂直領域的專業人士


      Claude Code / 住在你電腦里的 AI

      Claude Code 是第一個令人信服地展示了 LLM 智能體面貌的產品,它以循環的方式串聯起工具調用和推理,進行持續的問題求解

      此外 Claude Code 讓我印象深刻的一點是它運行在你自己的電腦上,使用你的私有環境、數據和上下文。我認為 OpenAI 在這一點上走錯了路,他們早期的 Codex / Agent 工作重心放在了云端部署,在 ChatGPT 調度的容器里運行,而不是簡單地跑在本地


      誠然在云端運行的智能體集群感覺像是 AGI 的終極形態,但我們活在一個參差能力的中間世界,takeoff 足夠緩慢,因此讓智能體直接跑在開發者的電腦上更為合理

      注意,真正關鍵的區別不在于 AI 操作碰巧在哪里運行(云端、本地還是別處),而在于其他一切:那臺已經開機、配置好的電腦,它的安裝環境、上下文、數據、密鑰、配置,以及低延遲的交互

      Anthropic 正確把握了這個優先級,并將 Claude Code 打包成一個精致、極簡的命令行工具,改變了 AI 的面貌。它不再只是一個你去訪問的網站,而是一個住在你電腦里的小精靈。這是一種與 AI 交互的全新范式

      氛圍編程(Vibe Coding)

      2025 年是 AI 跨越能力門檻的一年,人們可以純用英語說出各種令人驚嘆的程序,甚至忘記代碼的存在。有趣的是「vibe coding」這個詞是我在一條靈光乍現的推文里隨手造的,完全沒想到它能傳播這么遠


      有了氛圍編程,編程不再是受過高度訓練的專業人士的專屬,而是任何人都能做的事。從這個意義上說它又是我在《Power to the people: How LLMs flip the script on technology diffusion》一文中所寫內容的又一例證。與以往所有技術形成鮮明對比,普通人從 LLM 中獲得的收益遠遠超過專業人士、企業和政府

      但氛圍編程不僅僅賦能普通人接觸編程,它還讓訓練有素的專業人士能夠寫出大量本來永遠不會被寫出的軟件。在 nanochat 項目中,我氛圍編程用 Rust 寫了一個高度定制、極其高效的 BPE 分詞器,而不必去學習現有的庫或真正精通 Rust

      今年我氛圍編程寫了很多項目作為快速演示,比如 menugen、llm-council、reader3、HN time capsule。我甚至氛圍編程寫過一次性的臨時程序只為找到一個 bug,為什么不呢?代碼突然變得免費、短命、可塑、用完即棄


      氛圍編程將重塑軟件業,改變職位描述

      Nano Banana / LLM 的圖形界面

      Google Gemini Nano Banana 是 2025 年最令人驚嘆、最具范式轉變意義的模型之一

      在我的世界觀里 LLM 是下一個重大計算范式,類似于 1970 年代、80 年代的計算機。因此我們將看到類似的創新浪潮,出于本質上相同的原因。我們將看到個人計算的等價物、微控制器的等價物(認知內核)、互聯網的等價物(智能體互聯網)等等

      具體到用戶界面,與 LLM 聊天有點像 1980 年代在計算機控制臺上敲命令。文本是計算機和 LLM 偏愛的原始數據表示,但它不是人類偏愛的格式,尤其是在輸入端。人們其實不喜歡閱讀文字,它慢且費力。相反人們喜歡以視覺化、空間化的方式消費信息,這正是傳統計算中發明圖形用戶界面的原因


      同理 LLM 應該用我們偏愛的格式與我們交流:圖像、信息圖表、幻燈片、白板、動畫視頻、Web 應用等等。當然目前早期和現有的版本是 emoji 和 Markdown 這類東西,它們是裝扮和排版文字的方式,用標題、粗體、斜體、列表、表格等讓閱讀更輕松。但誰真正會去構建 LLM 的 GUI 呢?


      從這個視角看 Nano Banana 是一個早期的雛形,暗示了未來可能的樣子。重要的是它不僅僅關乎圖像生成本身,而是關乎文本生成、圖像生成、世界知識三者融合在模型權重中所產生的聯合能力

      小結

      2025 年是 LLM 令人興奮的一年

      LLM 正在作為一種全新的智能形態浮現,它們同時比我預想的聰明得多,也比我預想的蠢得多。無論如何它們極其有用,而我認為即便在當前的能力水平下,整個行業也遠未實現其 10% 的潛力

      與此同時有太多想法值得嘗試,從概念上看這個領域依然廣闊開放。正如我今年早些時候在 Dwarkesh 播客中提到的,我同時相信我們將繼續見證快速而持續的進步,但同時仍有大量工作要做

      系好安全帶

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      張元英大腿好長

      張元英大腿好長

      情感大頭說說
      2025-12-25 09:56:07
      全球不到300只!2017年,2只被賣到蘇州,黑市1只賣上百萬元

      全球不到300只!2017年,2只被賣到蘇州,黑市1只賣上百萬元

      萬象硬核本尊
      2025-12-24 17:28:42
      我國唯一女開國將軍育二十兒女,丈夫是上將,其晚年國家級待遇如何

      我國唯一女開國將軍育二十兒女,丈夫是上將,其晚年國家級待遇如何

      磊子講史
      2025-12-24 17:58:49
      055遇勁敵!全能艦橫空出世,未來海戰要變天!

      055遇勁敵!全能艦橫空出世,未來海戰要變天!

      Ck的蜜糖
      2025-12-24 12:35:23
      王彥霖投票肖戰,東北式直球引爆全網社死!

      王彥霖投票肖戰,東北式直球引爆全網社死!

      犀利辣椒
      2025-12-25 06:42:18
      49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當年小燕子徹底涼透了

      49歲趙薇廣東飯局近照瘋傳!瘦脫相顯兇相,當年小燕子徹底涼透了

      阿纂看事
      2025-12-12 09:18:29
      官宣!上海史上“最貴地鐵”19號線正式開疆拓土

      官宣!上海史上“最貴地鐵”19號線正式開疆拓土

      普陀動物世界
      2025-12-25 10:18:58
      已經掉了500多顆了,“星鏈”衛星墜落已成常態

      已經掉了500多顆了,“星鏈”衛星墜落已成常態

      新民晚報
      2025-12-23 13:02:35
      耐克阿迪,被千元丑鞋HOKA“插了空”

      耐克阿迪,被千元丑鞋HOKA“插了空”

      博客COVER
      2025-12-24 14:10:47
      鼓勵靈活就業參保,2.4億人繳不起社保,一邊失業一邊內卷,咋辦

      鼓勵靈活就業參保,2.4億人繳不起社保,一邊失業一邊內卷,咋辦

      你食不食油餅
      2025-12-11 23:19:19
      太豪了!馬伯騫新家登上時尚芭莎,父子倆出鏡,像住在世外桃源!

      太豪了!馬伯騫新家登上時尚芭莎,父子倆出鏡,像住在世外桃源!

      阿纂看事
      2025-12-24 23:36:35
      反轉!鎮館之寶金獸被指掉色后續:院方正面回應,曝撤展原因!

      反轉!鎮館之寶金獸被指掉色后續:院方正面回應,曝撤展原因!

      古希臘掌管松餅的神
      2025-12-25 13:38:09
      羅嘉良北京喝羊湯,滿頭黑發,顯年輕,直夸燒餅香,一頓飯花50塊

      羅嘉良北京喝羊湯,滿頭黑發,顯年輕,直夸燒餅香,一頓飯花50塊

      甜檸聊史
      2025-12-25 10:36:21
      馬斯克預測美國經濟18個月內實現兩位數增長,AI成關鍵驅動力

      馬斯克預測美國經濟18個月內實現兩位數增長,AI成關鍵驅動力

      華爾街見聞官方
      2025-12-25 05:42:06
      最新確認!上海?寧波,高鐵最快1小時!

      最新確認!上海?寧波,高鐵最快1小時!

      上觀新聞
      2025-12-25 13:52:09
      為何不敵青島隊?劉煒賽后說答案,責任分得清楚,還要找防守外援

      為何不敵青島隊?劉煒賽后說答案,責任分得清楚,還要找防守外援

      萌蘭聊個球
      2025-12-25 07:25:01
      為何一定要為小洛熙進行手術?真實原因曝光,刺痛全網

      為何一定要為小洛熙進行手術?真實原因曝光,刺痛全網

      老特有話說
      2025-12-25 12:16:26
      中國網貸公司在印度幾乎全軍覆沒,違約率最高達80%!

      中國網貸公司在印度幾乎全軍覆沒,違約率最高達80%!

      胡華成
      2025-12-24 16:47:03
      全球最精確預言家:2026,歷史性的一年, 能說的都在這里

      全球最精確預言家:2026,歷史性的一年, 能說的都在這里

      神奇故事
      2025-12-24 23:34:15
      上海46歲獨居女子過世,遺產不能買墓地?最新消息:法院指定虹口區民政局任遺產管理人

      上海46歲獨居女子過世,遺產不能買墓地?最新消息:法院指定虹口區民政局任遺產管理人

      每日經濟新聞
      2025-12-25 00:48:23
      2025-12-25 16:24:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      224文章數 12關注度
      往期回顧 全部

      科技要聞

      屠龍少年被"招安"!英偉達平安夜豪擲200億

      頭條要聞

      男子信訪被勸返收鎮干部4300元路費獲罪 二審駁回上訴

      頭條要聞

      男子信訪被勸返收鎮干部4300元路費獲罪 二審駁回上訴

      體育要聞

      單賽季11冠,羽壇“安洗瑩時代”真的來了

      娛樂要聞

      金莎小19歲男友求婚成功!兩人雪地擁吻

      財經要聞

      時隔15月,人民幣升破7,三大推手曝光

      汽車要聞

      預售31.3萬元起 全新奧迪Q5L將于1月內上市

      態度原創

      本地
      游戲
      手機
      旅游
      公開課

      本地新聞

      云游安徽|亳州晨暮皆成史,街巷縱橫印春秋

      玩家討厭游戲教程!填鴨式教程如何消磨熱情?

      手機要聞

      2999元起!OPPO Reno15新配色「星星粉」即將上市:行業首發星閃光柵工藝

      旅游要聞

      偶遇大理上關花天龍洞景區,感覺挺有意思的,可惜還沒來得及去

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 团风县| 最近中文字幕免费mv在线视频| 国产又爽又黄又无遮挡的激情视频| 亚洲 制服 丝袜 无码| 91啪啪视频| 91福利社| 无码精品国产va在线观看dvd| 午夜不卡久久精品无码免费| 在线天堂最新版资源| 毛片亚洲AV无码精品国产午夜| av在线自偷自拍| 南安市| 欧美性xxxxx极品少妇| 开心五月综合亚洲| 国产热A欧美热A在线视频| 日日干日日日撸| 中文无码第一页| 久久99精品久久久久久秒播| 人人妻人人澡人人爽| 操操人妻| 色噜噜人妻丝袜AⅤ资源| 国产普通话对白刺激| 亚洲伊人情人综合网站| 国产精品99精品无码视亚| 通城县| 婷婷四房综合激情五月在线| 亚洲成人动漫在线| 亚洲va国产va天堂va久久 | av片在线播放| 狠狠躁夜夜躁无码中文字幕 | 欧美激情猛片xxxⅹ大3| 国产精品白浆在线观看免费| 欧美劲爆第一页| 亚洲精品一二三| 欧美黑人又粗又大的性格特点| 欧美色丁香| 日韩精品社区| 无毒无码不卡| 伊人久久无码中文字幕| 亚洲成在人网站av天堂| 中文字幕熟妇人|