<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI大牛卡帕西發布2025年度總結:LLM潛力僅挖掘不到10%!

      0
      分享至


      過去一年,LLM 發展迅速,能力和應用場景都在不斷擴展。從基于可驗證獎勵的強化學習,到本地運行的智能代理,再到“Vibe 編程”和圖形化界面,AI 正以前所未有的方式進入我們的工作和生活。

      在這樣的背景下,AI 大牛 Andrej Karpathy 在個人博客上分享了自己對 2025 年 LLM 發展的獨特觀察,既揭示了技術趨勢,也提供了對未來智能形態的思考,非常值得一讀。

      https://karpathy.bearblog.dev/year-in-review-2025/

      作者 | Andrej Karpathy

      編譯 | ChatGPT、蘇宓

      出品 | CSDN(ID:CSDNnews)

      2025 年是大語言模型(LLM)快速推進、變化密集的一年。下面列出的是一些在我看來尤為重要、且多少有些出乎意料的“范式轉變”——它們在概念層面上改變了整體格局。



      基于可驗證獎勵的強化學習(RLVR)

      在 2025 年初,幾乎所有實驗室中 LLM 的標準生產訓練流程大致如下:

      • 預訓練(Pretraining,約 2020 年的 GPT-2/3)

      • 監督微調(Supervised Finetuning,SFT,約 2022 年的 InstructGPT)

      • 基于人類反饋的強化學習(Reinforcement Learning from Human Feedback,RLHF,約 2022 年)

      這一組合在相當長一段時間內都是訓練生產級 LLM 的成熟且行之有效的方法。

      進入 2025 年后,基于可驗證獎勵的強化學習(RLVR)逐漸成為事實上的新增關鍵階段,并被納入這一訓練體系。

      RLVR 的核心做法是:在多個可自動驗證獎勵的環境中(例如數學或代碼類任務),對 LLM 進行強化學習訓練。在這一過程中,模型會自發地發展出在人的視角下類似“推理”的策略——它們學會將問題拆解為一系列中間計算步驟,并掌握多種反復試探、回溯求解的策略(可參考 DeepSeek R1 論文中的示例)。在此前的訓練范式下,這類能力很難通過直接設計獲得,因為我們并不清楚對 LLM 而言,最優的推理軌跡和糾錯路徑究竟應當是什么樣子;模型必須通過圍繞獎勵函數的優化,自行找到對自己有效的方式。

      與 SFT 和 RLHF 這兩個相對“輕量、短周期”的階段不同,RLVR 依賴的是客觀、不可被投機利用的獎勵函數,因此允許進行更長時間、更充分的優化。

      實踐表明,RLVR 在“能力提升 / 成本”這一比值上表現極高,甚至消耗了原本計劃用于預訓練的大量算力。結果是,2025 年 LLM 能力的主要進展,很大程度上來自各大實驗室對這一新階段算力“積壓”的集中釋放:模型規模大致相近,但強化學習的運行時間顯著拉長。

      此外,這一新階段還引入了一個此前不存在的重要調節維度(以及與之對應的尺度定律):可以通過在測試階段生成更長的推理軌跡、增加“思考時間”,來控制模型能力。OpenAI 的 o1(2024 年末)是 RLVR 模型的首次公開展示,而在 2025 年初發布的 o3,則成為明顯的拐點——人們已經可以直觀地感受到這種差異。


      幽靈 vs. 動物 / 鋸齒狀智能(Jagged Intelligence)

      2025 年,是我(我想整個行業也是如此)第一次開始以更直觀的方式真正理解 LLM 智能“形態”的一年。我們并不是在“進化或培育動物”,而更像是在“召喚幽靈”。

      LLM 技術棧的各個層面都與生物智能截然不同——無論是神經架構、訓練數據、訓練算法,還是尤其關鍵的優化壓力。因此,我們在智能空間中得到的必然是完全不同類型的存在,用“動物”的視角去理解它們,本身就并不合適。

      從監督信號的角度看,人類的神經網絡是為了在原始環境中保障群體生存而被優化的;而 LLM 的神經網絡,則是為了模仿人類文本、在數學與代碼等任務中獲取獎勵,以及在 LM Arena 上贏得人類的點贊而被優化的。

      隨著可驗證任務領域逐步引入 RLVR,LLM 在這些領域附近的能力會出現“尖峰式”提升,而在整體表現上則呈現出一種頗為有趣的鋸齒狀特征:它們一方面像是博學多才的天才通才,另一方面又像是困惑且認知能力受限的小學生,隨時可能被一次越獄誘騙,從而泄露你的數據。


      (人類智能:藍色;AI 智能:紅色。因為它指出了一個常被忽略的事實:人類智能本身也是“鋸齒狀的”,只是鋸齒的形態與 AI 不同。)

      與上述討論密切相關的,是我在 2025 年對各類基準測試逐漸產生的冷淡態度,甚至可以說是信任的流失。核心原因在于:基準測試在結構上幾乎天然就是“可驗證環境”,因此會立刻暴露在 RLVR 及其更弱形式(例如通過合成數據生成實現的變體)之下。

      在典型的“刷榜”過程中,LLM 實驗室的團隊往往不可避免地會圍繞基準測試,在嵌入空間中構造出一些相鄰的小環境區域,并刻意“長出”足以覆蓋這些區域的能力鋸齒。在測試集上訓練,正在成為一門新的藝術。

      這也引出了一個耐人尋味的問題:

      如果一個模型可以碾壓所有基準測試,但仍然沒有實現 AGI,那它究竟缺了什么?

      關于本節所討論的主題,我在下面這些文章中有更為深入的闡述:

      • Animals vs. Ghosts:https://karpathy.bearblog.dev/animals-vs-ghosts/

      • Verifiability:https://karpathy.bearblog.dev/verifiability/

      • The Space of Minds:https://karpathy.bearblog.dev/the-space-of-minds/


      Cursor / LLM 應用的新一層

      在我看來,Cursor 最值得關注的地方(除了它今年的爆發式增長之外)在于:它令人信服地揭示了 “LLM 應用”這一全新層級的存在——人們開始頻繁討論“某某領域的 Cursor(Cursor for X)”。

      正如我今年在 Y Combinator 演講中所強調的那樣(https://www.donnamagi.com/articles/karpathy-yc-talk),像 Cursor 這樣的 LLM 應用,本質上是在特定垂直領域內,對 LLM 調用進行打包與編排:

      • 它們負責完成“上下文工程”

      • 在后臺編排多次 LLM 調用,將其串聯成結構日益復雜的 DAG(有向無環圖),并在性能與成本之間進行精細權衡

      • 為“人機交互”提供面向具體應用場景的 GUI

      • 提供一個“自治程度滑桿”

      在 2025 年,很多人圍繞這一新應用層“到底有多厚”展開了大量討論:

      所有應用最終都會被 LLM 實驗室直接吞并,還是 LLM 應用本身依然存在廣闊的機會空間?

      我個人的判斷是:LLM 實驗室可能會培養出“能力一般的大學生水平”的模型,但 LLM 應用則會通過提供私有數據、傳感器、執行器和反饋回路,對這些模型進行組織、微調,并真正將它們激活,組建成能夠在特定垂直領域落地的專業團隊。


      Claude Code / 在你電腦上運行的 AI

      Claude Code(簡稱 CC)是第一個讓人直觀感受到 LLM Agent 形態的產品——它能夠以循環的方式,將工具使用與推理串聯起來,用于解決更復雜、長期的問題。

      對我來說,CC 另一大亮點在于:它能夠直接運行在你的電腦上,并且使用你的私有環境、數據和上下文。相比之下,我認為 OpenAI 在這方面走偏了,他們早期的 Codex/Agent 研究主要聚焦于云端部署,通過 ChatGPT 容器進行編排,而沒有充分考慮在本地運行的可能性。

      雖然在云端運行的 Agent Swarms 看起來像是“AGI 的終極目標”,但現實世界中,我們處在一個能力增長鋸齒狀、起飛較慢的中間階段,因此直接在開發者的電腦上運行 Agent 更為合理。

      需要注意的是,這里真正關鍵的區別并不是 AI 操作究竟運行在云端還是本地,而在于其他所有因素:已經啟動并運行的電腦、安裝環境、上下文、數據、機密信息、配置,以及低延遲的交互體驗。

      Anthropic 在這一點上抓住了正確的優先順序,并將 CC 打包成一個簡潔且極具魅力的 CLI 形式,這改變了人們對 AI 的感知——它不再只是一個像 Google 一樣需要訪問的網站,而是一種“小精靈/幽靈”,真正“居住”在你的電腦上。這標志著與 AI 互動的一種全新、獨立的范式。


      Vibe 編程

      2025 年是 AI 實現突破的一年——它可以只用英文指令就生成各種令人印象深刻的程序,幾乎不用理會代碼本身。有趣的是,我第一次提出“vibe 編程”這個術語,是在一條隨手靈感發的推文里,當時完全沒想到它會發展得這么遠。


      通過 Vibe 編程,編程不再嚴格局限于專業編碼人員,任何人都可以參與。從這個角度來看,它正是我在《賦能大眾》(Power to the People)中提到的例子之一:LLM 徹底顛覆了技術擴散的方式——與以往所有技術相比,普通人從 LLM 中獲得的收益遠超專業人士、企業甚至政府。

      Vibe 編程不僅讓普通人能夠接觸編程,還讓訓練有素的專業人士能夠撰寫大量原本可能永遠不會出現的軟件。在 NanoChat 中,我通過 Vibe 編程,用 Rust 實現了自己定制的高效 BPE 分詞器,而無需采用現成庫,也不需要在 Rust 上達到多深的水平。

      今年我用 Vibe 編程實現了很多項目,作為快速應用演示,來驗證我想要存在的功能(例如 menugen、llm-council、reader3、HN 時間膠囊)。我甚至用 Vibe 編程快速生成了整個短生命周期應用,只為了找出一個 bug——為什么不呢?代碼突然變得自由、短暫、可塑、一次性可丟棄。

      Vibe 編程將重塑軟件生態,并改變工作崗位的定義。


      Nano Banana / LLM GUI

      Google Gemini 的 Nano Banana 是 2025 年最令人驚嘆、具有范式顛覆性的模型之一。在我的世界觀里,LLM 是下一代重要的計算范式,類似于 20 世紀 70、80 年代的計算機。

      因此,我們將看到類似的創新,原因與當年計算機時代類似:會出現個人計算機的對應形態、微控制器(認知核心)的對應形態,甚至是由 Agent 構成的「互聯網」式系統,諸如此類。

      特別是在 UI/UX 方面,與 LLM 進行“聊天”有點像在 1980 年代向計算機控制臺發出命令。文本是計算機(以及 LLM)最原生、首選的數據表示形式,但對人類來說,文本并不是最理想的輸入形式——人類其實不喜歡閱讀文本,它既慢又費力。人們更喜歡以視覺化和空間化的方式獲取信息,這也是傳統計算機中 GUI(圖形用戶界面)被發明的原因。同理,LLM 也應該以我們偏好的形式與我們交流——通過圖像、信息圖、幻燈片、白板、動畫/視頻、Web 應用等。

      目前早期的嘗試形式當然包括 emoji 和 Markdown,它們通過視覺化方式“裝飾”和布局文本,使信息更易于理解,如標題、加粗、斜體、列表、表格等。但誰來真正構建 LLM GUI 呢?在這個視角下,Nano Banana 提供了一個早期的線索,展示了未來 LLM GUI 的可能形態。

      值得注意的是,它不僅僅是圖像生成本身,更重要的是文本生成、圖像生成與世界知識的聯合能力,這些能力都在模型權重中緊密交織。


      總結

      2025 年是 LLM 發展令人興奮且略有驚訝的一年。LLM 正在顯現為一種全新的智能形態——它們在某些方面比我預期的更聰明,在某些方面又比我預期的更笨。無論如何,它們極具實用價值,而整個行業目前對它們的潛力認知,甚至還不到 10%。

      同時,有太多新想法值得嘗試,從概念上來看,這個領域仍然廣闊開放。正如我今年早些時候提到的,我雖然表面上說法似乎矛盾,但實際上相信:一方面我們會看到快速且持續的進展,另一方面仍有大量工作需要完成。請系好安全帶。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      黎筍之子黎堅誠坦言:父親選擇同中國開戰,是其畢生最大的失策

      黎筍之子黎堅誠坦言:父親選擇同中國開戰,是其畢生最大的失策

      磊子講史
      2025-12-24 11:04:05
      澳洲既有煤礦又有鐵礦,為啥不發展鋼鐵業,而是直接出口這些礦產

      澳洲既有煤礦又有鐵礦,為啥不發展鋼鐵業,而是直接出口這些礦產

      向航說
      2025-12-24 00:20:02
      山東省日照市委原常委、市政府原副市長張佃虎被開除黨籍和公職

      山東省日照市委原常委、市政府原副市長張佃虎被開除黨籍和公職

      極目新聞
      2025-12-25 10:07:46
      首批中國游客赴俄遭“天價宰殺”落地即“失聯”支付系統全面失靈

      首批中國游客赴俄遭“天價宰殺”落地即“失聯”支付系統全面失靈

      深度報
      2025-12-23 22:47:10
      演員金莎曬視頻宣布被男友孫丞瀟求婚,兩人相差19歲,于2023年9月公開戀情

      演員金莎曬視頻宣布被男友孫丞瀟求婚,兩人相差19歲,于2023年9月公開戀情

      臺州交通廣播
      2025-12-24 22:45:46
      網傳徐湖平別墅附近出現大量便衣,舉報人也被接受問詢

      網傳徐湖平別墅附近出現大量便衣,舉報人也被接受問詢

      映射生活的身影
      2025-12-24 21:08:35
      茅臺鎮過冬:酒價最高降6成!有酒廠暫停投產、免費租窖池,大家在等2027

      茅臺鎮過冬:酒價最高降6成!有酒廠暫停投產、免費租窖池,大家在等2027

      紅星新聞
      2025-12-24 16:58:16
      南博事件持續升溫!郭禮典實名舉報后接到恐嚇電話,且是連續5個

      南博事件持續升溫!郭禮典實名舉報后接到恐嚇電話,且是連續5個

      火山詩話
      2025-12-25 06:49:52
      “堅持計劃生育一百年不動搖”的彭佩云去世,她父親的人生更傳奇

      “堅持計劃生育一百年不動搖”的彭佩云去世,她父親的人生更傳奇

      文史微鑒
      2025-12-24 23:47:43
      只施壓泰國停火,卻縱容柬方埋雷?泰防長怒批:該國中立是幌子!

      只施壓泰國停火,卻縱容柬方埋雷?泰防長怒批:該國中立是幌子!

      朔方瞭望
      2025-12-24 16:35:47
      工信部:11月我國移動電話用戶總數減少200萬戶

      工信部:11月我國移動電話用戶總數減少200萬戶

      南方都市報
      2025-12-24 20:05:21
      搶瘋了!各地門店大排長龍,排號炒到400元一個!網友:怎么又火了?

      搶瘋了!各地門店大排長龍,排號炒到400元一個!網友:怎么又火了?

      觀威海
      2025-12-24 10:14:23
      紅軍城再次遇險,美國股神巴菲特之子加入烏軍

      紅軍城再次遇險,美國股神巴菲特之子加入烏軍

      史政先鋒
      2025-12-24 21:03:28
      南博事件升級!鎮館之寶西漢金獸出現掉色痕跡,徐院長真攤上事了

      南博事件升級!鎮館之寶西漢金獸出現掉色痕跡,徐院長真攤上事了

      火山詩話
      2025-12-24 14:29:42
      美國要絕望!殲-20生產超300架已宣告停產,理由居然是:已經落后

      美國要絕望!殲-20生產超300架已宣告停產,理由居然是:已經落后

      胖福的小木屋
      2025-12-24 23:49:37
      迪拜品牌推出“Dabubu”盲盒,10個盲盒隱藏款有18K金鏈

      迪拜品牌推出“Dabubu”盲盒,10個盲盒隱藏款有18K金鏈

      半島晨報
      2025-12-24 19:45:03
      南博前院長徐湖平被帶走,郭禮典接受問詢

      南博前院長徐湖平被帶走,郭禮典接受問詢

      無忌財談
      2025-12-24 18:41:51
      全球最精確預言家:2026,歷史性的一年, 能說的都在這里

      全球最精確預言家:2026,歷史性的一年, 能說的都在這里

      神奇故事
      2025-12-24 23:34:15
      呂志同志逝世

      呂志同志逝世

      新京報政事兒
      2025-12-24 22:38:13
      南京博物院——徐湖平的精致和郭禮典的潦草

      南京博物院——徐湖平的精致和郭禮典的潦草

      北理工老羅大學文學心學
      2025-12-24 19:53:53
      2025-12-25 10:35:00
      CSDN incentive-icons
      CSDN
      成就一億技術人
      26206文章數 242203關注度
      往期回顧 全部

      科技要聞

      老板監視員工微信只需300元

      頭條要聞

      路透社稱中國造出EUV光刻機 "手搓"EUV光刻機難點披露

      頭條要聞

      路透社稱中國造出EUV光刻機 "手搓"EUV光刻機難點披露

      體育要聞

      26歲廣西球王,在質疑聲中成為本土得分王

      娛樂要聞

      懷孕增重30斤!闞清子驚傳誕一女夭折?

      財經要聞

      美國未來18個月不對中國芯片加額外關稅

      汽車要聞

      “運動版庫里南”一月份亮相???或命名極氪9S

      態度原創

      本地
      時尚
      教育
      公開課
      軍事航空

      本地新聞

      云游安徽|一川江水潤安慶,一塔一戲一城史

      對不起周柯宇,是陳靖可先來的

      教育要聞

      2026年高考難度會下降嗎?了解高考的本質和社會功能

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      澤連斯基版“和平計劃”透露哪些信息

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲一人综合| 九九精品在线观看| 久久久久高潮毛片免费全部播放| 农村欧美丰满熟妇xxxx| 色婷婷综合久久久中文字幕| 日本www一道久久久免费| 国产麻豆md传媒视频| 在线精品视频一区二区三四| 偷偷色噜狠狠狠狠的777米奇| 国偷自产av一区二区三区| 欧美日韩不卡视频合集| 无码人妻精品丰满熟妇区| 国产乱码精品一区二区三区中文| 秋霞无码一区二区| 性欧美丰满熟妇xxxx性久久久| 美女黄频视频大全免费的国内 | 欧美性受xxxx黑人xyx性爽| 成熟老妇女视频| 亚洲精品电影院| 午夜成午夜成年片在线观看| 富婆如狼似虎找黑人老外| 国产精品乱码高清在线观看| 国产伦孑沙发午休精品| 久久精品中文字幕无码绿巨人 | 强行交换配乱婬bd| 国产精品日韩欧美一区二区三区| av淘宝国产在线观看| 九九精品99久久久香蕉| 婷婷视频在线| 亚洲自偷自偷在线成人网站传媒| 国产人妇三级视频在线观看| 国产一区二区三区色噜噜| 三级片久久| 日韩久久中文字幕| 日逼逼视频| 探花无码| 日日躁天天躁AAAAXxXX痛| 欧美色资源| 成人性做爰aaa片免费看| 黑人巨茎大战白人美女| 白嫩少妇激情无码|