<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI大神卡帕西發年終總結!大模型有6大轉折點,潛力挖掘不足10%

      0
      分享至


      智東西
      編譯 王欣逸
      編輯 程茜

      智東西12月23日消息,12月20日,前特斯拉AI總監、OpenAI聯合創始人安德烈·卡帕西(Andrej Karpathy)在其個人博客上發布帖子,談到2025年大模型的6個轉折點,他認為行業對當前大模型潛力的挖掘尚不足10%,大模型比他預期的聰明得多,也笨拙得多。


      在全文中,他特別提到了6個關鍵詞——RLVR(基于可驗證獎勵的強化學習)、大模型智能的“形態”、大模型新應用層、AI交互新范式、Vibe Coding(氛圍編程)以及大模型交互形式,還單獨提及了2個模型,Anthropic的編程模型Claude Code和谷歌的圖像編輯模型Nano Banana,以及1家公司AI編程創企Cursor。

      2025年,預訓練、監督微調以及基于人類反饋的強化學習的大模型傳統訓練范式發生改變,新的范式以基于可驗證獎勵的強化學習為核心,讓模型在數學、代碼等有明確對錯的環境中進行訓練,從而自發涌現出推理能力。

      博客核心信息如下:

      1、RLVR的突破在于利用數學、編程等可客觀驗證的獎勵函數對模型進行長期、深度的優化,讓模型自發地形成了在人類看來酷似“推理”的策略,這一方法是提升模型能力性價比極高的方法。

      2、大模型智能的本質是“召喚幽靈”,大模型由人類數據與訓練目標所定義,它沒有意識,完全不同于“會成長的生命體”。

      3、基準測試極易受到RLVR或通過合成數據生成等較弱形式的影響,當下的AI基準測試正面臨“刷分”導致的可信度危機。

      4、大模型新應用層的關鍵是構建以模型為核心的專業系統,通過編排多個模型調用、工具和私有數據,形成解決復雜任務的工作流,承擔上下文作用。

      5、Claude Code的顯著特點是能運行在開發者的電腦上,調用開發者的私人環境、數據和上下文,這是一種與AI交互的全新范式。

      6、通過Vibe Coding(氛圍編程),寫代碼不再嚴格局限于受過高度訓練的專業人士,任何人都可以嘗試,這將重塑軟件生態與職業定義。

      7、大模型的輸出形態將從純文本演進成人們喜愛的方式,如圖像、信息圖、幻燈片、動畫/視頻、網頁應用等。

      8、大模型正在演化成一種新型智能,卡帕西認為它既比預期聰明得多,又比預期笨拙得多,行業至今尚未發掘出大模型能力潛力的10%。

      以下為卡帕西博客全文翻譯,題為《2025年大模型年度回顧(2025LLMYear in Review)》:

      2025年是大模型取得強勁發展、進展顯著的一年。以下是我個人關注到的具有代表性、有點出乎意料的“范式變遷”(paradigm changes)清單,這些變化深刻影響行業格局,并在概念層面讓我感到印象深刻。

      一、RLVR:基于可驗證獎勵的強化學習

      2025年伊始,大模型標準生產流程大致如下:

      1、預訓練(約2020年的GPT-2/3)

      2、監督微調(約2022年的InstructGPT)

      3、基于人類反饋的強化學習(約2022年的RLHF)

      在一段時間內,這曾是訓練生產級大模型的穩定、已驗證的配方。然而,2025年,RLVR成為事實上的新的標準環境。

      RLVR的核心突破在于,通過讓大模型在數學、編程等可自動驗證答案的環境中進行強化學習訓練,模型自發地形成了在人類看來酷似“推理”的策略:它們學會了將復雜問題拆解為中間步驟進行計算,并掌握了多種來回推敲以解決問題的策略(參見DeepSeek R1論文中的示例)。

      這是傳統范式難以實現的能力,因為對于大模型來說,最優的推理路徑和糾錯方式并不明確,模型必須在獎勵信號的引導下,自行探索一套適合自己的問題解決辦法。

      與之前計算消耗相對較小的SFT(監督微調)和RLHF(人類反饋強化學習)不同,RLVR涉及利用數學、編程等可客觀驗證的獎勵函數進行長期、深度的優化。事實證明,運行RLVR階段是提升模型能力性價比極高的方法,因此迅速奪走了原本用于預訓練的大量計算資源。

      2025年模型能力的飛躍,主要源于各大實驗室對這一范式的全力投入,其結果是,模型參數量雖然沒有發生顯著變化,但強化學習訓練過程大幅延長。

      這個新階段還引入了一個前所未有的新維度:通過生成更長的推理軌跡、增加思考時間,開發者可靈活調控測試階段的計算量。

      OpenAI在2024年底推出的o1模型首次展示了RLVR的潛力,而2025年初的o3版本則成為一個明顯的拐點,其能力的質變已能被清晰感知。

      二、“幽靈”與“動物”:智能的鋸齒狀能力

      2025年,整個行業開始開始更直觀地理解大模型智能的“形態”。我們面對的不是在“進化、成長著的動物”,而是在“召喚幽靈”。

      大模型的技術棧(神經網絡架構、訓練數據、訓練算法,尤其是優化目標)與人類智能的方方面面都不同,因此我們得到的是智能空間中截然不同的實體,用動物的視角來思考它們是不合適的。

      從監督信號的根源看,人腦神經網絡是為了叢林部落的生存而優化的,而大模型的神經網絡則被優化用于模仿人類文本、在數學謎題中獲取獎勵、以及在競技場中獲得人類點贊。

      隨著RLVR在可驗證領域的應用,大模型在這些特定領域的能力會出現“爆發式增長”,整體上呈現出一種有趣的鋸齒狀性能特征:它們可以同時是博學的天才,也是困惑的、認知能力受限的小學生,甚至可能在下一秒鐘就被一個越獄攻擊欺騙而泄露你的數據。


      ▲人類智能:藍色;AI智能:紅色。我喜歡這個版本的梗圖,因為它揭示了人類智能同樣也有其自身不同的“鋸齒狀”能力。抱歉我找不到它在社交平臺X上的原帖出處。

      與此相關的是,2025年,我對基準測試普遍感到漠視與信任喪失。核心問題在于,基準測試幾乎天生就是可驗證的環境,因此極易受到RLVR或通過合成數據生成等較弱形式的影響。在典型的“刷分”過程中,大模型的實驗室團隊不可避免地會構建接近基準測試所處嵌入空間微小區域的訓練環境,并催生出針對性的能力鋸齒來覆蓋這些區域。如今,針對測試集的訓練已經成為一門新的“藝術”。

      如果碾壓所有基準測試卻仍然無法實現通用人工智能(AGI),那會是什么景象?

      關于這一主題,我在以下文章中展開了更多討論:《動物vs幽靈(Animals vs. Ghosts)》《可驗證性(Verifiability)》《心智空間(The Space of Minds)》。

      三、Cursor:新的大模型應用層

      除了Cursor今年的飛速崛起之外,這家企業最引人關注的是,它有力揭示了一個全新的大模型應用層級,人們開始談論“某領域的Cursor模式”。正如我在今年的Y Combinator演講中強調的那樣,像Cursor這樣的大模型,核心價值在于針對特定垂直領域捆綁和組織大模型調用,具體有以下幾點:

      1、它們負責處理“上下文工程”;

      2、它們在幕后編排多個大模型調用,串聯成日益復雜的有向無環圖(DAG),能仔細權衡性能和成本;

      3、它們為人工介入提供特定應用場景的圖形用戶界面;

      4、它們提供一個“自主程度調節滑塊”,靈活控制AI自主決策的權限范圍。

      2025年,關于這個新應用層“厚度”的討論很多,如大模型實驗室會通吃所有應用場景,還是垂直領域的大模型應用有其廣闊的天地?我個人認為,大模型實驗室傾向于培養“通識能力強的大學生”式模型,而大模型應用則通過提供私有數據、傳感器、執行器和反饋循環,將這些通才組織、微調并激活為特定垂直領域可實際部署的“專業團隊”。

      四、Claude Code:運行在你的電腦上的AI

      Claude Code首次令人信服地展示了大模型智能體的形態,它通過循環方式串聯工具使用和推理,實現持續的問題解決。此外,Claude Code的顯著特點在于它運行在你的電腦上,調用你的私人環境、數據和上下文。

      我認為OpenAI在這方面判斷有誤,因為他們早期的Codex/智能體工作重點放在了從ChatGPT編排的云端容器部署,而不是簡單的本地運行。盡管在云端運行的智能體集群感覺像是AGI的終極形態,但我們身處一個發展漸進、變革速度有限的世界,能力分布仍呈鋸齒狀,因此直接在開發者的電腦上運行智能體更為合理。

      關鍵區別并不在于“AI運算”發生在何處(云端或者本地),而在于其他一切:已經存在且已啟動的計算機、其安裝環境、上下文、數據、密鑰、配置以及低延遲交互。Anthropic把優先順序處理得很正確,將Claude Code封裝成一種簡潔優雅的命令行界面形式,從而改變了AI的模樣:它不再只是一個像谷歌那樣需要訪問的網站,而是一個居住在你電腦中的小型精靈/幽靈。這是一種與AI交互的新穎、獨特的范式。

      五、Vibe Coding

      2025年,AI跨過了一個能力臨界點,使得僅通過自然語言描述就能構建各類令人驚嘆的程序成為可能,人們甚至無需在意代碼的存在。有趣的是,我曾在一條隨手發布的推文中創造了“Vibe Coding”這個詞,當時完全沒有想到它會發展至此。

      通過Vibe Coding,寫代碼不再嚴格局限于受過高度訓練的專業人士,而是任何人都可以做的事情。從這個角度看,它正是我在《技術平權:大模型如何重塑技術擴散模式(Power to the people: How LLMs flip the script on technology diffusion)》一文中提到的又一個例證,與迄今為止所有其他技術截然不同,普通人從大模型中獲得的益處遠超專業人士、企業和政府。

      Vibe Coding不僅賦能普通人接觸編程,更讓專業開發者能輕松編寫大量通過Vibe Coding實現的軟件,而這些軟件原本是永遠不會被創造出來的。例如在開發nanochat項目中,我就通過Vibe Coding用Rust自研了一套高效BPE分詞器,無需依賴現有庫或深入鉆研Rust。我今年還用Vibe Coding創造了許多項目,并快速實現了許多創意原型,例如 menugen、llm-council、reader3、HN time capsule等。我甚至通過Vibe Coding編寫了整套臨時應用程序,就為了找到一個bug。代碼突然間變得免費、短暫、可塑、用后即棄。Vibe Coding將重塑軟件生態與職業定義。

      六、Nano Banana:大模型的圖形用戶界面(GUI)

      谷歌Gemini Nano Banana是2025年最令人難以置信、最具范式轉移意義的模型之一。在我看來,大模型是類似20世紀70-80年代的全新計算范式,因此我們將看到基于相似邏輯的創新涌現,例如個人計算、微控制器(認知核心)、智能體互聯網等對應形態。特別是在用戶界面/用戶體驗上,當前與大模型“聊天”有點像上世紀80年代向計算機終端輸入指令。

      文本是計算機(和大模型)偏愛的數據形式,但它不是人們偏愛的格式,尤其是在輸入上。人們其實不喜歡閱讀文字,因為它很慢而且費力。相反,人們喜歡以視覺和空間的方式接受信息,這正是傳統計算中圖形界面誕生的原因。同樣地,大模型應以我們喜愛的方式輸出信息——如圖像、信息圖、幻燈片、白板、動畫/視頻、網頁應用等。早期的實現形式包括表情符號和Markdown(輕量級文本標注語言),它們通過標題、加粗、列表、表格等方式“裝扮”文本以提升可讀性。

      但究竟誰來構建大模型的圖形用戶界面呢?Nano Banana為此提供了第一個雛形。關鍵在于,它不僅涉及圖像生成能力,更融合了文本生成、圖像創作與世界知識,這些能力交織于模型權重之中,形成復合型智能。

      七、結語

      總而言之,2025年是大模型令人興奮又略帶驚喜的一年。大模型正在演化成一種新型智能,既比我預期的聰明得多,又比我預期的笨拙得多。無論如何,它們非常有用,而我認為行業至今尚未發掘出當前能力潛力的10%。與此同時,這個領域依然充滿嘗試空間與開放性概念。正如今年早些時候我在Dwarkesh播客中提到的:“我同時持有兩種看似矛盾的觀點:一方面相信進展將持續加速,另一方面認為仍有大量基礎工作亟待完成?!毕岛冒踩珟?,迎接變革。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      克里姆林宮:俄中將遇害,普京立即收到了匯報

      克里姆林宮:俄中將遇害,普京立即收到了匯報

      參考消息
      2025-12-22 21:22:06
      俄軍越境擄掠烏克蘭老年人!莫斯科拖欠出兵費,第三國撤兵回國?

      俄軍越境擄掠烏克蘭老年人!莫斯科拖欠出兵費,第三國撤兵回國?

      鷹眼Defence
      2025-12-22 18:05:52
      金融賦能產業:中柬金融·產業合作論壇圓滿落幕

      金融賦能產業:中柬金融·產業合作論壇圓滿落幕

      晨哨網
      2025-12-22 22:05:16
      網友街頭偶遇46歲秦嵐,身材豐乳肥臀,前凸后翹,魏大勛眼光真絕

      網友街頭偶遇46歲秦嵐,身材豐乳肥臀,前凸后翹,魏大勛眼光真絕

      喜歡歷史的阿繁
      2025-12-23 02:15:38
      迪麗熱巴“天使蹲”火出圈,顏值驚艷全網,醫生:無基礎者慎入

      迪麗熱巴“天使蹲”火出圈,顏值驚艷全網,醫生:無基礎者慎入

      悠悠說世界
      2025-12-21 08:34:39
      B站發布關于“蘿卜陳震同學”賬號封禁說明

      B站發布關于“蘿卜陳震同學”賬號封禁說明

      IT之家
      2025-12-22 16:35:12
      楊瀚森連續5場DNP!開拓者遭東部第一雙殺 杜倫26+10夏普25分

      楊瀚森連續5場DNP!開拓者遭東部第一雙殺 杜倫26+10夏普25分

      醉臥浮生
      2025-12-23 13:40:10
      絕了!姆巴佩偏愛伊萬卡的底層邏輯,竟是“大奶牛經濟學”的勝利

      絕了!姆巴佩偏愛伊萬卡的底層邏輯,竟是“大奶牛經濟學”的勝利

      羅氏八卦
      2025-12-22 23:20:03
      《驕陽似我》首播4集熱度破24000,觀眾差評大同小異,都沖著男二

      《驕陽似我》首播4集熱度破24000,觀眾差評大同小異,都沖著男二

      喜歡歷史的阿繁
      2025-12-23 10:04:09
      “小婉君”金銘現狀:個子太矮事業受挫,住北京豪宅不婚不育

      “小婉君”金銘現狀:個子太矮事業受挫,住北京豪宅不婚不育

      小熊侃史
      2025-12-23 11:55:15
      約翰遜強調中期選舉至關重要,如果失去多數席位,特朗普會被彈劾

      約翰遜強調中期選舉至關重要,如果失去多數席位,特朗普會被彈劾

      山河路口
      2025-12-23 00:02:35
      新加坡對中國最瘋狂的豪賭,已經開始,海南封關是神來之筆

      新加坡對中國最瘋狂的豪賭,已經開始,海南封關是神來之筆

      嘆知
      2025-12-22 15:21:35
      乾隆當朝問誰最忠,劉墉答大清無忠臣,皇帝大笑后重賞老臣

      乾隆當朝問誰最忠,劉墉答大清無忠臣,皇帝大笑后重賞老臣

      曉艾故事匯
      2025-12-18 17:19:32
      對華合約全部撕毀!中國又一伙伴背后捅刀,騙走20億倒向美國

      對華合約全部撕毀!中國又一伙伴背后捅刀,騙走20億倒向美國

      離離言幾許
      2025-12-20 19:56:40
      言承旭這身“漏洞”穿搭太絕!年近五十仍少年,誰的青春DNA動了

      言承旭這身“漏洞”穿搭太絕!年近五十仍少年,誰的青春DNA動了

      韓馳
      2025-12-22 17:19:04
      涉事科室已關停:寧波大學附屬婦女兒童醫院“小洛熙事件”全記錄

      涉事科室已關停:寧波大學附屬婦女兒童醫院“小洛熙事件”全記錄

      腫瘤醫學論壇
      2025-12-22 19:53:27
      退休人員留意!12月31日前務必辦3件事,不然1月養老金或將停發

      退休人員留意!12月31日前務必辦3件事,不然1月養老金或將停發

      李博世財經
      2025-12-23 10:17:00
      宣告奇跡出現剛2個月,蔡磊再破天花板,讓整個科研界“沉默”了

      宣告奇跡出現剛2個月,蔡磊再破天花板,讓整個科研界“沉默”了

      大眼妹妹
      2025-11-27 20:17:22
      過春節為何沒有以前那種濃濃的年味了?這是我見過最簡明易懂回答

      過春節為何沒有以前那種濃濃的年味了?這是我見過最簡明易懂回答

      另子維愛讀史
      2025-12-22 16:55:55
      南博事件繼續升級!借走字畫的神秘“老同志”是誰?全網都在找…

      南博事件繼續升級!借走字畫的神秘“老同志”是誰?全網都在找…

      火山詩話
      2025-12-21 06:56:09
      2025-12-23 13:52:49
      智東西 incentive-icons
      智東西
      聚焦智能變革,服務產業升級。
      10955文章數 116931關注度
      往期回顧 全部

      科技要聞

      慘烈90分鐘!快手驚魂:遭遇最強黑產攻擊

      頭條要聞

      江蘇省委省政府成立調查組 對南京博物院開展全面調查

      頭條要聞

      江蘇省委省政府成立調查組 對南京博物院開展全面調查

      體育要聞

      用冠軍致敬迭戈時代 ”超級“那不勒斯捧杯

      娛樂要聞

      阿信發聲報平安,曬演唱會向F3索吻畫面

      財經要聞

      直播間涉黃?快手:遭到黑灰產攻擊已報警

      汽車要聞

      四款新車集中發布 星途正式走進3.0時代

      態度原創

      藝術
      教育
      旅游
      數碼
      公開課

      藝術要聞

      朱總理的詩句驚艷眾人,張家界竟藏有這樣的美景!

      教育要聞

      女兒臥室里的東西,氣得我手抖,母親失控:她才上初中啊

      旅游要聞

      船營區雪季攻略(二) 城市記憶之旅

      數碼要聞

      集邦咨詢:12月電視面板價格全面止跌 筆電面板價格或將承壓調整

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人妻码中文字幕| 人人玩人人添人人澡超碰| 中文字幕人妻熟女在线| 欧美高清一区三区在线专区| 久久久精品人妻一区二区三区蜜桃| 久久在线看| 动漫AV纯肉无码AV电影网| 国产真实露脸乱子伦| 极品人妻系列| 欧美性交网| 无码伊人66久久大杳蕉网站谷歌| 免费无遮挡无码视频网站| 日本牲交大片免费观看| 欧美视频一区| 国产精品美女毛片j酒店| 日韩精品人成在线播放| 中文字幕日韩精品有码视频| 阿图什市| 国产精品A片| 国产精品高清一区二区三区| 中文字幕日产无码| 亚洲日韩av无码一区二区三区人| 一区二区三区网址| 超碰人人操| 成在线人永久免费视频播放| 国产成人a人亚洲精品无码| 国产99久一区二区三区a片| 欧美精品无码| 999国产精品| 亚洲最大成人| 免费A级毛片无码A∨蜜芽试看| 中文字幕在线亚洲日韩6页| 在线天堂www在线| 九九精品在线看| 99青青草| 富婆熟妇熟女二区三区| 久久国产精品夜色| 中国少妇内射xxxhd| 中国china体内裑精亚洲日本| 精品流白浆| 大帝AV|