<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      近兩百萬人圍觀的Karpathy年終大語言模型清單,主角是它們

      0
      分享至


      來源:機器之心

      編輯:杜偉

      2025 年還有 10 天就要結(jié)束,這意味著是時候進(jìn)行一波年終總結(jié)了。

      對于人工智能領(lǐng)域而言,2025 年是大語言模型(LLM)快速演進(jìn)、重磅事件密集出現(xiàn)的一年。

      就在昨天,知名 AI 學(xué)者 Karpathy 列出了一份清單,記錄了他個人認(rèn)為最重要、也多少有些出乎意料的「范式轉(zhuǎn)變」。


      這些真正改變了行業(yè)格局、并在概念層面讓 Karpathy 印象深刻的變化會落在哪些領(lǐng)域呢?我們接下來一一來看(以第一人稱)。

      可驗證獎勵強化學(xué)習(xí)(RLVR)

      2025 年初,幾乎所有實驗室的 LLM 生產(chǎn)訓(xùn)練流程都像下面這樣:

      • 預(yù)訓(xùn)練(類似 2020 年的 GPT-2/3);

      • 監(jiān)督微調(diào)(SFT,類似 2022 年的 InstructGPT)

      • 基于人類反饋的強化學(xué)習(xí)(RLHF,約 2022 年)

      這套流程穩(wěn)定、可靠,曾長期被視為「工業(yè)級 LLM」的標(biāo)準(zhǔn)做法。

      但在 2025 年,一種新的階段浮出水面,并迅速成為事實上的標(biāo)配:可驗證獎勵強化學(xué)習(xí)(Reinforcement Learning from Verifiable Rewards,RLVR)

      RLVR 的核心做法是,讓模型在可自動驗證的環(huán)境中接受強化學(xué)習(xí)訓(xùn)練,比如數(shù)學(xué)題、代碼題、邏輯謎題等。在這些環(huán)境中,模型自發(fā)學(xué)會一些在人類看來非常像「推理」的策略:它會把復(fù)雜問題拆解成中間步驟,并反復(fù)試探、修正路徑,逐步逼近答案(DeepSeek R1 的論文中有不少很好的例子)。

      在以往的 SFT 或 RLHF 框架下,這類「推理軌跡」是極難人為設(shè)計出來的。這是因為我們并不知道對模型而言,什么才是「最優(yōu)的思考過程」。而在 RLVR 中,模型可以通過優(yōu)化獎勵函數(shù),自行摸索出對自己最有效的解題方式。

      此外,與 SFT 和 RLHF 這種「計算量相對較小的薄層微調(diào)」不同,RLVR 使用的是客觀、難以被投機取巧的獎勵函數(shù),這使得訓(xùn)練可以跑得非常久。結(jié)果就是:RLVR 提供了極高的能力 / 成本比,大量吞噬了原本準(zhǔn)備用于預(yù)訓(xùn)練的算力。

      因此,2025 年的大部分能力提升,并不是來自模型規(guī)模的暴漲,而是來自相似規(guī)模模型 + 更長時間的 RL 訓(xùn)練。這個階段還帶來了一個全新的「旋鈕」:通過在推理時生成更長的思考鏈條、投入更多測試時算力,模型能力可以繼續(xù)提升,并呈現(xiàn)出新的 scaling law。

      OpenAI 的 o1(2024 年底)是第一個明確展示 RLVR 思路的模型,而 2025 年初的 o3,則是那個讓人直觀感受到質(zhì)變拐點的版本。

      幽靈 vs 動物:鋸齒狀智能

      2025 年,是我(以及我認(rèn)為整個行業(yè))第一次真正直覺性地理解了 LLM 智能的「形狀」。我們并不是在「培育或進(jìn)化動物」,而是在「召喚幽靈」。

      LLM 的一切都和人類不同:神經(jīng)結(jié)構(gòu)不同、訓(xùn)練數(shù)據(jù)不同、訓(xùn)練算法不同,最關(guān)鍵的是優(yōu)化目標(biāo)完全不同。人類神經(jīng)系統(tǒng),是為叢林生存、部落協(xié)作而優(yōu)化的;而 LLM 是為模仿人類文本、在數(shù)學(xué)謎題中拿分、在 LM Arena 里獲得點贊而優(yōu)化的。

      一旦某些領(lǐng)域具備可驗證性,RLVR 就會在這些區(qū)域「長出尖刺」。于是我們看到的,是一種鋸齒化(jagged)明顯的能力分布:它們可以在某些領(lǐng)域表現(xiàn)得像博學(xué)的天才,同時又在另一些地方像困惑的小學(xué)生,甚至輕易被 jailbreak 套走隱私數(shù)據(jù)。



      我很喜歡一張 meme:人類智能是藍(lán)色曲線,AI 是紅色曲線。它也提醒我們:人類智能本身,同樣是鋸齒狀的,只是形狀不同。

      這也解釋了我在 2025 年對基準(zhǔn)普遍不當(dāng)回事與不信任。問題在于:基準(zhǔn)測試本質(zhì)上就是可驗證環(huán)境,因此天然容易被 RLVR 或弱化版本的「合成數(shù)據(jù)訓(xùn)練」所攻破。

      在現(xiàn)實中,模型團隊往往會在基準(zhǔn)所在的嵌入空間附近「培育能力突起」,把 jaggies 精準(zhǔn)地長到測試點上。「在測試集上訓(xùn)練」已經(jīng)演變成了一門藝術(shù)

      那么問題來了:如果一個模型碾壓了所有基準(zhǔn),卻依然不是 AGI,那意味著什么?

      Cursor:LLM 應(yīng)用的新一層

      Cursor 在 2025 年的爆發(fā)本身就很驚人,但對我而言,更重要的是:它清晰地揭示了一種全新的 LLM 應(yīng)用層

      人們開始說,「這是某某領(lǐng)域的 Cursor」。在我今年 YC 演講中提到過:像 Cursor 這樣的 LLM 應(yīng)用,本質(zhì)是在為特定垂直領(lǐng)域打包和編排 LLM 能力:

      • 上下文工程(context engineering);

      • 在后臺編排多次 LLM 調(diào)用,形成越來越復(fù)雜的 DAG,同時平衡成本與性能;

      • 提供面向人的、領(lǐng)域?qū)S玫?GUI;

      • 提供「自主性滑塊」(autonomy slider)。

      2025 年圍繞著一個問題出現(xiàn)了大量討論:這一層會有多厚?LLM 實驗室會不會吞掉所有應(yīng)用?還是說,LLM 應(yīng)用層依然有廣闊空間?

      我個人的判斷是:基礎(chǔ)模型會趨向于「一個通用能力很強的大學(xué)畢業(yè)生」,而真正把他們組織成專業(yè)團隊、在具體行業(yè)中落地的會是應(yīng)用層,通過私有數(shù)據(jù)、傳感器、執(zhí)行器和反饋回路將模型組織并投入實際工作流程」。

      Claude Code:住在你電腦里的 AI

      Claude Code(CC)是我第一次覺得:「這才像一個真正的 LLM Agent。」它以循環(huán)方式將推理與工具調(diào)用串聯(lián)起來,能持續(xù)解決長任務(wù)。

      更重要的是:它運行在你的本地電腦上,直接使用你的環(huán)境、數(shù)據(jù)和上下文。

      我認(rèn)為 OpenAI 在這里判斷失誤了:他們把 agent /codex 的重心放在云端容器、由 ChatGPT 統(tǒng)一調(diào)度;而在一個能力鋸齒、起飛緩慢的世界里,更合理的順序其實是先讓 agent 成為開發(fā)者身邊的伙伴。

      Claude Code 在這點上做對了,并且用一個極其優(yōu)雅、極簡、極具說服力的 CLI 形態(tài)呈現(xiàn)出來。

      AI 不再只是一個你訪問的網(wǎng)站,而是一個住在你電腦里的小幽靈。

      這是一次全新的交互范式轉(zhuǎn)變。

      Vibe Coding(氛圍編程)

      2025 年,是 AI 跨過某個關(guān)鍵門檻的一年:人們可以只用英語構(gòu)建復(fù)雜程序,甚至忘記代碼本身的存在。

      有趣的是,「vibe coding」這個詞,最早只是我一條隨手寫的推文,完全沒想到會流傳這么廣。

      Vibe coding 讓編程不再只是專業(yè)工程師的專利,任何人都可以上手;但同時,它也讓專業(yè)工程師可以寫出大量原本永遠(yuǎn)不會被寫出來的軟件。

      在 nanochat 項目中,我直接用 vibe coding 寫了一個高效的 Rust BPE tokenizer;我用它快速寫了很多 demo 項目(比如 menugen、llm-council、reader3、HN time capsule);甚至為了定位一個 bug,我會 vibe coding 一個臨時應(yīng)用,用完即棄。

      代碼變得不值錢、短暫存在、并可隨意改寫與丟棄

      Vibe coding 在重塑軟件形態(tài)之外,也會重塑工作角色。

      Nano Banana:LLM 的 GUI

      Google Gemini 的「Nano Banana」,是 2025 年最讓我震撼的模型之一。

      在我的世界觀里,LLM 是類似 1970–80 年代計算機的新一代通用計算范式,因此我們必然會看到類似的演化路徑:

      • 個人計算

      • 微控制器(認(rèn)知核心)

      • Agent 網(wǎng)絡(luò)(類似互聯(lián)網(wǎng))

      而在 UI/UX 層面,「聊天」就像 80 年代的命令行。文本是計算機最偏好的表示形式,但并不是人類最喜歡的輸入方式。人們更喜歡視覺化、空間化的信息 —— 這正是 GUI 出現(xiàn)的原因。

      同理,LLM 也應(yīng)該用我們偏好的形式與我們交流:圖片、信息圖、幻燈片、白板、動畫、網(wǎng)頁應(yīng)用……

      Emoji 和 Markdown 只是最早期、最粗糙的嘗試。那么,誰會構(gòu)建真正的 LLM GUI?在我看來,Nano Banana 是一個非常早期但重要的信號。

      它的意義不只在于圖像生成,而在于:文本、圖像與世界知識在同一模型中深度糾纏

      最后總結(jié)

      2025 年,是一個令人興奮、也充滿意外的大模型之年。

      LLM 正在顯現(xiàn)出一種全新的智能形態(tài):它們既比我預(yù)期的聰明得多,又比我預(yù)期的愚蠢得多

      但無論如何,它們已經(jīng)極其有用,而我認(rèn)為行業(yè)甚至還沒有發(fā)揮出它們 10% 的潛力。

      想法太多,空間太大,這個領(lǐng)域仍然是開放的。

      正如我今年在 Dwarkesh 播客中說過的那樣:

      我一方面相信進(jìn)展會持續(xù)且迅猛,另一方面也清楚,還有大量艱苦而細(xì)致的工作要做。

      「系好安全帶」,接下來只會更快。


      原推鏈接:https://x.com/karpathy/status/2002118205729562949

      閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

      https://wx.zsxq.com/group/454854145828


      未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟、人類風(fēng)險等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      如今“家喻戶曉”的明代畫家仇英,他在古代畫家中歷史地位如何?

      如今“家喻戶曉”的明代畫家仇英,他在古代畫家中歷史地位如何?

      老范談史
      2025-12-25 10:24:43
      三殺雷霆,豪取8連勝!一超多強的西部,看來真要變天了

      三殺雷霆,豪取8連勝!一超多強的西部,看來真要變天了

      移動擋拆
      2025-12-26 07:10:35
      確認(rèn)了!右膝骨挫傷!NBA最慘強隊誕生

      確認(rèn)了!右膝骨挫傷!NBA最慘強隊誕生

      籃球?qū)崙?zhàn)寶典
      2025-12-25 19:19:48
      比估值低2.6億仍流拍!成都老牌奢侈品商場無人接盤

      比估值低2.6億仍流拍!成都老牌奢侈品商場無人接盤

      樓市全搜索
      2025-12-25 20:08:08
      28年前直播香港回歸4位主持人,2人去世1人墮落,僅一人順利退休

      28年前直播香港回歸4位主持人,2人去世1人墮落,僅一人順利退休

      小熊侃史
      2025-12-19 11:04:51
      倫納德41分殺瘋,哈登14罰12中硬扛,6個問題戳穿兩隊真相

      倫納德41分殺瘋,哈登14罰12中硬扛,6個問題戳穿兩隊真相

      籃球看比賽
      2025-12-25 11:13:09
      陪睡陪玩只是冰山一角!萬達(dá)蒸發(fā)800億后,王思聰再次傳出大丑聞

      陪睡陪玩只是冰山一角!萬達(dá)蒸發(fā)800億后,王思聰再次傳出大丑聞

      天天熱點見聞
      2025-12-25 08:19:00
      偶遇郭晶晶一家逛街,給女兒買蜜雪冰城,80歲公公霍震霆一旁結(jié)賬

      偶遇郭晶晶一家逛街,給女兒買蜜雪冰城,80歲公公霍震霆一旁結(jié)賬

      好賢觀史記
      2025-12-25 23:39:14
      Goal發(fā)布2026年金球獎實力榜:凱恩居首,哈蘭德第2,梅西第9

      Goal發(fā)布2026年金球獎實力榜:凱恩居首,哈蘭德第2,梅西第9

      懂球帝
      2025-12-25 17:16:09
      英國首富、戴森公司創(chuàng)始人將6.24億英鎊轉(zhuǎn)至新加坡,其英國實體股本被削減至1英鎊

      英國首富、戴森公司創(chuàng)始人將6.24億英鎊轉(zhuǎn)至新加坡,其英國實體股本被削減至1英鎊

      紅星新聞
      2025-12-24 21:58:21
      國行iPhone對比滿血版差距太明顯,深扒蘋果在國內(nèi)消失的30項功能

      國行iPhone對比滿血版差距太明顯,深扒蘋果在國內(nèi)消失的30項功能

      小8說科技
      2025-12-24 14:26:17
      官宣!新地鐵線開通時間:周六10時15分,濟南地鐵4、8號線和6號線三線齊發(fā)!

      官宣!新地鐵線開通時間:周六10時15分,濟南地鐵4、8號線和6號線三線齊發(fā)!

      魯中晨報
      2025-12-26 07:05:06
      內(nèi)行人預(yù)測2026年大勢,4大現(xiàn)象席卷全國!

      內(nèi)行人預(yù)測2026年大勢,4大現(xiàn)象席卷全國!

      老特有話說
      2025-12-25 12:01:20
      國際足聯(lián)主席祝賀海港成立20周年遭球迷嘲諷:評論區(qū)堪比德云社

      國際足聯(lián)主席祝賀海港成立20周年遭球迷嘲諷:評論區(qū)堪比德云社

      姜大叔侃球
      2025-12-25 10:24:18
      某車企南極測試遭質(zhì)疑,目前南極是夏季!

      某車企南極測試遭質(zhì)疑,目前南極是夏季!

      電動知家
      2025-12-25 08:41:32
      令人震驚!柬埔寨生命科學(xué)院,院里面全都是中文的服務(wù)(多圖)

      令人震驚!柬埔寨生命科學(xué)院,院里面全都是中文的服務(wù)(多圖)

      微微熱評
      2025-12-24 12:22:04
      達(dá)成了!西蒙斯正式收購!這可是NBA狀元秀

      達(dá)成了!西蒙斯正式收購!這可是NBA狀元秀

      籃球?qū)崙?zhàn)寶典
      2025-12-25 22:19:36
      小米17 Ultra正式發(fā)布:迄今最薄Ultra,售價6999元起

      小米17 Ultra正式發(fā)布:迄今最薄Ultra,售價6999元起

      財聞
      2025-12-25 19:57:15
      沒有水貨!NBA公布新秀榜TOP10:馬刺榜眼重返前5 不愧是選秀大年

      沒有水貨!NBA公布新秀榜TOP10:馬刺榜眼重返前5 不愧是選秀大年

      鍋子籃球
      2025-12-25 11:00:24
      完顏阿骨打時期的金軍是無解的:就算蒙古鐵騎早出世也難以匹敵!

      完顏阿骨打時期的金軍是無解的:就算蒙古鐵騎早出世也難以匹敵!

      形上謂道
      2025-12-24 15:58:27
      2025-12-26 09:32:49
      人工智能學(xué)家 incentive-icons
      人工智能學(xué)家
      人工智能領(lǐng)域權(quán)威媒體
      4420文章數(shù) 37357關(guān)注度
      往期回顧 全部

      科技要聞

      “不再是機器人大國”,日本錯過了什么?

      頭條要聞

      網(wǎng)友取300元少5元被銀行員工拿走 公開后被人上門威脅

      頭條要聞

      網(wǎng)友取300元少5元被銀行員工拿走 公開后被人上門威脅

      體育要聞

      約基奇有多喜歡馬?

      娛樂要聞

      朱孝天把阿信好意當(dāng)球踢!

      財經(jīng)要聞

      涉案近300億元 多方圍剿金融“黑灰產(chǎn)”

      汽車要聞

      速來!智界在上海西岸準(zhǔn)備了年末潮流盛典

      態(tài)度原創(chuàng)

      家居
      本地
      教育
      房產(chǎn)
      手機

      家居要聞

      經(jīng)典彌新 品味浪漫居所

      本地新聞

      這輩子要積多少德,下輩子才能投胎到德國當(dāng)狗

      教育要聞

      二次函數(shù)面積最值問題,一個視頻學(xué)會!

      房產(chǎn)要聞

      太猛了!單月新增企業(yè)4.1萬家,又一波巨頭涌向海南!

      手機要聞

      小米17 Ultra發(fā)布6999元起 移動影像新上限

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 久久综合香蕉国产蜜臀av| 色狠狠一区二区三区香蕉| 影音先锋资源在线| 国产熟妇勾子乱视频| 国产激情无码一区二区app| 国产av一区二区三区| 97福利| 精品久久久久久无码人妻蜜桃| 77777_亚洲午夜久久多人| 夜夜嗨av| 黄色综合| 中年国产丰满熟女乱子正在播放| 亚洲九九九| 国产网红女主播精品视频| AV资源吧| 会理县| 亚洲∧V| 久久做受www| 又粗又大中文字幕| 亚洲男人天堂| 精品无码老熟妇magnet| 久久婷婷国产精品香蕉| 91精品网| 人妻有码av中文字幕久久琪| 老子午夜精品无码不卡| 天堂在线www天堂中文在线| 乌兰县| 最新日韩无码中文字幕| mm1313亚洲国产精品| www亚洲精品少妇裸乳一区二区 | 精品国产日韩亚洲一区| 亚洲va综合va国产va中文| 中文字幕有码在线观看| 你懂的国产在线| 亚洲AV成人无码久久精品黑人| jizzjizzjizzjizzjizzjizzjizzjizzjizz| 国产jizzjizz视频| 樱花草视频www日本韩国| 国产熟妇搡bbbb搡bbbb| 亚洲国产精品va在线看黑人| 大伊香蕉在线精品视频75|