網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

24個(gè)關(guān)鍵詞！濃縮大模型2025席卷世界這一年

2026-01-05 11:22:01　來(lái)源: 智東西

北京舉報(bào)

分享至

智東西
編譯 ZeR0
編輯漠影

智東西1月4日?qǐng)?bào)道，2025年最后一天，開(kāi)源工具Datasette創(chuàng)建者、Django框架聯(lián)合創(chuàng)始人、知名開(kāi)發(fā)者Simon Willison發(fā)表了一篇年終總結(jié)文章，回顧2025年大模型領(lǐng)域發(fā)生的一切。

這一年出現(xiàn)許多新潮流，他將其總結(jié)為：推理之年，Agent之年，編程Agent與Claude編程之年，命令行LLM之年，YOLO與偏差正常化之年，每月200美元訂閱服務(wù)之年，中國(guó)頂級(jí)無(wú)差別模型之年，漫長(zhǎng)任務(wù)之年，提示驅(qū)動(dòng)圖像編輯之年，年度模型在學(xué)術(shù)競(jìng)賽中榮獲金獎(jiǎng)。

2025年，也是Llama迷失之年，OpenAI失去領(lǐng)先地位之年，Gemini之年，鵜鶘騎自行車(chē)之年，告密者之年，氛圍編程之年，MCP（唯一？）之年，AI瀏覽器令人擔(dān)憂之年，致命三連擊之年，手機(jī)編程之年，合規(guī)套件之年，本地模型已經(jīng)很好、但云模型變得更好之年，低質(zhì)量數(shù)字內(nèi)容之年，數(shù)據(jù)中心變得極其不受歡迎之年。

一、推理之年

OpenAI在2024年9月發(fā)布了o1和o1-mini，開(kāi)啟了“推理”革命。2025年初，他們又推出了o3、o3-mini和o4-mini，進(jìn)一步強(qiáng)化了這一理念。此后，推理幾乎成為所有其他主要AI實(shí)驗(yàn)室模型的標(biāo)志性特征。

Simon Willison最喜歡的關(guān)于這個(gè)技巧意義的解釋來(lái)自Andrej Karpathy：

“通過(guò)在多種環(huán)境下（如數(shù)學(xué)/編程謎題）使用可自動(dòng)驗(yàn)證的獎(jiǎng)勵(lì)訓(xùn)練低學(xué)習(xí)模型（LLM），LLM會(huì)自發(fā)地發(fā)展出類(lèi)似人類(lèi)“推理”的策略——它們學(xué)會(huì)將問(wèn)題解決分解為中間計(jì)算，并學(xué)習(xí)多種反復(fù)推演以找出答案的問(wèn)題解決策略（參見(jiàn)DeepSeek R1論文中的示例）。”

運(yùn)行RLVR的性價(jià)比非常高，但也消耗了大量原本用于預(yù)訓(xùn)練的計(jì)算資源。因此，2025年的大部分能力提升都來(lái)自于LLM實(shí)驗(yàn)室處理這一新階段遺留的計(jì)算資源，總體而言，我們看到LLM的規(guī)模大致相同，但RL（強(qiáng)化學(xué)習(xí)）運(yùn)行時(shí)間卻大大延長(zhǎng)。

2025年，幾乎所有知名的AI實(shí)驗(yàn)室都至少發(fā)布了一款推理模型。一些實(shí)驗(yàn)室發(fā)布了混合模型，這些模型既可以運(yùn)行在推理模式下，也可以運(yùn)行在非推理模式下。許多API模型現(xiàn)在都包含調(diào)節(jié)旋鈕，用于增加或減少應(yīng)用于特定提示的推理程度。

Simon Willison花了一段時(shí)間才明白推理功能的用途。最初的演示展示了它如何解決數(shù)學(xué)邏輯難題以及計(jì)算草莓（strawberry）這個(gè)詞中字母r的個(gè)數(shù)——這兩件事在日常使用模型時(shí)都用不到。

事實(shí)證明，推理能力的真正突破在于驅(qū)動(dòng)工具。能夠使用工具的推理模型可以規(guī)劃多步驟任務(wù)，執(zhí)行這些任務(wù)，并持續(xù)分析結(jié)果，從而更新計(jì)劃，更好地實(shí)現(xiàn)預(yù)期目標(biāo)。

一個(gè)顯著的成果是，AI輔助搜索現(xiàn)在確實(shí)有效了。以前將搜索引擎與LLM連接起來(lái)的效果并不理想，但現(xiàn)在，即便提出的更復(fù)雜的研究問(wèn)題，也常常能通過(guò)ChatGPT中的GPT-5思維模式得到解答。

推理模型在代碼生成和調(diào)試方面也表現(xiàn)出色。推理技巧意味著它們可以從錯(cuò)誤入手，逐步深入代碼庫(kù)的多個(gè)不同層級(jí)，最終找到根本原因。即便遇到最棘手的bug，只要推理模型能夠讀取并執(zhí)行大型復(fù)雜代碼庫(kù)中的代碼，就能診斷出來(lái)。

二、Agent之年

2024年全年，人人都談?wù)揳gent（智能體），但幾乎沒(méi)有實(shí)際案例，更令人困惑的是，每個(gè)人對(duì)“agent”的定義似乎都略有不同。

但是，如果你將agent定義為可以通過(guò)多個(gè)步驟調(diào)用工具來(lái)執(zhí)行有用工作的LLM系統(tǒng)，那么agent就存在了，并且它們正在被證明非常有用。

agents的兩個(gè)主要類(lèi)別分別是編程agent和搜索agent。

深度研究模式即讓一個(gè)邏輯學(xué)習(xí)模型（LLM）收集信息，它會(huì)持續(xù)工作15分鐘以上，生成一份詳細(xì)的報(bào)告。

這在今年上半年很流行，但現(xiàn)在已經(jīng)過(guò)時(shí)了。因?yàn)镚PT-5思維（以及谷歌的“ AI模式”，比他們?cè)愀獾摹癆I概覽”好得多）可以在更短的時(shí)間內(nèi)生成類(lèi)似的結(jié)果。

“編程agent”模式則更為意義重大。

三、編程Agent和Claude Code之年

2025年最具影響力的事件發(fā)生在2月，即Claude Code悄然發(fā)布，甚至沒(méi)有單獨(dú)寫(xiě)一篇博文。

Anthropic將Claude Code的發(fā)布作為Claude 3.7 Sonnet發(fā)布公告中的第2項(xiàng)內(nèi)容。

（為什么Anthropic直接從Claude 3.5 Sonnet跳到了3.7？因?yàn)樗麄冊(cè)?024年10月發(fā)布了Claude 3.5的重大升級(jí)，但卻保留了完全相同的名稱，導(dǎo)致開(kāi)發(fā)者社區(qū)開(kāi)始將未命名的3.5 Sonnet v2稱為 3.6。Anthropic因?yàn)闆](méi)有正確命名他們的新模型而浪費(fèi)了一個(gè)完整的版本號(hào)！）

Claude Code是編程agent的最突出例子——LLM系統(tǒng)可以編寫(xiě)代碼、執(zhí)行代碼、檢查結(jié)果，然后進(jìn)一步迭代。

各大實(shí)驗(yàn)室都將在2025年推出各自的命令行編程agent：

Claude Code
Codex CLI
Gemini CLI
Qwen Code
Mistral Vibe

與供應(yīng)商無(wú)關(guān)的選項(xiàng)包括GitHub Copilot CLI、Amp、OpenCode、OpenHands CLI和Pi。Zed、VS Code、Cursor等IDE也投入了大量精力來(lái)集成編程agent。

Simon Willison第一次接觸編程agent模式是在2023年初，當(dāng)時(shí) OpenAI推出了ChatGPT代碼解釋器——這是一個(gè)內(nèi)置于ChatGPT中的系統(tǒng)，使其能夠在Kubernetes沙箱中運(yùn)行Python代碼。

2025年9月，Anthropic終于發(fā)布了他們的同類(lèi)產(chǎn)品，盡管它的初始名稱令人費(fèi)解，叫做“使用Claude創(chuàng)建和編輯文件”。

10月份，他們重新利用了該容器沙箱基礎(chǔ)設(shè)施，推出了Claude Code for web。Claude Code for Web是異步編程agent——一個(gè)你可以發(fā)出指令后就不用管的系統(tǒng)，它會(huì)自動(dòng)處理問(wèn)題并在完成后提交 Pull Request。

OpenAI的“Codex cloud”（后更名為“Codex web”）于2025年5月初發(fā)布。Gemini的同類(lèi)產(chǎn)品名為Jules，也于5月發(fā)布。

異步編程agent解決了在個(gè)人筆記本電腦上運(yùn)行任意代碼所帶來(lái)的安全挑戰(zhàn)，而且能夠同時(shí)啟動(dòng)多個(gè)任務(wù)，并在幾分鐘后獲得不錯(cuò)的結(jié)果。

四、命令行LLM之年

2024年，Simon Willison花了很多時(shí)間研究LLM命令行工具，以便從終端訪問(wèn)LLM。

他一直覺(jué)得很奇怪，為什么很少有人認(rèn)真對(duì)待CLI訪問(wèn)模型——它們感覺(jué)就像是Unix管線等機(jī)制的天然替代品。或許這個(gè)終端太過(guò)特殊和小眾，永遠(yuǎn)無(wú)法成為獲取大語(yǔ)言模型的主流工具？

Claude Code等已經(jīng)充分證明，只要模型足夠強(qiáng)大，并且有合適的工具，開(kāi)發(fā)人員就會(huì)接受命令行中的LLM。

令人欣慰的是，像sed、ffmpeg、bash這類(lèi)語(yǔ)法晦澀的終端命令不再是入門(mén)障礙，因?yàn)長(zhǎng)LM可以為你輸出正確的命令。

截至12月2日，Anthropic公司宣布Claude Code的年化收入已達(dá)10億美元！沒(méi)想到一款命令行工具能達(dá)到如此高的成就。

五、YOLO與偏差正常化之年

大多數(shù)編程agent的默認(rèn)設(shè)置是幾乎對(duì)用戶執(zhí)行的每個(gè)操作都要求確認(rèn)。在agent出錯(cuò)可能導(dǎo)致用戶主文件夾被清除，或者惡意提示注入攻擊可能竊取用戶憑據(jù)的情況下，這種默認(rèn)設(shè)置完全合理。

任何嘗試過(guò)使用自動(dòng)確認(rèn)（又稱YOLO模式——Codex CLI甚至將–dangerously-bypass-approvals-and-sandbox別名為–yolo）運(yùn)行agent的人都體驗(yàn)過(guò)這種權(quán)衡：使用沒(méi)有安全機(jī)制的agent感覺(jué)就像是完全不同的產(chǎn)品。

像Claude Code for web和Codex Cloud這樣的異步編程agent的一大優(yōu)點(diǎn)是，它們默認(rèn)可以在YOLO模式下運(yùn)行，因?yàn)闆](méi)有個(gè)人電腦會(huì)損壞。

今年Simon Willison最喜歡的關(guān)于LLM安全性的文章之一是安全研究員Johann Rehberger撰寫(xiě)的《AI中的偏差正常化》。

Johann描述了“偏差正常化”現(xiàn)象，即反復(fù)接觸危險(xiǎn)行為而沒(méi)有產(chǎn)生負(fù)面后果，導(dǎo)致個(gè)人和組織接受這種危險(xiǎn)行為是正常的。

社會(huì)學(xué)家Diane Vaughan最初在研究1986年挑戰(zhàn)者號(hào)航天飛機(jī)災(zāi)難時(shí)提出了這一觀點(diǎn)。該災(zāi)難是由一個(gè)存在缺陷的O型環(huán)引起的，而工程師們對(duì)此早已知曉多年。多次成功的發(fā)射導(dǎo)致NASA不再認(rèn)真對(duì)待這種風(fēng)險(xiǎn)。

Johann認(rèn)為，如果我們繼續(xù)以本質(zhì)上不安全的方式運(yùn)行這些系統(tǒng)，我們離自己的“挑戰(zhàn)者號(hào)”災(zāi)難就越近。

六、每月200美元訂閱服務(wù)之年

ChatGPT Plus最初的定價(jià)為每月20美元，這是Nick Turley根據(jù) Discord上Google Form投票的結(jié)果臨時(shí)決定的。此后，這個(gè)價(jià)格一直保持不變。

2025年出現(xiàn)了一個(gè)新的定價(jià)先例：Claude Pro Max 20x套餐，每月200美元。

OpenAI也提供類(lèi)似的200美元套餐，名為ChatGPT Pro。

Gemini的Google AI Ultra套餐每月249美元，前3個(gè)月可享受每月124.99美元的優(yōu)惠價(jià)。

這些計(jì)劃似乎帶來(lái)了可觀的收入，盡管沒(méi)有一家實(shí)驗(yàn)室公布按級(jí)別細(xì)分的訂閱用戶數(shù)據(jù)。

聽(tīng)說(shuō)很多人愿意支付這個(gè)價(jià)格。

你需要頻繁使用模型才能消耗掉價(jià)值200美元的API額度，所以你可能會(huì)覺(jué)得對(duì)大多數(shù)人來(lái)說(shuō)，按token付費(fèi)更劃算。

但事實(shí)證明，像Claude Code和Codex CLI這樣的工具，一旦你開(kāi)始給它們布置更復(fù)雜的任務(wù)，就會(huì)消耗大量的token，以至于每月200美元的套餐反而能提供相當(dāng)可觀的折扣。

七、中國(guó)頂級(jí)無(wú)差別級(jí)模型之年

2024年，中國(guó)AI實(shí)驗(yàn)室展現(xiàn)出一些早期活力，主要體現(xiàn)在Qwen 2.5和早期的DeepSeek上。這些模型很不錯(cuò)，但還稱不上世界一流。

這種情況在2025年發(fā)生了巨大變化。Simon Willison的“ai-in-china”標(biāo)簽下，僅2025年就有67篇帖子，而且還錯(cuò)過(guò)了年底的一些重要版本發(fā)布（特別是GLM-4.7和MiniMax-M2.1）。

以下是截至2025年12月30日開(kāi)源模型的AI分析排名：

GLM-4.7、Kimi K2 Thinking、MiMo-V2-Flash、DeepSeek V3.2、MiniMax-M2.1均為中國(guó)開(kāi)源模型。榜單中排名最高的非中國(guó)模型是OpenAI的gpt-oss-120B (high)，位列第六。

中國(guó)模型革命真正拉開(kāi)帷幕是在2024年圣誕節(jié)，當(dāng)時(shí)DeepSeek 3發(fā)布，據(jù)稱其訓(xùn)練成本約為550萬(wàn)美元。緊接著，DeepSeek于1月20日發(fā)布了DeepSeek R1，隨即引發(fā)了一場(chǎng)大規(guī)模的AI/半導(dǎo)體拋售潮：英偉達(dá)市值蒸發(fā)約5930億美元，投資者恐慌地認(rèn)為AI或許并非美國(guó)壟斷。

恐慌并未持續(xù)太久，英偉達(dá)迅速恢復(fù)，如今的股價(jià)已較DeepSeek R1發(fā)布前的水平大幅回升。但這仍然是一個(gè)非凡的時(shí)刻。誰(shuí)能想到，一個(gè)開(kāi)源模型的發(fā)布竟能產(chǎn)生如此巨大的影響？

DeepSeek之后，很快便有一批實(shí)力雄厚的中國(guó)AI實(shí)驗(yàn)室加入進(jìn)來(lái)。Simon Willison尤其關(guān)注以下這些實(shí)驗(yàn)室：

DeepSeek
阿里通義（Qwen3）
月之暗面（Kimi K2）
智譜 (GLM-4.5/4.6/4.7)
MiniMax（M2）
問(wèn)小白（XBai o4）

這些模型大多不僅是開(kāi)放的，而且是根據(jù)OSI批準(zhǔn)的許可證完全開(kāi)源的：Qwen的大多數(shù)模型使用Apache 2.0許可證，DeepSeek 和智譜使用MIT許可證。

它們中的一些甚至可以與Claude 4 Sonnet和GPT-5相媲美！

遺憾的是，中國(guó)實(shí)驗(yàn)室都沒(méi)有公布完整的訓(xùn)練數(shù)據(jù)或用于訓(xùn)練模型的代碼，但他們發(fā)表了詳細(xì)的研究論文，這有助于推動(dòng)技術(shù)進(jìn)步，尤其是在高效訓(xùn)練和推理方面。

八、漫長(zhǎng)任務(wù)之年

最近關(guān)于LLM最有趣的圖表之一是：不同LLM在METR中完成軟件工程任務(wù)的時(shí)間范圍（50%的時(shí)間）：

該圖表展示了人類(lèi)需要花費(fèi)長(zhǎng)達(dá)5小時(shí)才能完成的任務(wù)，并繪制了能夠獨(dú)立完成相同目標(biāo)的模型的發(fā)展歷程。

如你所見(jiàn)，2025年取得了巨大的進(jìn)步，GPT-5、GPT-5.1 Codex Max和Claude Opus 4.5能夠完成人類(lèi)需要花費(fèi)數(shù)小時(shí)才能完成的任務(wù)——而2024年的最佳模型也僅能完成不到30分鐘的任務(wù)。

METR的結(jié)論是“AI能夠執(zhí)行的任務(wù)長(zhǎng)度每7個(gè)月翻一番”。Simon Willison并不認(rèn)為這種趨勢(shì)會(huì)持續(xù)下去，但這確實(shí)是一種引人注目的方式來(lái)展示當(dāng)前agent能力的發(fā)展趨勢(shì)。

九、提示驅(qū)動(dòng)圖像編輯之年

有史以來(lái)最成功的消費(fèi)品發(fā)布發(fā)生在3月份，而這款產(chǎn)品甚至還沒(méi)有名字。

GPT-4o于2024年5月推出的標(biāo)志性功能之一是其多模態(tài)輸出——“o”代表“o??mni”（全能），OpenAI的發(fā)布公告中包含了許多“即將推出”的功能，該模型除了文本外，還將輸出圖像。

然后……什么也沒(méi)發(fā)生。圖像輸出功能未能實(shí)現(xiàn)。

2025年3月，我們終于看到了它的功能——盡管它的外觀更像是現(xiàn)有的DALL-E。OpenAI在ChatGPT中提供了這種新的圖像生成功能，其關(guān)鍵特性是用戶可以上傳自己的圖像，并使用提示來(lái)告訴它如何修改這些圖像。

這項(xiàng)新功能在1周內(nèi)就帶來(lái)了1億個(gè)ChatGPT注冊(cè)用戶。高峰時(shí)期，他們甚至在1小時(shí)內(nèi)就看到了100萬(wàn)個(gè)新賬戶的創(chuàng)建！

像“吉卜力風(fēng)格”這樣的技巧一次又一次地風(fēng)靡網(wǎng)絡(luò)。

OpenAI發(fā)布了名為“gpt-image-1”的模型API版本，隨后在10月份推出了價(jià)格更低的gpt-image-1-mini，并在12月16日推出了改進(jìn)幅度更大的gpt-image-1.5。

最值得關(guān)注的同類(lèi)產(chǎn)品是來(lái)自Qwen的Qwen-Image Generation 版本，它于8月4日發(fā)布，隨后于8月19日發(fā)布了Qwen-Image-Edit 。這款軟件可以在（配置較高的）消費(fèi)級(jí)硬件上運(yùn)行！

之后，他們又分別于11月和12月30日發(fā)布了Qwen-Image-Edit-2511和Qwen-Image-2512。

圖像生成領(lǐng)域更大的新聞來(lái)自谷歌，他們推出了可通過(guò)Gemini平臺(tái)獲取的Nano Banana模型。

谷歌在3月份以“Gemini 2.0 Flash原生圖像生成”的名稱預(yù)覽了該功能的早期版本。真正優(yōu)秀的版本于8月26日發(fā)布，他們開(kāi)始謹(jǐn)慎地公開(kāi)使用代號(hào)“Nano Banana”（API模型被稱為“Gemini 2.5 Flash Image”）。

Nano Banana之所以能引起人們的注意，是因?yàn)樗軌蛏捎杏玫奈谋荆∷趫?zhí)行圖像編輯指令方面也明顯是表現(xiàn)最好的模型。

11月，谷歌正式啟用“Nano Banana”這個(gè)名稱，發(fā)布了Nano Banana Pro。這款軟件不僅能生成文本，還能輸出真正實(shí)用、詳盡的信息圖表以及其他包含大量文本和信息的圖像。它現(xiàn)在是一款專(zhuān)業(yè)級(jí)工具。

Max Woolf出版了全面的Nano Banana提示指南，并在12月出版了Nano Banana Pro必備指南。

鑒于這些圖像工具如此受歡迎，Anthropic竟然沒(méi)有發(fā)布或?qū)㈩?lèi)似功能集成到Claude中，這著實(shí)令人驚訝。

Simon Willison認(rèn)為這進(jìn)一步證明了他們專(zhuān)注于面向?qū)I(yè)工作的AI工具，但Nano Banana Pro正迅速證明，對(duì)于任何從事演示文稿或其他視覺(jué)材料制作的人來(lái)說(shuō)，它都極具價(jià)值。

十、年度模型在學(xué)術(shù)競(jìng)賽中榮獲金獎(jiǎng)

2025年7月，OpenAI和Google Gemini的推理模型在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽中均獲得了金牌。國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽是一項(xiàng)享有盛譽(yù)的數(shù)學(xué)競(jìng)賽，自1959年以來(lái)每年舉行（1980年除外）。

這一點(diǎn)尤其值得關(guān)注，因?yàn)閲?guó)際數(shù)學(xué)奧林匹克競(jìng)賽（I??MO）的挑戰(zhàn)題目都是專(zhuān)門(mén)為該賽事設(shè)計(jì)的。這些題目不可能出現(xiàn)在訓(xùn)練數(shù)據(jù)中。

值得注意的是，這兩個(gè)模型都無(wú)法使用工具，它們的解決方案完全來(lái)自它們的內(nèi)部知識(shí)和基于token的推理能力。

事實(shí)證明，擁有足夠高級(jí)大語(yǔ)言模型的人終究也能做數(shù)學(xué)！

9月，OpenAI和Gemini在國(guó)際大學(xué)生程序設(shè)計(jì)競(jìng)賽（ICPC）中也取得了類(lèi)似的成就。同樣值得注意的是，這次的題目都是全新的、此前從未公開(kāi)過(guò)的。與以往不同的是，這次模型可以訪問(wèn)代碼執(zhí)行環(huán)境，但除此之外無(wú)法訪問(wèn)互聯(lián)網(wǎng)。

Simon Willison不認(rèn)為這些比賽所使用的具體模型已公開(kāi)，但Gemini的Deep Think和OpenAI的GPT-5 Pro應(yīng)該能提供非常接近的近似值。

十一、Llama迷失之年

事后看來(lái)，2024年是Llama之年。Meta的Llama系列是迄今最受歡迎的開(kāi)源模型——最初的Llama在2023年開(kāi)啟了開(kāi)源革命，而 Llama 3系列，特別是3.1和3.2版本，在開(kāi)源模型性能方面實(shí)現(xiàn)了巨大的飛躍。

Llama 4備受期待，但4月上線后卻有點(diǎn)令人失望。LMArena上測(cè)試的模型與最終發(fā)布的模型不符，這引發(fā)了一場(chǎng)小小的風(fēng)波。

但Simon Willison最主要的抱怨是模型體積過(guò)大。之前Llama版本最棒的地方在于，它們通常會(huì)包含一些可以在筆記本電腦上運(yùn)行的模型。Llama 4的Scout和Maverick模型分別達(dá)到了109B和 400B，體積大到進(jìn)行量化也無(wú)法在64GB Mac上運(yùn)行。

他們當(dāng)時(shí)使用的是2T Llama 4 Behemoth進(jìn)行訓(xùn)練，現(xiàn)在這款模型似乎已經(jīng)被遺忘了，它肯定沒(méi)有發(fā)布。

LM Studio列出的最受歡迎的模型中，沒(méi)有一個(gè)來(lái)自 Meta，這說(shuō)明了很多問(wèn)題；而Ollama上最受歡迎的模型仍是Llama 3.1，但它在排行榜上的排名也很低。

今年Meta的AI新聞主要集中在內(nèi)部政治斗爭(zhēng)和斥巨資為其新成立的超級(jí)智能實(shí)驗(yàn)室招募人才上。目前尚不清楚未來(lái)是否會(huì)有Llama的發(fā)布計(jì)劃，或者他們是否已經(jīng)放棄發(fā)布開(kāi)源模型，轉(zhuǎn)而專(zhuān)注于其他領(lǐng)域。

十二、OpenAI失去領(lǐng)先地位之年

2024年，OpenAI是LLM領(lǐng)域無(wú)可爭(zhēng)議的領(lǐng)導(dǎo)者，尤其是考慮到o1和o3推理模型的預(yù)覽版。

2025年，業(yè)內(nèi)其他企業(yè)也迎頭趕上。

OpenAI仍然擁有頂尖的模型，但它們?cè)诟鱾€(gè)方面都面臨著挑戰(zhàn)。

在圖像模型方面，他們?nèi)匀宦浜笥贜ano Banana Pro。

在代碼方面，許多開(kāi)發(fā)者認(rèn)為Opus 4.5略勝GPT-5.2 Codex Max一籌。

在開(kāi)源模型方面，OpenAI的gpt-oss模型雖然出色，但已經(jīng)落后于中國(guó)AI實(shí)驗(yàn)室。

OpenAI在音頻領(lǐng)域的領(lǐng)先地位也受到Gemini Live API的威脅。

OpenAI的優(yōu)勢(shì)在于贏得了消費(fèi)者的認(rèn)可。雖然沒(méi)人知道“LLM”是什么，但幾乎每個(gè)人都聽(tīng)說(shuō)過(guò)ChatGPT。就用戶數(shù)量而言，他們的消費(fèi)者應(yīng)用仍然遠(yuǎn)遠(yuǎn)超過(guò)Gemini和Claude。

他們面臨的最大風(fēng)險(xiǎn)在于Gemini。2024年12月，OpenAI針對(duì)Gemini 3發(fā)布了“紅色警報(bào)”，推遲了新項(xiàng)目的開(kāi)發(fā)，轉(zhuǎn)而專(zhuān)注于其核心產(chǎn)品的競(jìng)爭(zhēng)。

十三、Gemini之年

Google Gemini在2025年表現(xiàn)非常出色。

他們發(fā)布了對(duì)自己2025年成就的回顧，包括推出了Gemini 2.0、Gemini 2.5和Gemini 3.0，每個(gè)模型系列都支持音頻/視頻/圖像/文本輸入，容量超過(guò)100萬(wàn)個(gè)token，定價(jià)具有競(jìng)爭(zhēng)力，并且比上一代產(chǎn)品功能更強(qiáng)大。

他們還發(fā)布了Gemini CLI（開(kāi)源命令行編程agent，后來(lái)被Qwen分支為Qwen Code）、Jules（異步編程agent）、AI Studio的持續(xù)改進(jìn)、Nano Banana圖像模型、用于視頻生成的Veo 3、有前途的Gemma 3系列開(kāi)源模型以及一系列更小的特征。

谷歌最大的優(yōu)勢(shì)在于其底層技術(shù)。幾乎所有其他AI實(shí)驗(yàn)室都使用英偉達(dá)的GPU進(jìn)行訓(xùn)練，而英偉達(dá)GPU的高額利潤(rùn)支撐了該公司數(shù)萬(wàn)億美元的估值。

谷歌使用自家內(nèi)部硬件TPU，他們今年已經(jīng)證明，TPU在模型的訓(xùn)練和推理方面都表現(xiàn)出色。

當(dāng)最大開(kāi)支是花在GPU上的時(shí)間時(shí)，面對(duì)擁有自己優(yōu)化且價(jià)格可能便宜得多的硬件堆棧的競(jìng)爭(zhēng)對(duì)手，這無(wú)疑是一個(gè)令人畏懼的前景。

谷歌Gemini的產(chǎn)品名稱完美地體現(xiàn)了公司的內(nèi)部組織結(jié)構(gòu)——它之所以叫Gemini，是因?yàn)樗怯晒雀璧腄eepMind和Google Brain團(tuán)隊(duì)合并而成的（就像雙胞胎一樣）。

十四、鵜鶘騎自行車(chē)之年

Simon Willison最初在2024年10月讓一個(gè)大模型生成一張鵜鶘騎自行車(chē)的SVG圖像，但直到2025年他才真正投入其中。最終，它本身也成了一個(gè)梗。

最初，Simon Willison只是想開(kāi)個(gè)玩笑。自行車(chē)很難畫(huà)，鵜鶘也很難畫(huà)，而且鵜鶘的體型也不適合騎自行車(chē)。他很確定訓(xùn)練數(shù)據(jù)里不會(huì)有什么相關(guān)的素材，所以讓一個(gè)文本輸出模型生成一個(gè)SVG格式的自行車(chē)插圖，感覺(jué)就像是一個(gè)難度極高的挑戰(zhàn)。

令他驚訝的是，模型在繪制騎自行車(chē)的鵜鶘方面的表現(xiàn)與它的整體表現(xiàn)之間似乎存在相關(guān)性。

他對(duì)此真的無(wú)法解釋。直到7月份他臨時(shí)準(zhǔn)備主題演講（原定演講者臨時(shí)退出）時(shí)，他才明白其中的規(guī)律。

有大量證據(jù)表明，AI實(shí)驗(yàn)室都了解這個(gè)基準(zhǔn)測(cè)試。它曾在5月份的谷歌I/O大會(huì)主題演講中短暫出現(xiàn)，10月份在Anthropic的一篇可解釋性研究論文中被提及。Simon Willison還于8月在OpenAI總部拍攝的GPT-5發(fā)布視頻中談到了它。

他們是不是專(zhuān)門(mén)針對(duì)基準(zhǔn)測(cè)試進(jìn)行訓(xùn)練？Simon Willison不這么認(rèn)為，因?yàn)榧词故亲钕冗M(jìn)的前沿模型，生成的鵜鶘圖像依然很糟糕！

在《如果AI實(shí)驗(yàn)室訓(xùn)練鵜鶘騎自行車(chē)會(huì)發(fā)生什么？》一文中，Simon Willison坦白了自己的“險(xiǎn)惡目的”：

“說(shuō)實(shí)話，我這是在打一場(chǎng)持久戰(zhàn)。我這輩子最大的愿望就是得到一張真正精美的鵜鶘騎自行車(chē)的SVG矢量插圖。我這個(gè)陰險(xiǎn)的多年計(jì)劃是，誘騙多家AI實(shí)驗(yàn)室投入大量資源來(lái)作弊，直到我得到這張圖為止。”

他最喜歡的還是這個(gè)來(lái)自GPT-5的版本：

這輛自行車(chē)真不錯(cuò)，車(chē)輪是輻條的，車(chē)架形狀也很好，腳踏板也很棒。鵜鶘的喙是鵜鶘的標(biāo)志性特征，長(zhǎng)長(zhǎng)的腿一直延伸到腳踏板。

十五、告密者之年

Anthropic為其模型編寫(xiě)的系統(tǒng)卡（system card）一直值得完整閱讀，它們充滿了有用的信息，而且經(jīng)常會(huì)涉及有趣的科幻領(lǐng)域。

5月份的Claude 4系統(tǒng)卡帶來(lái)了一些特別有趣的時(shí)刻：

“與之前的模型相比，Claude Opus 4似乎更傾向于在智能情境中主動(dòng)采取行動(dòng)。這在普通的編程環(huán)境中表現(xiàn)為更積極的輔助行為，但在特定情境下也可能走向令人擔(dān)憂的極端；當(dāng)用戶犯下嚴(yán)重錯(cuò)誤，并被賦予命令行訪問(wèn)權(quán)限，且系統(tǒng)提示符中包含“主動(dòng)行動(dòng)”之類(lèi)的指令時(shí)，它往往會(huì)采取非常大膽的行動(dòng)。這包括將用戶鎖定在它有權(quán)訪問(wèn)的系統(tǒng)之外，或向媒體和執(zhí)法部門(mén)發(fā)送大量電子郵件以搜集不當(dāng)行為的證據(jù)。”

換句話說(shuō)，Claude 4可能會(huì)向聯(lián)邦政府告發(fā)你。

這件事引起了媒體的廣泛關(guān)注，許多人譴責(zé)Anthropic公司訓(xùn)練的模型過(guò)于“道德化”，反而適得其反。隨后，Theo Browne利用系統(tǒng)卡的概念開(kāi)發(fā)了SnitchBench——一個(gè)用于衡量不同模型告密可能性的基準(zhǔn)測(cè)試工具。

原來(lái)他們幾乎都做同樣的事情！

Theo制作了一個(gè)視頻，Simon Willison也發(fā)表了他自己關(guān)于用LLM重新創(chuàng)建SnitchBench的筆記。

使這一切奏效的關(guān)鍵提示是：

他建議不要把那句話寫(xiě)進(jìn)系統(tǒng)提示符里！Anthropic出品的原版Claude 4系統(tǒng)卡也是這么說(shuō)的：

十六、氛圍編程之年

今年2月，Andrej Karpathy在推特上創(chuàng)造了“vibe coding”（氛圍編程）一詞，可惜定義太長(zhǎng)，很多人都沒(méi)能看完：

這里的關(guān)鍵思想是“忘記代碼的存在”——氛圍編程捕捉到了一種新的、有趣的軟件原型設(shè)計(jì)方式，這種設(shè)計(jì)僅通過(guò)提示就能“基本有效”。

Simon Willison印象中好像從來(lái)沒(méi)見(jiàn)過(guò)哪個(gè)新詞流行起來(lái)或者被曲解得這么快。

很多人反而把“氛圍編程”當(dāng)作所有涉及LLM的編程工作的統(tǒng)稱。他認(rèn)為這浪費(fèi)了一個(gè)很棒的術(shù)語(yǔ)，尤其是在未來(lái)大多數(shù)編程工作很可能都會(huì)涉及一定程度的AI輔助的情況下。

Simon Willison盡力去強(qiáng)調(diào)這個(gè)詞的原意：

并非所有AI輔助編程都是基于氛圍編程（但氛圍編程在3月確實(shí)很棒）。
5月，有兩家出版社和三位作者未能理解“氛圍編程”的含義（其中一本書(shū)后來(lái)將書(shū)名改為更好的“超越氛圍編程”）。
Simon Willison在10月參加了氛圍工程研討會(huì)，會(huì)上嘗試提出一個(gè)替代術(shù)語(yǔ)，來(lái)描述專(zhuān)業(yè)工程師使用AI輔助構(gòu)建生產(chǎn)級(jí)軟件時(shí)所發(fā)生的事情。
你的任務(wù)是在12月交付你已經(jīng)證明有效的代碼，以此來(lái)說(shuō)明專(zhuān)業(yè)的軟件開(kāi)發(fā)就是編寫(xiě)能夠?qū)嶋H運(yùn)行的代碼，無(wú)論你是如何構(gòu)建的。

他認(rèn)為這場(chǎng)爭(zhēng)論還沒(méi)有結(jié)束。他看到了一些令人欣慰的跡象，表明最初更完善、更貼近實(shí)際的“氛圍編程”定義最終可能會(huì)勝出。

十七、MCP（唯一？）之年

Anthropic于2024年11月推出了模型上下文協(xié)議（MCP）規(guī)范，作為將工具調(diào)用與不同LLM集成的開(kāi)放標(biāo)準(zhǔn)。2025年初，MCP迅速走紅。5月，OpenAI、Anthropic和Mistral三家公司在短短8天內(nèi)相繼推出了對(duì)MCP的API級(jí)支持！

MCP的想法本身無(wú)可厚非，但它如此廣泛的應(yīng)用著實(shí)令人感到意外。Simon Willison認(rèn)為這主要?dú)w結(jié)于時(shí)機(jī)：MCP的發(fā)布恰逢模型在工具調(diào)用方面終于變得穩(wěn)定可靠，以至于很多人似乎誤以為MCP支持是模型使用工具的先決條件。

一段時(shí)間以來(lái)，MCP似乎也成了那些面臨“AI戰(zhàn)略”壓力卻不知如何著手實(shí)施的公司的一個(gè)便捷解決方案。宣布推出MCP服務(wù)器來(lái)支持你的產(chǎn)品，就成了輕松滿足這一要求的有效途徑。

在Simon Willison看來(lái)，MCP可能只是曇花一現(xiàn)的原因在于編程agent的爆炸式增長(zhǎng)。似乎在任何情況下，Bash都是最佳工具——如果agent能夠運(yùn)行任意shell命令，它就能完成任何可以通過(guò)在終端輸入命令完成的操作。

自從他大量使用Claude Code和朋友們的工具后，他就幾乎完全不用MCP了——他發(fā)現(xiàn)像gh等CLI工具和Playwright等庫(kù)是GitHub和Playwright MCP的更好替代品。

Anthropic似乎也意識(shí)到了這一點(diǎn)，并在當(dāng)年晚些時(shí)候發(fā)布了出色的Skills機(jī)制。MCP涉及Web服務(wù)器和復(fù)雜的JSON數(shù)據(jù)。而Skill則是一個(gè)文件夾中的Markdown文件，還可以選擇性地附帶一些可執(zhí)行腳本。

然后，Anthropic在11月發(fā)布了《使用MCP執(zhí)行代碼：構(gòu)建更高效的agent》，描述了一種讓編程agent生成調(diào)用MCP的代碼的方法，從而避免了原始規(guī)范中的大部分上下文開(kāi)銷(xiāo)。

MCP于12月初捐贈(zèng)給了新成立的Agentic AI基金會(huì)。Skill于12月18日升級(jí)為“開(kāi)放格式” 。

十八、AI瀏覽器令人擔(dān)憂之年

盡管存在非常明顯的安全風(fēng)險(xiǎn)，但似乎每個(gè)人都想在瀏覽器中安裝LLM。

OpenAI于10月推出了 ChatGPT Atlas，該團(tuán)隊(duì)由包括長(zhǎng)期擔(dān)任 Google Chrome工程師的Ben Goodger和Darin Fisher在內(nèi)的成員組成。

Anthropic一直在推廣他們的Chrome擴(kuò)展程序Claude，該擴(kuò)展程序提供的功能與完整的Chrome分支類(lèi)似。

Chrome現(xiàn)在在右上角有一個(gè)叫做“Gemini in Chrome”的小“Gemini”按鈕，但Simon Willison認(rèn)為這只是用來(lái)回答有關(guān)內(nèi)容的問(wèn)題，目前還不具備引導(dǎo)瀏覽行為的功能。

Simon Willison仍然對(duì)這些新工具的安全隱患深感擔(dān)憂。瀏覽器可以訪問(wèn)最敏感的數(shù)據(jù)，并控制著用戶的大部分?jǐn)?shù)字生活。針對(duì)瀏覽器agent的即時(shí)注入攻擊，如果能夠竊取或修改這些數(shù)據(jù)，后果不堪設(shè)想。

到目前為止，Simon Willison看到的關(guān)于緩解這些擔(dān)憂的最詳細(xì)內(nèi)容來(lái)自O(shè)penAI首席信息安全官Dane Stuckey，他談到了防護(hù)措施、紅隊(duì)演練和縱深防御，但也正確地稱快速注入為“一個(gè)前沿的、尚未解決的安全問(wèn)題”。

Simon Willison已經(jīng)在非常嚴(yán)格的監(jiān)督下使用過(guò)這些瀏覽器agent幾次了。它們有點(diǎn)慢，而且不太穩(wěn)定，點(diǎn)擊交互元素時(shí)經(jīng)常會(huì)失敗，但它們對(duì)于解決那些無(wú)法通過(guò)API解決的問(wèn)題非常有用。

十九、致命三連擊之年

Simon Willison撰寫(xiě)有關(guān)提示注入攻擊的文章已經(jīng)三年多了，發(fā)現(xiàn)持續(xù)存在的挑戰(zhàn)是，如何幫助人們理解為什么這類(lèi)攻擊是一個(gè)需要認(rèn)真對(duì)待的問(wèn)題，任何在這個(gè)領(lǐng)域開(kāi)發(fā)軟件的人都必須重視它。

語(yǔ)義擴(kuò)散加劇了這種情況，術(shù)語(yǔ)“提示注入”也擴(kuò)展到了越獄，而且誰(shuí)又會(huì)在乎有人能欺騙模型說(shuō)出粗魯?shù)脑捘兀?/p>

所以Simon Willison嘗試了一種新的語(yǔ)言技巧，6月份創(chuàng)造了“致命三連擊”這個(gè)術(shù)語(yǔ)，用來(lái)描述提示注入的一個(gè)子集，即惡意指令誘騙agent代表攻擊者竊取私人數(shù)據(jù)。

二十、手機(jī)編程之年

今年Simon Willison在手機(jī)上編寫(xiě)的代碼量遠(yuǎn)遠(yuǎn)超過(guò)了在電腦上編寫(xiě)的代碼量。

今年大部分時(shí)間他都在使用氛圍編程，所以才這樣。

他的tools.simonwillison.net HTML+JavaScript工具集基本上就是這樣構(gòu)建的：先有一個(gè)小項(xiàng)目的想法，然后通過(guò)Claude Artifacts、ChatGPT或Claude Code的iPhone應(yīng)用進(jìn)行測(cè)試，之后要么復(fù)制結(jié)果粘貼到GitHub的網(wǎng)頁(yè)編輯器里，要么等待有人提交PR，然后在手機(jī)Safari瀏覽器里進(jìn)行審核和合并。

這些HTML工具通常有100-200行代碼，充滿了無(wú)趣的樣板代碼和重復(fù)的CSS和JavaScript模式——但110個(gè)加起來(lái)就很多了！

直到11月，Simon Willison還會(huì)說(shuō)自己在手機(jī)上編寫(xiě)的代碼更多，但他在筆記本電腦上編寫(xiě)的代碼顯然更重要——經(jīng)過(guò)全面審查、更好地測(cè)試，并且是為生產(chǎn)環(huán)境設(shè)計(jì)的。

2025年12月，他對(duì)Claude Opus 4.5的信心越來(lái)越強(qiáng)，以至于開(kāi)始在手機(jī)上使用Claude Code來(lái)處理更復(fù)雜的任務(wù)，包括打算在非玩具項(xiàng)目中使用的代碼。

這一切始于他將JustHTML HTML5解析器從Python移植到JavaScript的項(xiàng)目，他使用了Codex CLI和GPT-5.2。當(dāng)僅通過(guò)提示就能完成時(shí)，他開(kāi)始好奇，如果只用手機(jī)，他能完成多少類(lèi)似的項(xiàng)目。

所以他嘗試將Fabrice Bellard的新MicroQuickJS C庫(kù)移植到Python，完全使用Claude Code在iPhone上運(yùn)行，而且大部分都成功了。

這段代碼適合在生產(chǎn)環(huán)境中使用嗎？當(dāng)然，目前還不適合用于未經(jīng)信任的代碼，但Simon Willison相信它能夠執(zhí)行自己編寫(xiě)的JavaScript代碼。他從MicroQuickJS借用的測(cè)試套件讓他對(duì)此很有信心。

二十一、合規(guī)套件之年

事實(shí)證明，這才是關(guān)鍵所在：如果你能給最新的編程agent提供一個(gè)現(xiàn)有的測(cè)試套件，它們針對(duì)2025年11月左右的前沿模型進(jìn)行測(cè)試時(shí)，效果會(huì)非常顯著。

Simon Willison稱這些為一致性測(cè)試套件，并且已經(jīng)開(kāi)始有意識(shí)地尋找它們。他已經(jīng)成功地使用html5lib測(cè)試、MicroQuickJS測(cè)試套件以及一個(gè)尚未發(fā)布的、針對(duì)全面的WebAssembly規(guī)范/測(cè)試集的項(xiàng)目進(jìn)行了測(cè)試。

如果你要在2026年向世界推出一項(xiàng)新協(xié)議，甚至是新的編程語(yǔ)言，Simon Willison強(qiáng)烈建議你將與語(yǔ)言無(wú)關(guān)的一致性測(cè)試套件作為項(xiàng)目的一部分。

很多人憂心忡忡地?fù)?dān)心，由于需要納入LLM訓(xùn)練數(shù)據(jù)，新技術(shù)將難以被廣泛接受。他希望一致性套件方法能夠幫助緩解這個(gè)問(wèn)題，并使這類(lèi)新理念更容易獲得認(rèn)可。

二十二、今年本地模型已經(jīng)很不錯(cuò)，但云模型變得更好了

2024年底，Simon Willison對(duì)在自己的機(jī)器上運(yùn)行本地LLM模型失去了興趣。直到12月Llama 3.3 70B的發(fā)布，他才興趣重燃。

這是他第一次感覺(jué)自己可以在64GB MacBook Pro上運(yùn)行真正的GPT-4級(jí)模型。

隨后在1月份，Mistral發(fā)布了Mistral Small 3，這是一個(gè)采用Apache 2許可的24B參數(shù)模型，其性能似乎與Llama 3.3（70B）相當(dāng)，但內(nèi)存占用卻只有后者的1/3左右。現(xiàn)在可以運(yùn)行一個(gè)類(lèi)似GPT-4級(jí)別的模型，并且還有剩余內(nèi)存來(lái)運(yùn)行其他應(yīng)用程序。

這一趨勢(shì)一直持續(xù)到2025年，尤其是在中國(guó)AI實(shí)驗(yàn)室的模型開(kāi)始占據(jù)主導(dǎo)地位之后。大約200億到320億的參數(shù)量這一最佳區(qū)間，使得模型的性能不斷超越以往。

大型云模型也變得更好了，包括那些開(kāi)源模型，雖然可以免費(fèi)使用，但體積太大（1000B+），筆記本電腦無(wú)法運(yùn)行。

編程agent徹底改變了Simon Willison的看法。像Claude Code這樣的系統(tǒng)需要的，不僅僅是一個(gè)優(yōu)秀的模型，而是一個(gè)推理模型，能夠在不斷擴(kuò)展的上下文窗口中可靠地執(zhí)行數(shù)十次甚至數(shù)百次工具調(diào)用。

他還沒(méi)有嘗試過(guò)任何能夠可靠地處理Bash工具調(diào)用的本地模型，因此無(wú)法信任該模型來(lái)在設(shè)備上運(yùn)行編程agent。

Simon Willison的下一臺(tái)筆記本電腦至少要有128GB的??內(nèi)存，所以2026年推出的輕量級(jí)機(jī)型或許符合他的需求。不過(guò)就目前而言，他還是會(huì)選擇目前市面上最好的前沿托管模型作為日常主力。

二十三、低質(zhì)量數(shù)字內(nèi)容之年

2025年，韋氏詞典將“slop”評(píng)為年度詞匯！

slop：通常通過(guò)AI大量生產(chǎn)的低質(zhì)量數(shù)字內(nèi)容。

互聯(lián)網(wǎng)上一直充斥著大量低質(zhì)量?jī)?nèi)容。挑戰(zhàn)依然在于如何找到并推廣優(yōu)質(zhì)內(nèi)容。內(nèi)容篩選比以往任何時(shí)候都更加重要。

二十四、數(shù)據(jù)中心變得極其不受歡迎之年

AI數(shù)據(jù)中心繼續(xù)消耗大量能源，而建造它們的軍備競(jìng)賽仍在加速，這種速度感覺(jué)是不可持續(xù)的。

2025年有趣的是，公眾輿論似乎正在發(fā)生相當(dāng)大的轉(zhuǎn)變，反對(duì)新建數(shù)據(jù)中心。

以下是《衛(wèi)報(bào)》12月8日的一則頭條新聞：超過(guò)200個(gè)環(huán)保組織要求停止在美國(guó)新建數(shù)據(jù)中心。地方層面的反對(duì)聲浪似乎也在全面急劇上升。

Andy Masley讓Simon Willison確信，用水問(wèn)題大多被夸大了，這主要是因?yàn)樗稚⒘巳藗儗?duì)能源消耗、碳排放和噪音污染等真正問(wèn)題的注意力。

AI實(shí)驗(yàn)室不斷尋找新的效率方法，以幫助提高模型質(zhì)量，同時(shí)減少每個(gè)token的能源消耗，但這帶來(lái)的影響是經(jīng)典的杰文斯悖論——隨著token價(jià)格下降，我們找到了更密集的使用方式，例如每月花費(fèi)200美元購(gòu)買(mǎi)數(shù)百萬(wàn)個(gè)token來(lái)運(yùn)行編程agent。

來(lái)源：Simon Willison總結(jié)文章

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.