![]()
智東西
編譯 ZeR0
編輯 漠影
智東西1月4日?qǐng)?bào)道,2025年最后一天,開(kāi)源工具Datasette創(chuàng)建者、Django框架聯(lián)合創(chuàng)始人、知名開(kāi)發(fā)者Simon Willison發(fā)表了一篇年終總結(jié)文章,回顧2025年大模型領(lǐng)域發(fā)生的一切。
這一年出現(xiàn)許多新潮流,他將其總結(jié)為:推理之年,Agent之年,編程Agent與Claude編程之年,命令行LLM之年,YOLO與偏差正常化之年,每月200美元訂閱服務(wù)之年,中國(guó)頂級(jí)無(wú)差別模型之年,漫長(zhǎng)任務(wù)之年,提示驅(qū)動(dòng)圖像編輯之年,年度模型在學(xué)術(shù)競(jìng)賽中榮獲金獎(jiǎng)。
2025年,也是Llama迷失之年,OpenAI失去領(lǐng)先地位之年,Gemini之年,鵜鶘騎自行車(chē)之年,告密者之年,氛圍編程之年,MCP(唯一?)之年,AI瀏覽器令人擔(dān)憂之年,致命三連擊之年,手機(jī)編程之年,合規(guī)套件之年,本地模型已經(jīng)很好、但云模型變得更好之年,低質(zhì)量數(shù)字內(nèi)容之年,數(shù)據(jù)中心變得極其不受歡迎之年。
一、推理之年
OpenAI在2024年9月發(fā)布了o1和o1-mini,開(kāi)啟了“推理”革命。2025年初,他們又推出了o3、o3-mini和o4-mini,進(jìn)一步強(qiáng)化了這一理念。此后,推理幾乎成為所有其他主要AI實(shí)驗(yàn)室模型的標(biāo)志性特征。
Simon Willison最喜歡的關(guān)于這個(gè)技巧意義的解釋來(lái)自Andrej Karpathy:
“通過(guò)在多種環(huán)境下(如數(shù)學(xué)/編程謎題)使用可自動(dòng)驗(yàn)證的獎(jiǎng)勵(lì)訓(xùn)練低學(xué)習(xí)模型(LLM),LLM會(huì)自發(fā)地發(fā)展出類(lèi)似人類(lèi)“推理”的策略——它們學(xué)會(huì)將問(wèn)題解決分解為中間計(jì)算,并學(xué)習(xí)多種反復(fù)推演以找出答案的問(wèn)題解決策略(參見(jiàn)DeepSeek R1論文中的示例)。”
運(yùn)行RLVR的性價(jià)比非常高,但也消耗了大量原本用于預(yù)訓(xùn)練的計(jì)算資源。因此,2025年的大部分能力提升都來(lái)自于LLM實(shí)驗(yàn)室處理這一新階段遺留的計(jì)算資源,總體而言,我們看到LLM的規(guī)模大致相同,但RL(強(qiáng)化學(xué)習(xí))運(yùn)行時(shí)間卻大大延長(zhǎng)。
2025年,幾乎所有知名的AI實(shí)驗(yàn)室都至少發(fā)布了一款推理模型。一些實(shí)驗(yàn)室發(fā)布了混合模型,這些模型既可以運(yùn)行在推理模式下,也可以運(yùn)行在非推理模式下。許多API模型現(xiàn)在都包含調(diào)節(jié)旋鈕,用于增加或減少應(yīng)用于特定提示的推理程度。
Simon Willison花了一段時(shí)間才明白推理功能的用途。最初的演示展示了它如何解決數(shù)學(xué)邏輯難題以及計(jì)算草莓(strawberry)這個(gè)詞中字母r的個(gè)數(shù)——這兩件事在日常使用模型時(shí)都用不到。
事實(shí)證明,推理能力的真正突破在于驅(qū)動(dòng)工具。能夠使用工具的推理模型可以規(guī)劃多步驟任務(wù),執(zhí)行這些任務(wù),并持續(xù)分析結(jié)果,從而更新計(jì)劃,更好地實(shí)現(xiàn)預(yù)期目標(biāo)。
一個(gè)顯著的成果是,AI輔助搜索現(xiàn)在確實(shí)有效了。以前將搜索引擎與LLM連接起來(lái)的效果并不理想,但現(xiàn)在,即便提出的更復(fù)雜的研究問(wèn)題,也常常能通過(guò)ChatGPT中的GPT-5思維模式得到解答。
推理模型在代碼生成和調(diào)試方面也表現(xiàn)出色。推理技巧意味著它們可以從錯(cuò)誤入手,逐步深入代碼庫(kù)的多個(gè)不同層級(jí),最終找到根本原因。即便遇到最棘手的bug,只要推理模型能夠讀取并執(zhí)行大型復(fù)雜代碼庫(kù)中的代碼,就能診斷出來(lái)。
二、Agent之年
2024年全年,人人都談?wù)揳gent(智能體),但幾乎沒(méi)有實(shí)際案例,更令人困惑的是,每個(gè)人對(duì)“agent”的定義似乎都略有不同。
但是,如果你將agent定義為可以通過(guò)多個(gè)步驟調(diào)用工具來(lái)執(zhí)行有用工作的LLM系統(tǒng),那么agent就存在了,并且它們正在被證明非常有用。
agents的兩個(gè)主要類(lèi)別分別是編程agent和搜索agent。
深度研究模式即讓一個(gè)邏輯學(xué)習(xí)模型(LLM)收集信息,它會(huì)持續(xù)工作15分鐘以上,生成一份詳細(xì)的報(bào)告。
這在今年上半年很流行,但現(xiàn)在已經(jīng)過(guò)時(shí)了。因?yàn)镚PT-5思維(以及谷歌的“ AI模式”,比他們?cè)愀獾摹癆I概覽”好得多)可以在更短的時(shí)間內(nèi)生成類(lèi)似的結(jié)果。
“編程agent”模式則更為意義重大。
三、編程Agent和Claude Code之年
2025年最具影響力的事件發(fā)生在2月,即Claude Code悄然發(fā)布,甚至沒(méi)有單獨(dú)寫(xiě)一篇博文。
Anthropic將Claude Code的發(fā)布作為Claude 3.7 Sonnet發(fā)布公告中的第2項(xiàng)內(nèi)容。
(為什么Anthropic直接從Claude 3.5 Sonnet跳到了3.7?因?yàn)樗麄冊(cè)?024年10月發(fā)布了Claude 3.5的重大升級(jí),但卻保留了完全相同的名稱,導(dǎo)致開(kāi)發(fā)者社區(qū)開(kāi)始將未命名的3.5 Sonnet v2稱為 3.6。Anthropic因?yàn)闆](méi)有正確命名他們的新模型而浪費(fèi)了一個(gè)完整的版本號(hào)!)
Claude Code是編程agent的最突出例子——LLM系統(tǒng)可以編寫(xiě)代碼、執(zhí)行代碼、檢查結(jié)果,然后進(jìn)一步迭代。
各大實(shí)驗(yàn)室都將在2025年推出各自的命令行編程agent:
- Claude Code
- Codex CLI
- Gemini CLI
- Qwen Code
- Mistral Vibe
與供應(yīng)商無(wú)關(guān)的選項(xiàng)包括GitHub Copilot CLI、Amp、OpenCode、OpenHands CLI和Pi。Zed、VS Code、Cursor等IDE也投入了大量精力來(lái)集成編程agent。
Simon Willison第一次接觸編程agent模式是在2023年初,當(dāng)時(shí) OpenAI推出了ChatGPT代碼解釋器——這是一個(gè)內(nèi)置于ChatGPT中的系統(tǒng),使其能夠在Kubernetes沙箱中運(yùn)行Python代碼。
2025年9月,Anthropic終于發(fā)布了他們的同類(lèi)產(chǎn)品,盡管它的初始名稱令人費(fèi)解,叫做“使用Claude創(chuàng)建和編輯文件”。
10月份,他們重新利用了該容器沙箱基礎(chǔ)設(shè)施,推出了Claude Code for web。Claude Code for Web是異步編程agent——一個(gè)你可以發(fā)出指令后就不用管的系統(tǒng),它會(huì)自動(dòng)處理問(wèn)題并在完成后提交 Pull Request。
OpenAI的“Codex cloud”(后更名為“Codex web”)于2025年5月初發(fā)布。Gemini的同類(lèi)產(chǎn)品名為Jules,也于5月發(fā)布。
異步編程agent解決了在個(gè)人筆記本電腦上運(yùn)行任意代碼所帶來(lái)的安全挑戰(zhàn),而且能夠同時(shí)啟動(dòng)多個(gè)任務(wù),并在幾分鐘后獲得不錯(cuò)的結(jié)果。
四、命令行LLM之年
2024年,Simon Willison花了很多時(shí)間研究LLM命令行工具,以便從終端訪問(wèn)LLM。
他一直覺(jué)得很奇怪,為什么很少有人認(rèn)真對(duì)待CLI訪問(wèn)模型——它們感覺(jué)就像是Unix管線等機(jī)制的天然替代品。或許這個(gè)終端太過(guò)特殊和小眾,永遠(yuǎn)無(wú)法成為獲取大語(yǔ)言模型的主流工具?
Claude Code等已經(jīng)充分證明,只要模型足夠強(qiáng)大,并且有合適的工具,開(kāi)發(fā)人員就會(huì)接受命令行中的LLM。
令人欣慰的是,像sed、ffmpeg、bash這類(lèi)語(yǔ)法晦澀的終端命令不再是入門(mén)障礙,因?yàn)長(zhǎng)LM可以為你輸出正確的命令。
截至12月2日,Anthropic公司宣布Claude Code的年化收入已達(dá)10億美元!沒(méi)想到一款命令行工具能達(dá)到如此高的成就。
五、YOLO與偏差正常化之年
大多數(shù)編程agent的默認(rèn)設(shè)置是幾乎對(duì)用戶執(zhí)行的每個(gè)操作都要求確認(rèn)。在agent出錯(cuò)可能導(dǎo)致用戶主文件夾被清除,或者惡意提示注入攻擊可能竊取用戶憑據(jù)的情況下,這種默認(rèn)設(shè)置完全合理。
任何嘗試過(guò)使用自動(dòng)確認(rèn)(又稱YOLO模式——Codex CLI甚至將–dangerously-bypass-approvals-and-sandbox別名為–yolo)運(yùn)行agent的人都體驗(yàn)過(guò)這種權(quán)衡:使用沒(méi)有安全機(jī)制的agent感覺(jué)就像是完全不同的產(chǎn)品。
像Claude Code for web和Codex Cloud這樣的異步編程agent的一大優(yōu)點(diǎn)是,它們默認(rèn)可以在YOLO模式下運(yùn)行,因?yàn)闆](méi)有個(gè)人電腦會(huì)損壞。
今年Simon Willison最喜歡的關(guān)于LLM安全性的文章之一是安全研究員Johann Rehberger撰寫(xiě)的《AI中的偏差正常化》 。
Johann描述了“偏差正常化”現(xiàn)象,即反復(fù)接觸危險(xiǎn)行為而沒(méi)有產(chǎn)生負(fù)面后果,導(dǎo)致個(gè)人和組織接受這種危險(xiǎn)行為是正常的。
社會(huì)學(xué)家Diane Vaughan最初在研究1986年挑戰(zhàn)者號(hào)航天飛機(jī)災(zāi)難時(shí)提出了這一觀點(diǎn)。該災(zāi)難是由一個(gè)存在缺陷的O型環(huán)引起的,而工程師們對(duì)此早已知曉多年。多次成功的發(fā)射導(dǎo)致NASA不再認(rèn)真對(duì)待這種風(fēng)險(xiǎn)。
Johann認(rèn)為,如果我們繼續(xù)以本質(zhì)上不安全的方式運(yùn)行這些系統(tǒng),我們離自己的“挑戰(zhàn)者號(hào)”災(zāi)難就越近。
六、每月200美元訂閱服務(wù)之年
ChatGPT Plus最初的定價(jià)為每月20美元,這是Nick Turley根據(jù) Discord上Google Form投票的結(jié)果臨時(shí)決定的。此后,這個(gè)價(jià)格一直保持不變。
2025年出現(xiàn)了一個(gè)新的定價(jià)先例:Claude Pro Max 20x套餐,每月200美元。
OpenAI也提供類(lèi)似的200美元套餐,名為ChatGPT Pro。
Gemini的Google AI Ultra套餐每月249美元,前3個(gè)月可享受每月124.99美元的優(yōu)惠價(jià)。
這些計(jì)劃似乎帶來(lái)了可觀的收入,盡管沒(méi)有一家實(shí)驗(yàn)室公布按級(jí)別細(xì)分的訂閱用戶數(shù)據(jù)。
聽(tīng)說(shuō)很多人愿意支付這個(gè)價(jià)格。
你需要頻繁使用模型才能消耗掉價(jià)值200美元的API額度,所以你可能會(huì)覺(jué)得對(duì)大多數(shù)人來(lái)說(shuō),按token付費(fèi)更劃算。
但事實(shí)證明,像Claude Code和Codex CLI這樣的工具,一旦你開(kāi)始給它們布置更復(fù)雜的任務(wù),就會(huì)消耗大量的token,以至于每月200美元的套餐反而能提供相當(dāng)可觀的折扣。
七、中國(guó)頂級(jí)無(wú)差別級(jí)模型之年
2024年,中國(guó)AI實(shí)驗(yàn)室展現(xiàn)出一些早期活力,主要體現(xiàn)在Qwen 2.5和早期的DeepSeek上。這些模型很不錯(cuò),但還稱不上世界一流。
這種情況在2025年發(fā)生了巨大變化。Simon Willison的“ai-in-china”標(biāo)簽下,僅2025年就有67篇帖子,而且還錯(cuò)過(guò)了年底的一些重要版本發(fā)布(特別是GLM-4.7和MiniMax-M2.1)。
以下是截至2025年12月30日開(kāi)源模型的AI分析排名:
![]()
GLM-4.7、Kimi K2 Thinking、MiMo-V2-Flash、DeepSeek V3.2、MiniMax-M2.1均為中國(guó)開(kāi)源模型。榜單中排名最高的非中國(guó)模型是OpenAI的gpt-oss-120B (high),位列第六。
中國(guó)模型革命真正拉開(kāi)帷幕是在2024年圣誕節(jié),當(dāng)時(shí)DeepSeek 3發(fā)布,據(jù)稱其訓(xùn)練成本約為550萬(wàn)美元。緊接著,DeepSeek于1月20日發(fā)布了DeepSeek R1,隨即引發(fā)了一場(chǎng)大規(guī)模的AI/半導(dǎo)體拋售潮:英偉達(dá)市值蒸發(fā)約5930億美元,投資者恐慌地認(rèn)為AI或許并非美國(guó)壟斷。
![]()
恐慌并未持續(xù)太久,英偉達(dá)迅速恢復(fù),如今的股價(jià)已較DeepSeek R1發(fā)布前的水平大幅回升。但這仍然是一個(gè)非凡的時(shí)刻。誰(shuí)能想到,一個(gè)開(kāi)源模型的發(fā)布竟能產(chǎn)生如此巨大的影響?
DeepSeek之后,很快便有一批實(shí)力雄厚的中國(guó)AI實(shí)驗(yàn)室加入進(jìn)來(lái)。Simon Willison尤其關(guān)注以下這些實(shí)驗(yàn)室:
- DeepSeek
- 阿里通義(Qwen3)
- 月之暗面(Kimi K2)
- 智譜 (GLM-4.5/4.6/4.7)
- MiniMax(M2)
- 問(wèn)小白(XBai o4)
這些模型大多不僅是開(kāi)放的,而且是根據(jù)OSI批準(zhǔn)的許可證完全開(kāi)源的:Qwen的大多數(shù)模型使用Apache 2.0許可證,DeepSeek 和智譜使用MIT許可證。
它們中的一些甚至可以與Claude 4 Sonnet和GPT-5相媲美!
遺憾的是,中國(guó)實(shí)驗(yàn)室都沒(méi)有公布完整的訓(xùn)練數(shù)據(jù)或用于訓(xùn)練模型的代碼,但他們發(fā)表了詳細(xì)的研究論文,這有助于推動(dòng)技術(shù)進(jìn)步,尤其是在高效訓(xùn)練和推理方面。
八、漫長(zhǎng)任務(wù)之年
最近關(guān)于LLM最有趣的圖表之一是:不同LLM在METR中完成軟件工程任務(wù)的時(shí)間范圍(50%的時(shí)間) :
![]()
該圖表展示了人類(lèi)需要花費(fèi)長(zhǎng)達(dá)5小時(shí)才能完成的任務(wù),并繪制了能夠獨(dú)立完成相同目標(biāo)的模型的發(fā)展歷程。
如你所見(jiàn),2025年取得了巨大的進(jìn)步,GPT-5、GPT-5.1 Codex Max和Claude Opus 4.5能夠完成人類(lèi)需要花費(fèi)數(shù)小時(shí)才能完成的任務(wù)——而2024年的最佳模型也僅能完成不到30分鐘的任務(wù)。
METR的結(jié)論是“AI能夠執(zhí)行的任務(wù)長(zhǎng)度每7個(gè)月翻一番”。Simon Willison并不認(rèn)為這種趨勢(shì)會(huì)持續(xù)下去,但這確實(shí)是一種引人注目的方式來(lái)展示當(dāng)前agent能力的發(fā)展趨勢(shì)。
九、提示驅(qū)動(dòng)圖像編輯之年
有史以來(lái)最成功的消費(fèi)品發(fā)布發(fā)生在3月份,而這款產(chǎn)品甚至還沒(méi)有名字。
GPT-4o于2024年5月推出的標(biāo)志性功能之一是其多模態(tài)輸出——“o”代表“o??mni”(全能),OpenAI的發(fā)布公告中包含了許多“即將推出”的功能,該模型除了文本外,還將輸出圖像。
然后……什么也沒(méi)發(fā)生。圖像輸出功能未能實(shí)現(xiàn)。
2025年3月,我們終于看到了它的功能——盡管它的外觀更像是現(xiàn)有的DALL-E。OpenAI在ChatGPT中提供了這種新的圖像生成功能,其關(guān)鍵特性是用戶可以上傳自己的圖像,并使用提示來(lái)告訴它如何修改這些圖像。
這項(xiàng)新功能在1周內(nèi)就帶來(lái)了1億個(gè)ChatGPT注冊(cè)用戶。高峰時(shí)期,他們甚至在1小時(shí)內(nèi)就看到了100萬(wàn)個(gè)新賬戶的創(chuàng)建!
像“吉卜力風(fēng)格”這樣的技巧一次又一次地風(fēng)靡網(wǎng)絡(luò)。
OpenAI發(fā)布了名為“gpt-image-1”的模型API版本,隨后在10月份推出了價(jià)格更低的gpt-image-1-mini,并在12月16日推出了改進(jìn)幅度更大的gpt-image-1.5。
最值得關(guān)注的同類(lèi)產(chǎn)品是來(lái)自Qwen的Qwen-Image Generation 版本,它于8月4日發(fā)布,隨后于8月19日發(fā)布了Qwen-Image-Edit 。這款軟件可以在(配置較高的)消費(fèi)級(jí)硬件上運(yùn)行!
之后,他們又分別于11月和12月30日發(fā)布了Qwen-Image-Edit-2511和Qwen-Image-2512。
圖像生成領(lǐng)域更大的新聞來(lái)自谷歌,他們推出了可通過(guò)Gemini平臺(tái)獲取的Nano Banana模型。
谷歌在3月份以“Gemini 2.0 Flash原生圖像生成”的名稱預(yù)覽了該功能的早期版本。真正優(yōu)秀的版本于8月26日發(fā)布,他們開(kāi)始謹(jǐn)慎地公開(kāi)使用代號(hào)“Nano Banana”(API模型被稱為“Gemini 2.5 Flash Image”)。
Nano Banana之所以能引起人們的注意,是因?yàn)樗軌蛏捎杏玫奈谋荆∷趫?zhí)行圖像編輯指令方面也明顯是表現(xiàn)最好的模型。
11月,谷歌正式啟用“Nano Banana”這個(gè)名稱,發(fā)布了Nano Banana Pro。這款軟件不僅能生成文本,還能輸出真正實(shí)用、詳盡的信息圖表以及其他包含大量文本和信息的圖像。它現(xiàn)在是一款專(zhuān)業(yè)級(jí)工具。
Max Woolf出版了全面的Nano Banana提示指南,并在12月出版了Nano Banana Pro必備指南。
鑒于這些圖像工具如此受歡迎,Anthropic竟然沒(méi)有發(fā)布或?qū)㈩?lèi)似功能集成到Claude中,這著實(shí)令人驚訝。
Simon Willison認(rèn)為這進(jìn)一步證明了他們專(zhuān)注于面向?qū)I(yè)工作的AI工具,但Nano Banana Pro正迅速證明,對(duì)于任何從事演示文稿或其他視覺(jué)材料制作的人來(lái)說(shuō),它都極具價(jià)值。
十、年度模型在學(xué)術(shù)競(jìng)賽中榮獲金獎(jiǎng)
2025年7月,OpenAI和Google Gemini的推理模型在國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽中均獲得了金牌。國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽是一項(xiàng)享有盛譽(yù)的數(shù)學(xué)競(jìng)賽,自1959年以來(lái)每年舉行(1980年除外)。
這一點(diǎn)尤其值得關(guān)注,因?yàn)閲?guó)際數(shù)學(xué)奧林匹克競(jìng)賽(I??MO)的挑戰(zhàn)題目都是專(zhuān)門(mén)為該賽事設(shè)計(jì)的。這些題目不可能出現(xiàn)在訓(xùn)練數(shù)據(jù)中。
值得注意的是,這兩個(gè)模型都無(wú)法使用工具,它們的解決方案完全來(lái)自它們的內(nèi)部知識(shí)和基于token的推理能力。
事實(shí)證明,擁有足夠高級(jí)大語(yǔ)言模型的人終究也能做數(shù)學(xué)!
9月,OpenAI和Gemini在國(guó)際大學(xué)生程序設(shè)計(jì)競(jìng)賽(ICPC)中也取得了類(lèi)似的成就。同樣值得注意的是,這次的題目都是全新的、此前從未公開(kāi)過(guò)的。與以往不同的是,這次模型可以訪問(wèn)代碼執(zhí)行環(huán)境,但除此之外無(wú)法訪問(wèn)互聯(lián)網(wǎng)。
Simon Willison不認(rèn)為這些比賽所使用的具體模型已公開(kāi),但Gemini的Deep Think和OpenAI的GPT-5 Pro應(yīng)該能提供非常接近的近似值。
十一、Llama迷失之年
事后看來(lái),2024年是Llama之年。Meta的Llama系列是迄今最受歡迎的開(kāi)源模型——最初的Llama在2023年開(kāi)啟了開(kāi)源革命,而 Llama 3系列,特別是3.1和3.2版本,在開(kāi)源模型性能方面實(shí)現(xiàn)了巨大的飛躍。
Llama 4備受期待,但4月上線后卻有點(diǎn)令人失望。LMArena上測(cè)試的模型與最終發(fā)布的模型不符,這引發(fā)了一場(chǎng)小小的風(fēng)波。
但Simon Willison最主要的抱怨是模型體積過(guò)大。之前Llama版本最棒的地方在于,它們通常會(huì)包含一些可以在筆記本電腦上運(yùn)行的模型。Llama 4的Scout和Maverick模型分別達(dá)到了109B和 400B,體積大到進(jìn)行量化也無(wú)法在64GB Mac上運(yùn)行。
他們當(dāng)時(shí)使用的是2T Llama 4 Behemoth進(jìn)行訓(xùn)練,現(xiàn)在這款模型似乎已經(jīng)被遺忘了,它肯定沒(méi)有發(fā)布。
LM Studio列出的最受歡迎的模型中,沒(méi)有一個(gè)來(lái)自 Meta,這說(shuō)明了很多問(wèn)題;而Ollama上最受歡迎的模型仍是Llama 3.1,但它在排行榜上的排名也很低。
今年Meta的AI新聞主要集中在內(nèi)部政治斗爭(zhēng)和斥巨資為其新成立的超級(jí)智能實(shí)驗(yàn)室招募人才上。目前尚不清楚未來(lái)是否會(huì)有Llama的發(fā)布計(jì)劃,或者他們是否已經(jīng)放棄發(fā)布開(kāi)源模型,轉(zhuǎn)而專(zhuān)注于其他領(lǐng)域。
十二、OpenAI失去領(lǐng)先地位之年
2024年,OpenAI是LLM領(lǐng)域無(wú)可爭(zhēng)議的領(lǐng)導(dǎo)者,尤其是考慮到o1和o3推理模型的預(yù)覽版。
2025年,業(yè)內(nèi)其他企業(yè)也迎頭趕上。
OpenAI仍然擁有頂尖的模型,但它們?cè)诟鱾€(gè)方面都面臨著挑戰(zhàn)。
在圖像模型方面,他們?nèi)匀宦浜笥贜ano Banana Pro。
在代碼方面,許多開(kāi)發(fā)者認(rèn)為Opus 4.5略勝GPT-5.2 Codex Max一籌。
在開(kāi)源模型方面,OpenAI的gpt-oss模型雖然出色,但已經(jīng)落后于中國(guó)AI實(shí)驗(yàn)室。
OpenAI在音頻領(lǐng)域的領(lǐng)先地位也受到Gemini Live API的威脅。
OpenAI的優(yōu)勢(shì)在于贏得了消費(fèi)者的認(rèn)可。雖然沒(méi)人知道“LLM”是什么,但幾乎每個(gè)人都聽(tīng)說(shuō)過(guò)ChatGPT。就用戶數(shù)量而言,他們的消費(fèi)者應(yīng)用仍然遠(yuǎn)遠(yuǎn)超過(guò)Gemini和Claude。
他們面臨的最大風(fēng)險(xiǎn)在于Gemini。2024年12月,OpenAI針對(duì)Gemini 3發(fā)布了“紅色警報(bào)”,推遲了新項(xiàng)目的開(kāi)發(fā),轉(zhuǎn)而專(zhuān)注于其核心產(chǎn)品的競(jìng)爭(zhēng)。
十三、Gemini之年
Google Gemini在2025年表現(xiàn)非常出色。
他們發(fā)布了對(duì)自己2025年成就的回顧,包括推出了Gemini 2.0、Gemini 2.5和Gemini 3.0,每個(gè)模型系列都支持音頻/視頻/圖像/文本輸入,容量超過(guò)100萬(wàn)個(gè)token,定價(jià)具有競(jìng)爭(zhēng)力,并且比上一代產(chǎn)品功能更強(qiáng)大。
他們還發(fā)布了Gemini CLI(開(kāi)源命令行編程agent,后來(lái)被Qwen分支為Qwen Code)、Jules(異步編程agent)、AI Studio的持續(xù)改進(jìn)、Nano Banana圖像模型、用于視頻生成的Veo 3、有前途的Gemma 3系列開(kāi)源模型以及一系列更小的特征。
谷歌最大的優(yōu)勢(shì)在于其底層技術(shù)。幾乎所有其他AI實(shí)驗(yàn)室都使用英偉達(dá)的GPU進(jìn)行訓(xùn)練,而英偉達(dá)GPU的高額利潤(rùn)支撐了該公司數(shù)萬(wàn)億美元的估值。
谷歌使用自家內(nèi)部硬件TPU,他們今年已經(jīng)證明,TPU在模型的訓(xùn)練和推理方面都表現(xiàn)出色。
當(dāng)最大開(kāi)支是花在GPU上的時(shí)間時(shí),面對(duì)擁有自己優(yōu)化且價(jià)格可能便宜得多的硬件堆棧的競(jìng)爭(zhēng)對(duì)手,這無(wú)疑是一個(gè)令人畏懼的前景。
谷歌Gemini的產(chǎn)品名稱完美地體現(xiàn)了公司的內(nèi)部組織結(jié)構(gòu)——它之所以叫Gemini,是因?yàn)樗怯晒雀璧腄eepMind和Google Brain團(tuán)隊(duì)合并而成的(就像雙胞胎一樣)。
十四、鵜鶘騎自行車(chē)之年
Simon Willison最初在2024年10月讓一個(gè)大模型生成一張鵜鶘騎自行車(chē)的SVG圖像,但直到2025年他才真正投入其中。最終,它本身也成了一個(gè)梗。
最初,Simon Willison只是想開(kāi)個(gè)玩笑。自行車(chē)很難畫(huà),鵜鶘也很難畫(huà),而且鵜鶘的體型也不適合騎自行車(chē)。他很確定訓(xùn)練數(shù)據(jù)里不會(huì)有什么相關(guān)的素材,所以讓一個(gè)文本輸出模型生成一個(gè)SVG格式的自行車(chē)插圖,感覺(jué)就像是一個(gè)難度極高的挑戰(zhàn)。
令他驚訝的是,模型在繪制騎自行車(chē)的鵜鶘方面的表現(xiàn)與它的整體表現(xiàn)之間似乎存在相關(guān)性。
他對(duì)此真的無(wú)法解釋。直到7月份他臨時(shí)準(zhǔn)備主題演講(原定演講者臨時(shí)退出)時(shí),他才明白其中的規(guī)律。
有大量證據(jù)表明,AI實(shí)驗(yàn)室都了解這個(gè)基準(zhǔn)測(cè)試。它曾在5月份的谷歌I/O大會(huì)主題演講中短暫出現(xiàn),10月份在Anthropic的一篇可解釋性研究論文中被提及。Simon Willison還于8月在OpenAI總部拍攝的GPT-5發(fā)布視頻中談到了它。
他們是不是專(zhuān)門(mén)針對(duì)基準(zhǔn)測(cè)試進(jìn)行訓(xùn)練?Simon Willison不這么認(rèn)為,因?yàn)榧词故亲钕冗M(jìn)的前沿模型,生成的鵜鶘圖像依然很糟糕!
在《如果AI實(shí)驗(yàn)室訓(xùn)練鵜鶘騎自行車(chē)會(huì)發(fā)生什么?》一文中,Simon Willison坦白了自己的“險(xiǎn)惡目的”:
“說(shuō)實(shí)話,我這是在打一場(chǎng)持久戰(zhàn)。我這輩子最大的愿望就是得到一張真正精美的鵜鶘騎自行車(chē)的SVG矢量插圖。我這個(gè)陰險(xiǎn)的多年計(jì)劃是,誘騙多家AI實(shí)驗(yàn)室投入大量資源來(lái)作弊,直到我得到這張圖為止。”
他最喜歡的還是這個(gè)來(lái)自GPT-5的版本:
![]()
這輛自行車(chē)真不錯(cuò),車(chē)輪是輻條的,車(chē)架形狀也很好,腳踏板也很棒。鵜鶘的喙是鵜鶘的標(biāo)志性特征,長(zhǎng)長(zhǎng)的腿一直延伸到腳踏板。
十五、告密者之年
Anthropic為其模型編寫(xiě)的系統(tǒng)卡(system card)一直值得完整閱讀,它們充滿了有用的信息,而且經(jīng)常會(huì)涉及有趣的科幻領(lǐng)域。
5月份的Claude 4系統(tǒng)卡帶來(lái)了一些特別有趣的時(shí)刻:
“與之前的模型相比,Claude Opus 4似乎更傾向于在智能情境中主動(dòng)采取行動(dòng)。這在普通的編程環(huán)境中表現(xiàn)為更積極的輔助行為,但在特定情境下也可能走向令人擔(dān)憂的極端;當(dāng)用戶犯下嚴(yán)重錯(cuò)誤,并被賦予命令行訪問(wèn)權(quán)限,且系統(tǒng)提示符中包含“主動(dòng)行動(dòng)”之類(lèi)的指令時(shí),它往往會(huì)采取非常大膽的行動(dòng)。這包括將用戶鎖定在它有權(quán)訪問(wèn)的系統(tǒng)之外,或向媒體和執(zhí)法部門(mén)發(fā)送大量電子郵件以搜集不當(dāng)行為的證據(jù)。”
換句話說(shuō),Claude 4可能會(huì)向聯(lián)邦政府告發(fā)你。
這件事引起了媒體的廣泛關(guān)注,許多人譴責(zé)Anthropic公司訓(xùn)練的模型過(guò)于“道德化”,反而適得其反。隨后,Theo Browne利用系統(tǒng)卡的概念開(kāi)發(fā)了SnitchBench——一個(gè)用于衡量不同模型告密可能性的基準(zhǔn)測(cè)試工具。
原來(lái)他們幾乎都做同樣的事情!
Theo制作了一個(gè)視頻,Simon Willison也發(fā)表了他自己關(guān)于用LLM重新創(chuàng)建SnitchBench的筆記。
使這一切奏效的關(guān)鍵提示是:
![]()
他建議不要把那句話寫(xiě)進(jìn)系統(tǒng)提示符里!Anthropic出品的原版Claude 4系統(tǒng)卡也是這么說(shuō)的:
![]()
十六、氛圍編程之年
今年2月,Andrej Karpathy在推特上創(chuàng)造了“vibe coding”(氛圍編程)一詞,可惜定義太長(zhǎng),很多人都沒(méi)能看完:
![]()
![]()
這里的關(guān)鍵思想是“忘記代碼的存在”——氛圍編程捕捉到了一種新的、有趣的軟件原型設(shè)計(jì)方式,這種設(shè)計(jì)僅通過(guò)提示就能“基本有效”。
Simon Willison印象中好像從來(lái)沒(méi)見(jiàn)過(guò)哪個(gè)新詞流行起來(lái)或者被曲解得這么快。
很多人反而把“氛圍編程”當(dāng)作所有涉及LLM的編程工作的統(tǒng)稱。他認(rèn)為這浪費(fèi)了一個(gè)很棒的術(shù)語(yǔ),尤其是在未來(lái)大多數(shù)編程工作很可能都會(huì)涉及一定程度的AI輔助的情況下。
Simon Willison盡力去強(qiáng)調(diào)這個(gè)詞的原意:
- 并非所有AI輔助編程都是基于氛圍編程(但氛圍編程在3月確實(shí)很棒)。
- 5月,有兩家出版社和三位作者未能理解“氛圍編程”的含義(其中一本書(shū)后來(lái)將書(shū)名改為更好的“超越氛圍編程”)。
- Simon Willison在10月參加了氛圍工程研討會(huì),會(huì)上嘗試提出一個(gè)替代術(shù)語(yǔ),來(lái)描述專(zhuān)業(yè)工程師使用AI輔助構(gòu)建生產(chǎn)級(jí)軟件時(shí)所發(fā)生的事情。
- 你的任務(wù)是在12月交付你已經(jīng)證明有效的代碼,以此來(lái)說(shuō)明專(zhuān)業(yè)的軟件開(kāi)發(fā)就是編寫(xiě)能夠?qū)嶋H運(yùn)行的代碼,無(wú)論你是如何構(gòu)建的。
他認(rèn)為這場(chǎng)爭(zhēng)論還沒(méi)有結(jié)束。他看到了一些令人欣慰的跡象,表明最初更完善、更貼近實(shí)際的“氛圍編程”定義最終可能會(huì)勝出。
十七、MCP(唯一?)之年
Anthropic于2024年11月推出了模型上下文協(xié)議(MCP)規(guī)范,作為將工具調(diào)用與不同LLM集成的開(kāi)放標(biāo)準(zhǔn)。2025年初,MCP迅速走紅。5月,OpenAI、Anthropic和Mistral三家公司在短短8天內(nèi)相繼推出了對(duì)MCP的API級(jí)支持!
MCP的想法本身無(wú)可厚非,但它如此廣泛的應(yīng)用著實(shí)令人感到意外。Simon Willison認(rèn)為這主要?dú)w結(jié)于時(shí)機(jī):MCP的發(fā)布恰逢模型在工具調(diào)用方面終于變得穩(wěn)定可靠,以至于很多人似乎誤以為MCP支持是模型使用工具的先決條件。
一段時(shí)間以來(lái),MCP似乎也成了那些面臨“AI戰(zhàn)略”壓力卻不知如何著手實(shí)施的公司的一個(gè)便捷解決方案。宣布推出MCP服務(wù)器來(lái)支持你的產(chǎn)品,就成了輕松滿足這一要求的有效途徑。
在Simon Willison看來(lái),MCP可能只是曇花一現(xiàn)的原因在于編程agent的爆炸式增長(zhǎng)。似乎在任何情況下,Bash都是最佳工具——如果agent能夠運(yùn)行任意shell命令,它就能完成任何可以通過(guò)在終端輸入命令完成的操作。
自從他大量使用Claude Code和朋友們的工具后,他就幾乎完全不用MCP了——他發(fā)現(xiàn)像gh等CLI工具和Playwright等庫(kù)是GitHub和Playwright MCP的更好替代品。
Anthropic似乎也意識(shí)到了這一點(diǎn),并在當(dāng)年晚些時(shí)候發(fā)布了出色的Skills機(jī)制。MCP涉及Web服務(wù)器和復(fù)雜的JSON數(shù)據(jù)。而Skill則是一個(gè)文件夾中的Markdown文件,還可以選擇性地附帶一些可執(zhí)行腳本。
然后,Anthropic在11月發(fā)布了《使用MCP執(zhí)行代碼:構(gòu)建更高效的agent》 ,描述了一種讓編程agent生成調(diào)用MCP的代碼的方法,從而避免了原始規(guī)范中的大部分上下文開(kāi)銷(xiāo)。
MCP于12月初捐贈(zèng)給了新成立的Agentic AI基金會(huì)。Skill于12月18日升級(jí)為“開(kāi)放格式” 。
十八、AI瀏覽器令人擔(dān)憂之年
盡管存在非常明顯的安全風(fēng)險(xiǎn),但似乎每個(gè)人都想在瀏覽器中安裝LLM。
OpenAI于10月推出了 ChatGPT Atlas,該團(tuán)隊(duì)由包括長(zhǎng)期擔(dān)任 Google Chrome工程師的Ben Goodger和Darin Fisher在內(nèi)的成員組成。
Anthropic一直在推廣他們的Chrome擴(kuò)展程序Claude,該擴(kuò)展程序提供的功能與完整的Chrome分支類(lèi)似。
Chrome現(xiàn)在在右上角有一個(gè)叫做“Gemini in Chrome”的小“Gemini”按鈕,但Simon Willison認(rèn)為這只是用來(lái)回答有關(guān)內(nèi)容的問(wèn)題,目前還不具備引導(dǎo)瀏覽行為的功能。
Simon Willison仍然對(duì)這些新工具的安全隱患深感擔(dān)憂。瀏覽器可以訪問(wèn)最敏感的數(shù)據(jù),并控制著用戶的大部分?jǐn)?shù)字生活。針對(duì)瀏覽器agent的即時(shí)注入攻擊,如果能夠竊取或修改這些數(shù)據(jù),后果不堪設(shè)想。
到目前為止,Simon Willison看到的關(guān)于緩解這些擔(dān)憂的最詳細(xì)內(nèi)容來(lái)自O(shè)penAI首席信息安全官Dane Stuckey,他談到了防護(hù)措施、紅隊(duì)演練和縱深防御,但也正確地稱快速注入為“一個(gè)前沿的、尚未解決的安全問(wèn)題”。
Simon Willison已經(jīng)在非常嚴(yán)格的監(jiān)督下使用過(guò)這些瀏覽器agent幾次了。它們有點(diǎn)慢,而且不太穩(wěn)定,點(diǎn)擊交互元素時(shí)經(jīng)常會(huì)失敗,但它們對(duì)于解決那些無(wú)法通過(guò)API解決的問(wèn)題非常有用。
十九、致命三連擊之年
Simon Willison撰寫(xiě)有關(guān)提示注入攻擊的文章已經(jīng)三年多了,發(fā)現(xiàn)持續(xù)存在的挑戰(zhàn)是,如何幫助人們理解為什么這類(lèi)攻擊是一個(gè)需要認(rèn)真對(duì)待的問(wèn)題,任何在這個(gè)領(lǐng)域開(kāi)發(fā)軟件的人都必須重視它。
語(yǔ)義擴(kuò)散加劇了這種情況,術(shù)語(yǔ)“提示注入”也擴(kuò)展到了越獄,而且誰(shuí)又會(huì)在乎有人能欺騙模型說(shuō)出粗魯?shù)脑捘兀?/p>
所以Simon Willison嘗試了一種新的語(yǔ)言技巧,6月份創(chuàng)造了“致命三連擊”這個(gè)術(shù)語(yǔ),用來(lái)描述提示注入的一個(gè)子集,即惡意指令誘騙agent代表攻擊者竊取私人數(shù)據(jù)。
![]()
二十、手機(jī)編程之年
今年Simon Willison在手機(jī)上編寫(xiě)的代碼量遠(yuǎn)遠(yuǎn)超過(guò)了在電腦上編寫(xiě)的代碼量。
今年大部分時(shí)間他都在使用氛圍編程,所以才這樣。
他的tools.simonwillison.net HTML+JavaScript工具集基本上就是這樣構(gòu)建的:先有一個(gè)小項(xiàng)目的想法,然后通過(guò)Claude Artifacts、ChatGPT或Claude Code的iPhone應(yīng)用進(jìn)行測(cè)試,之后要么復(fù)制結(jié)果粘貼到GitHub的網(wǎng)頁(yè)編輯器里,要么等待有人提交PR,然后在手機(jī)Safari瀏覽器里進(jìn)行審核和合并。
這些HTML工具通常有100-200行代碼,充滿了無(wú)趣的樣板代碼和重復(fù)的CSS和JavaScript模式——但110個(gè)加起來(lái)就很多了!
直到11月,Simon Willison還會(huì)說(shuō)自己在手機(jī)上編寫(xiě)的代碼更多,但他在筆記本電腦上編寫(xiě)的代碼顯然更重要——經(jīng)過(guò)全面審查、更好地測(cè)試,并且是為生產(chǎn)環(huán)境設(shè)計(jì)的。
2025年12月,他對(duì)Claude Opus 4.5的信心越來(lái)越強(qiáng),以至于開(kāi)始在手機(jī)上使用Claude Code來(lái)處理更復(fù)雜的任務(wù),包括打算在非玩具項(xiàng)目中使用的代碼。
這一切始于他將JustHTML HTML5解析器從Python移植到JavaScript的項(xiàng)目,他使用了Codex CLI和GPT-5.2。當(dāng)僅通過(guò)提示就能完成時(shí),他開(kāi)始好奇,如果只用手機(jī),他能完成多少類(lèi)似的項(xiàng)目。
所以他嘗試將Fabrice Bellard的新MicroQuickJS C庫(kù)移植到Python,完全使用Claude Code在iPhone上運(yùn)行,而且大部分都成功了。
這段代碼適合在生產(chǎn)環(huán)境中使用嗎?當(dāng)然,目前還不適合用于未經(jīng)信任的代碼,但Simon Willison相信它能夠執(zhí)行自己編寫(xiě)的JavaScript代碼。他從MicroQuickJS借用的測(cè)試套件讓他對(duì)此很有信心。
二十一、合規(guī)套件之年
事實(shí)證明,這才是關(guān)鍵所在:如果你能給最新的編程agent提供一個(gè)現(xiàn)有的測(cè)試套件,它們針對(duì)2025年11月左右的前沿模型進(jìn)行測(cè)試時(shí),效果會(huì)非常顯著。
Simon Willison稱這些為一致性測(cè)試套件,并且已經(jīng)開(kāi)始有意識(shí)地尋找它們。他已經(jīng)成功地使用html5lib測(cè)試、MicroQuickJS測(cè)試套件以及一個(gè)尚未發(fā)布的、針對(duì)全面的WebAssembly規(guī)范/測(cè)試集的項(xiàng)目進(jìn)行了測(cè)試。
如果你要在2026年向世界推出一項(xiàng)新協(xié)議,甚至是新的編程語(yǔ)言,Simon Willison強(qiáng)烈建議你將與語(yǔ)言無(wú)關(guān)的一致性測(cè)試套件作為項(xiàng)目的一部分。
很多人憂心忡忡地?fù)?dān)心,由于需要納入LLM訓(xùn)練數(shù)據(jù),新技術(shù)將難以被廣泛接受。他希望一致性套件方法能夠幫助緩解這個(gè)問(wèn)題,并使這類(lèi)新理念更容易獲得認(rèn)可。
二十二、今年本地模型已經(jīng)很不錯(cuò),但云模型變得更好了
2024年底,Simon Willison對(duì)在自己的機(jī)器上運(yùn)行本地LLM模型失去了興趣。直到12月Llama 3.3 70B的發(fā)布,他才興趣重燃。
這是他第一次感覺(jué)自己可以在64GB MacBook Pro上運(yùn)行真正的GPT-4級(jí)模型。
隨后在1月份,Mistral發(fā)布了Mistral Small 3,這是一個(gè)采用Apache 2許可的24B參數(shù)模型,其性能似乎與Llama 3.3(70B)相當(dāng),但內(nèi)存占用卻只有后者的1/3左右。現(xiàn)在可以運(yùn)行一個(gè)類(lèi)似GPT-4級(jí)別的模型,并且還有剩余內(nèi)存來(lái)運(yùn)行其他應(yīng)用程序。
這一趨勢(shì)一直持續(xù)到2025年,尤其是在中國(guó)AI實(shí)驗(yàn)室的模型開(kāi)始占據(jù)主導(dǎo)地位之后。大約200億到320億的參數(shù)量這一最佳區(qū)間,使得模型的性能不斷超越以往。
大型云模型也變得更好了,包括那些開(kāi)源模型,雖然可以免費(fèi)使用,但體積太大(1000B+),筆記本電腦無(wú)法運(yùn)行。
編程agent徹底改變了Simon Willison的看法。像Claude Code這樣的系統(tǒng)需要的,不僅僅是一個(gè)優(yōu)秀的模型,而是一個(gè)推理模型,能夠在不斷擴(kuò)展的上下文窗口中可靠地執(zhí)行數(shù)十次甚至數(shù)百次工具調(diào)用。
他還沒(méi)有嘗試過(guò)任何能夠可靠地處理Bash工具調(diào)用的本地模型,因此無(wú)法信任該模型來(lái)在設(shè)備上運(yùn)行編程agent。
Simon Willison的下一臺(tái)筆記本電腦至少要有128GB的??內(nèi)存,所以2026年推出的輕量級(jí)機(jī)型或許符合他的需求。不過(guò)就目前而言,他還是會(huì)選擇目前市面上最好的前沿托管模型作為日常主力。
二十三、低質(zhì)量數(shù)字內(nèi)容之年
2025年,韋氏詞典將“slop”評(píng)為年度詞匯!
slop:通常通過(guò)AI大量生產(chǎn)的低質(zhì)量數(shù)字內(nèi)容。
互聯(lián)網(wǎng)上一直充斥著大量低質(zhì)量?jī)?nèi)容。挑戰(zhàn)依然在于如何找到并推廣優(yōu)質(zhì)內(nèi)容。內(nèi)容篩選比以往任何時(shí)候都更加重要。
二十四、數(shù)據(jù)中心變得極其不受歡迎之年
AI數(shù)據(jù)中心繼續(xù)消耗大量能源,而建造它們的軍備競(jìng)賽仍在加速,這種速度感覺(jué)是不可持續(xù)的。
2025年有趣的是,公眾輿論似乎正在發(fā)生相當(dāng)大的轉(zhuǎn)變,反對(duì)新建數(shù)據(jù)中心。
以下是《衛(wèi)報(bào)》12月8日的一則頭條新聞:超過(guò)200個(gè)環(huán)保組織要求停止在美國(guó)新建數(shù)據(jù)中心。地方層面的反對(duì)聲浪似乎也在全面急劇上升。
Andy Masley讓Simon Willison確信,用水問(wèn)題大多被夸大了,這主要是因?yàn)樗稚⒘巳藗儗?duì)能源消耗、碳排放和噪音污染等真正問(wèn)題的注意力。
AI實(shí)驗(yàn)室不斷尋找新的效率方法,以幫助提高模型質(zhì)量,同時(shí)減少每個(gè)token的能源消耗,但這帶來(lái)的影響是經(jīng)典的杰文斯悖論——隨著token價(jià)格下降,我們找到了更密集的使用方式,例如每月花費(fèi)200美元購(gòu)買(mǎi)數(shù)百萬(wàn)個(gè)token來(lái)運(yùn)行編程agent。
來(lái)源:Simon Willison總結(jié)文章
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.