Jay 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI
清華攢了個(gè)局,把AI圈大半邊天聚到了一塊。
基模四杰全員到場(chǎng):智譜唐杰、Kimi楊植麟、阿里林俊旸,還有……
突然貼臉跳屏的姚順雨。
![]()
這場(chǎng)由清華大學(xué)基礎(chǔ)模型北京市重點(diǎn)實(shí)驗(yàn)室發(fā)起的AGI-Next前沿峰會(huì),相當(dāng)硬核。
各位大咖的演講簡(jiǎn)直像是在做技術(shù)報(bào)告,信息密度極高,而且用詞相當(dāng)犀利。
- 唐杰:DeepSeek橫空出世后,Chat已經(jīng)基本結(jié)束了,下一步是走向做事。
- 楊植麟:做模型,本質(zhì)上是在創(chuàng)造一種世界觀。
- 林俊旸:中國(guó)想在AI賽道反超,很難。20%這個(gè)數(shù)字已經(jīng)很樂(lè)觀。
- 姚順雨:toC的話,大部分人其實(shí)用不著那么強(qiáng)的智能。
以下附上演講原文,為提升可讀性,量子位在不改變?cè)獾那疤嵯伦隽诉m當(dāng)調(diào)整。
清華論劍
唐杰
我的題目是「讓機(jī)器像人一樣思考」。
2019年,我們?cè)谇迦A的支持下完成成果轉(zhuǎn)化,成立了智譜。
同一時(shí)期,我們也持續(xù)推動(dòng)開(kāi)源,既有模型和工具層面的項(xiàng)目,也有面向開(kāi)發(fā)者的大模型 API 體系。
我在清華待了將近二十年。
回頭看,我做的事情其實(shí)很簡(jiǎn)單,主要就兩件:
一是早年做AMiner;二是大模型。
有一個(gè)對(duì)我影響很深的觀念,我稱之為「像喝咖啡一樣做研究」。這件事和今天在座的一位嘉賓密切相關(guān)——楊強(qiáng)教授。
剛畢業(yè)那會(huì)兒我去港科大,學(xué)校幾乎所有空間都在一棟樓里:教室、實(shí)驗(yàn)室、會(huì)議室、咖啡廳都在一起。
有一次在咖啡廳遇到楊老師,我說(shuō)最近咖啡喝得有點(diǎn)多,可能該戒一戒。
他先說(shuō)「對(duì),應(yīng)該戒一戒」,接著又說(shuō),如果我們做研究也能像喝咖啡一樣上癮,那研究大概就真的能做好了。
這句話對(duì)我觸動(dòng)很大,從2008年一直影響到現(xiàn)在。
做研究,本質(zhì)上需要長(zhǎng)期專(zhuān)注和持續(xù)投入。AGI正是這樣一件事,它并不追求短期見(jiàn)效,而是一項(xiàng)多年投入的工程。
2019 年,我們實(shí)驗(yàn)室在圖神經(jīng)網(wǎng)絡(luò)和知識(shí)圖譜方向已經(jīng)有一定國(guó)際影響力,但當(dāng)時(shí)還是下定決心階段性按下暫停鍵,幾乎所有人都轉(zhuǎn)向大模型相關(guān)研究。到今天,算是做出了一點(diǎn)點(diǎn)成果。
如果從大模型的發(fā)展軌跡來(lái)看,用「智能水平」來(lái)描述會(huì)比較直觀。
2020年前后,模型主要解決的是MMU、QA等相對(duì)簡(jiǎn)單的問(wèn)題;到2021、2022 年,開(kāi)始進(jìn)入數(shù)學(xué)計(jì)算和基礎(chǔ)推理階段;通過(guò)后訓(xùn)練,這些能力逐步被補(bǔ)齊。
到2023、2024年,模型從知識(shí)記憶走向復(fù)雜推理,甚至可以處理研究生層級(jí)的問(wèn)題,并開(kāi)始在SWE-bench這類(lèi)真實(shí)世界編程任務(wù)中表現(xiàn)出可用性。
這個(gè)過(guò)程很像人的成長(zhǎng):從閱讀、算術(shù),到更復(fù)雜的推理,再到走向真實(shí)工作場(chǎng)景。
今年開(kāi)始,大家也看到 HLE,也就是「人類(lèi)終極測(cè)試」,其中不少問(wèn)題連搜索引擎都無(wú)法直接給出答案,要求模型具備更強(qiáng)的泛化能力。
如何解決,目前仍然沒(méi)有確定答案,但可以確認(rèn)的是,到2025年,模型的整體能力仍在快速提升。
從另一個(gè)角度看,一個(gè)核心問(wèn)題是:模型如何從Scaling走向真正的泛化能力。
人類(lèi)一直期待機(jī)器具備泛化能力。教它少量例子,就能舉一反三,解決更多甚至未見(jiàn)過(guò)的問(wèn)題。
這和我們教孩子的期望一致:學(xué)會(huì)三個(gè)問(wèn)題,就能解出第四個(gè)、第十個(gè),甚至超出原本教學(xué)范圍。
當(dāng)前的路徑,是希望通過(guò)Scaling提升這種泛化能力。但客觀來(lái)說(shuō),模型的泛化水平仍有很大提升空間,我們只能在不同層面持續(xù)推進(jìn)。
最早期的階段,是用Transformer訓(xùn)練模型,通過(guò)大規(guī)模數(shù)據(jù)和算力,把大量知識(shí)「記住」。
第二個(gè)階段,是對(duì)模型進(jìn)行對(duì)齊和推理能力強(qiáng)化,讓它更好地理解人類(lèi)意圖,并完成更復(fù)雜的推理任務(wù)。
這需要持續(xù)ScalingSFT,甚至引入強(qiáng)化學(xué)習(xí)。通過(guò)大量人類(lèi)反饋數(shù)據(jù),不斷擴(kuò)大反饋規(guī)模,使模型更準(zhǔn)確、更可靠。
今年一個(gè)重要變化是RLVR。
過(guò)去強(qiáng)化學(xué)習(xí)難以大規(guī)模推進(jìn),核心原因在于依賴人類(lèi)反饋,而人類(lèi)反饋存在噪音大、覆蓋場(chǎng)景有限的問(wèn)題。如果引入可驗(yàn)證環(huán)境,模型就可以自主探索、自動(dòng)獲得反饋,在閉環(huán)中持續(xù)成長(zhǎng)。
但這里的難點(diǎn)也非常明顯。所謂「可驗(yàn)證」,在數(shù)學(xué)、編程等領(lǐng)域相對(duì)容易定義;可一旦擴(kuò)展到更廣泛的任務(wù),比如網(wǎng)頁(yè)是否美觀、交互是否合理,仍需人工判斷。
因此,當(dāng)前RLVR面臨的挑戰(zhàn)在于:可驗(yàn)證場(chǎng)景正在逐漸耗盡。接下來(lái)是否能進(jìn)入半自動(dòng)驗(yàn)證,甚至不可驗(yàn)證的任務(wù)空間,讓模型能力繼續(xù)泛化,這是一個(gè)關(guān)鍵問(wèn)題。
再往前看,當(dāng)機(jī)器開(kāi)始進(jìn)入物理世界、執(zhí)行真實(shí)任務(wù)時(shí),如何構(gòu)建智能體的環(huán)境、如何設(shè)計(jì)反饋機(jī)制,會(huì)帶來(lái)更多挑戰(zhàn)。可以看到,AI的發(fā)展已經(jīng)不再局限于單一模型或Transformer結(jié)構(gòu),而是在演變?yōu)橐粋€(gè)復(fù)雜的、系統(tǒng)化的智能體系。
從能力結(jié)構(gòu)上看,模型最初集中在數(shù)理化等推理任務(wù),從小學(xué)、初中、高中層級(jí),逐步提升到GPQA等高難度理化生問(wèn)題,再到接近奧賽金牌水平。今年HLE這一極高難度的智能評(píng)測(cè)基準(zhǔn),也開(kāi)始出現(xiàn)明顯進(jìn)展。
在真實(shí)環(huán)境中,代碼能力是另一個(gè)典型例子。2021年已經(jīng)存在代碼模型,當(dāng)時(shí)也和俊旸、Kimi植麟等有過(guò)合作,那一階段模型具備基礎(chǔ)編程能力,但成功率和穩(wěn)定性有限,往往寫(xiě)十個(gè)程序才能跑通一個(gè)。
如今情況發(fā)生了明顯變化,模型在復(fù)雜任務(wù)中往往可以一次性跑通,已經(jīng)開(kāi)始實(shí)質(zhì)性地輔助高級(jí)工程師完成更復(fù)雜的工程工作。
很多人會(huì)問(wèn),智能不斷增強(qiáng),是否只要持續(xù)把模型訓(xùn)練下去就可以了?
DeepSeek橫空出世,當(dāng)時(shí)我們?cè)趦?nèi)部反復(fù)討論一個(gè)問(wèn)題:
Chat這一代問(wèn)題基本已經(jīng)被解決得差不多。繼續(xù)優(yōu)化,大概率也只是做到性能接近,或在個(gè)性化、情感化上做一些改進(jìn)。從整體范式看,空間正在迅速收斂,剩下更多是工程和實(shí)現(xiàn)層面的挑戰(zhàn)。
這迫使我們思考下一步方向。我們的判斷是,新的范式不再只是「對(duì)話」,而是讓每個(gè)人真正用AI完成一件具體的事情。
從Chat走向做事,這是一個(gè)明顯的轉(zhuǎn)折點(diǎn)。
當(dāng)時(shí)擺在我們面前的,主要有兩條思路:一條是圍繞Thinking能力,結(jié)合Coding與Agent;
另一條是讓模型更深度地與環(huán)境交互,用AI直接輔助研究,例如DeepResearch,生成復(fù)雜研究報(bào)告。這是一次取舍。
我們最終優(yōu)先選擇了前一條路徑,強(qiáng)化Thinking能力并引入Coding場(chǎng)景,同時(shí)并未完全放棄與環(huán)境交互的方向。
7月28日,我們做了一次嘗試,將Coding、Agentic和Reasoning能力整合在同一個(gè)模型中。
在7月28日發(fā)布的4.5版本中,我們用12個(gè)Benchmark做了系統(tǒng)評(píng)測(cè),在智能體、推理和代碼任務(wù)上取得了當(dāng)時(shí)相對(duì)領(lǐng)先的結(jié)果。
隨后我們很快將4.5開(kāi)放給用戶使用,讓大家在真實(shí)場(chǎng)景中編程。
問(wèn)題很快暴露出來(lái)。比如有用戶希望一句話生成一個(gè)可玩的植物大戰(zhàn)僵尸游戲,包含完整界面、交互邏輯、得分機(jī)制和后臺(tái)系統(tǒng)。4.5在這類(lèi)真實(shí)復(fù)雜環(huán)境中頻繁出Bug,難以完成任務(wù)。
這正好指向RLVR可驗(yàn)證強(qiáng)化學(xué)習(xí)的價(jià)值。我們構(gòu)建了大量真實(shí)編程環(huán)境,將其作為強(qiáng)化學(xué)習(xí)的可驗(yàn)證反饋源,同時(shí)結(jié)合SFT數(shù)據(jù)進(jìn)行雙向優(yōu)化,使模型在真實(shí)交互中逐步提升穩(wěn)定性。
類(lèi)似的方法也被引入到Web場(chǎng)景中,通過(guò)Web環(huán)境反饋增強(qiáng)可驗(yàn)證性。
在這一策略下,我們?cè)赟WE-bench等真實(shí)世界評(píng)測(cè)中取得了較好的成績(jī),近期也持續(xù)保持不錯(cuò)表現(xiàn)。
但Benchmark成績(jī)并不等同于主模型能力。如何將這些能力可靠地回灌到主模型,仍是一個(gè)巨大挑戰(zhàn)。很多模型在單項(xiàng)Benchmark上表現(xiàn)突出,但用戶真實(shí)體感未必提升。
另一個(gè)挑戰(zhàn)在于訓(xùn)練體系本身。RL任務(wù)種類(lèi)多樣,序列長(zhǎng)度和時(shí)間尺度差異極大,難以統(tǒng)一調(diào)度。為此,我們開(kāi)發(fā)了一個(gè)全異步強(qiáng)化學(xué)習(xí)訓(xùn)練框架,使不同任務(wù)能夠并行運(yùn)行、動(dòng)態(tài)收斂。這一框架也在今年完成了開(kāi)源。
在此基礎(chǔ)上,Agent和Coding能力獲得了明顯提升。近期發(fā)布的4.7版本,相比4.6和4.5,在這兩個(gè)維度上都有顯著進(jìn)步。
體感評(píng)估同樣關(guān)鍵。真實(shí)用戶并不關(guān)心模型分?jǐn)?shù),而關(guān)心自己的程序能否跑通、結(jié)果是否可靠。為此,我們組織了大量人工評(píng)測(cè),邀請(qǐng)經(jīng)驗(yàn)豐富的工程師對(duì)真實(shí)編程任務(wù)進(jìn)行主觀評(píng)估。目前仍有不少問(wèn)題有待解決,但方向已經(jīng)逐漸清晰。
在整合這些能力之后,到2025年底,我們?cè)贏rtificialAnalysis榜單上取得了一個(gè)相對(duì)不錯(cuò)的綜合成績(jī),算是階段性的結(jié)果。
再往前一步,當(dāng)模型真正進(jìn)入Agent環(huán)境并嘗試大規(guī)模落地時(shí),問(wèn)題會(huì)變得更加復(fù)雜。
可以把Agent的最基礎(chǔ)能力理解為編程。程序?qū)懞煤蠹纯蓤?zhí)行,對(duì)應(yīng)到Agent中就是一個(gè)或幾個(gè)action。但當(dāng)任務(wù)復(fù)雜度繼續(xù)提升,就會(huì)出現(xiàn)完全不同的形態(tài)。
左邊是Claude提出的computer use,中間是豆包的手機(jī)Agent,右邊是Manus所做的異步、超長(zhǎng)鏈路任務(wù)。
如果你希望AI完成幾十步、上百步的任務(wù),比如全天候監(jiān)控小紅書(shū)上關(guān)于清華大學(xué)的討論,自動(dòng)整理主題并生成文檔,這類(lèi)任務(wù)本質(zhì)上是完全異步的,也極其復(fù)雜。它不可能依賴人工盯著設(shè)備執(zhí)行,更接近于一種Device use層面的能力。
這類(lèi)問(wèn)題帶來(lái)的更大挑戰(zhàn),并不完全在于數(shù)據(jù)規(guī)模。很多應(yīng)用場(chǎng)景本身幾乎沒(méi)有現(xiàn)成數(shù)據(jù),更多是代碼邏輯,典型的冷啟動(dòng)問(wèn)題。
早期我們確實(shí)采集并整合了大量數(shù)據(jù),通過(guò)SFT和特定領(lǐng)域的強(qiáng)化學(xué)習(xí),在部分場(chǎng)景中取得了較好效果,但很快會(huì)發(fā)現(xiàn)一個(gè)現(xiàn)實(shí)問(wèn)題:傳統(tǒng)的iphone use或手機(jī)交互,本質(zhì)是點(diǎn)按鈕,而AI的交互對(duì)象并非人。
如果從系統(tǒng)角度看,AI并不需要操作手機(jī)界面,最理想的方式是直接調(diào)用API。但現(xiàn)實(shí)是,設(shè)備不可能完全API化,GUI依然存在。
這就需要一種混合方案。在對(duì)AI友好的場(chǎng)景下,優(yōu)先采用API;在對(duì)人友好的場(chǎng)景下,讓AI模擬人完成GUI操作。通過(guò)將API與GUI結(jié)合,我們?cè)诖罅空鎸?shí)環(huán)境中采集交互數(shù)據(jù),并進(jìn)行全異步強(qiáng)化學(xué)習(xí),使模型逐步獲得一定程度的泛化能力。
需要強(qiáng)調(diào)的是,這種泛化能力仍然非常有限,與理想狀態(tài)存在明顯差距,但已經(jīng)具備初步遷移和適應(yīng)能力。
冷啟動(dòng)帶來(lái)的另一個(gè)問(wèn)題,是強(qiáng)化學(xué)習(xí)本身的風(fēng)險(xiǎn)。如果數(shù)據(jù)不足,模型容易在強(qiáng)化過(guò)程中陷入局部最優(yōu),表現(xiàn)為策略固化、路徑收窄,最終整體效果偏移。
為應(yīng)對(duì)這一問(wèn)題,我們?cè)谟?xùn)練過(guò)程中引入交替機(jī)制,在強(qiáng)化學(xué)習(xí)過(guò)程中周期性插入SFT,用以校正方向、恢復(fù)多樣性,使模型具備一定的容錯(cuò)能力和回拉能力,從而形成可擴(kuò)展的訓(xùn)練范式。
在移動(dòng)端環(huán)境中,這一策略已經(jīng)在安卓場(chǎng)景下取得了相對(duì)明顯的效果提升。
另外在多任務(wù)的大模型強(qiáng)調(diào)學(xué)習(xí)上,我們也做了一定的工作,在算法上主要采用多輪的強(qiáng)化學(xué)習(xí),工程上本質(zhì)上就是Scaling,讓它更大規(guī)模的往下。
今年我們大概在12月份的時(shí)候開(kāi)源了AutoGLM,把里面所有的東西都開(kāi)源。這個(gè)模型是9B模型,可以在人機(jī)交互里面動(dòng)作特別快。
我們?cè)?B規(guī)模的模型上引入了大量Agent相關(guān)數(shù)據(jù),模型在Agent任務(wù)上的能力顯著增強(qiáng),但原有的一部分通用語(yǔ)言能力和推理能力會(huì)出現(xiàn)下降。它不再是一個(gè)完全通用的模型,而是更偏向Agent取向。
在未來(lái)更大規(guī)模的Agent模型中,如何在強(qiáng)化Agent能力的同時(shí),避免損害通用能力,這是一個(gè)需要解決的問(wèn)題。
2025年也是GLM的開(kāi)源年。從1月到12月,我們陸續(xù)開(kāi)源了多條模型線,涵蓋語(yǔ)言模型、智能體模型以及多模態(tài)模型,包括GLM-4.6、4.6V、4.5V等一系列版本。
在Artificial Analysis榜單上,前五名中的藍(lán)色模型幾乎全部來(lái)自中國(guó),說(shuō)明中國(guó)在開(kāi)源大模型領(lǐng)域已經(jīng)形成了非常顯著的影響力。
下面一個(gè)問(wèn)題,我們還能否繼續(xù)Scaling?下一個(gè)AGI范式可能是什么?同時(shí)也面臨更多現(xiàn)實(shí)挑戰(zhàn)。
在開(kāi)源取得進(jìn)展之后,容易產(chǎn)生一種樂(lè)觀情緒,覺(jué)得中國(guó)大模型已經(jīng)在某些維度上超過(guò)了美國(guó)。但差距未必在縮小,甚至可能在擴(kuò)大。
下一步我們應(yīng)該怎么做?
從大模型的發(fā)展路徑看,它本質(zhì)上一直在借鑒人腦認(rèn)知的學(xué)習(xí)過(guò)程。最早階段,是把世界的長(zhǎng)期知識(shí)盡可能「背下來(lái)」,就像孩子先大量閱讀;隨后逐步學(xué)會(huì)推理、數(shù)學(xué)、抽象與演繹。
這條主線仍然成立,有幾類(lèi)能力,人類(lèi)顯著領(lǐng)先于當(dāng)前模型,可能是新的突破方向。
![]()
第一,多模態(tài)。
人通過(guò)視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等多種輸入形成整體認(rèn)知,感統(tǒng)能力不足會(huì)直接影響判斷和行動(dòng)。
模型如何建立類(lèi)似的多模態(tài)「感統(tǒng)」機(jī)制,也就是原生多模態(tài),是一個(gè)關(guān)鍵方向。
第二,記憶與持續(xù)學(xué)習(xí)。
人類(lèi)具備多層級(jí)記憶結(jié)構(gòu),包括短期記憶、工作記憶和長(zhǎng)期記憶。
進(jìn)一步看,個(gè)體的長(zhǎng)期記憶本身也并不等同于「知識(shí)」。只有當(dāng)知識(shí)被記錄,才會(huì)真正進(jìn)入人類(lèi)文明的長(zhǎng)期記憶體系。
未來(lái)如何從個(gè)體記憶擴(kuò)展到群體級(jí)、文明級(jí)的記憶結(jié)構(gòu),并將其納入模型可持續(xù)學(xué)習(xí)框架,是一個(gè)重要問(wèn)題。
第三,反思與自我認(rèn)知能力。
當(dāng)前模型已經(jīng)具備初步的反思能力,但更深層次的自我認(rèn)知仍然存在巨大爭(zhēng)議。學(xué)界對(duì)此分歧明顯,有人支持,有人反對(duì)。我個(gè)人傾向于認(rèn)為,這是有可能的,值得探索。
人類(lèi)認(rèn)知是雙系統(tǒng),系統(tǒng)一和系統(tǒng)二。
系統(tǒng)一完成了95%的任務(wù),比如「你今晚吃飯嗎」,隨口回答「吃」,這些是系統(tǒng)一背下來(lái)的。
系統(tǒng)二只在更復(fù)雜的情境中啟動(dòng),占比大約5%。
對(duì)于大模型來(lái)講同樣的道理,我們?cè)?020年畫(huà)過(guò)一張參考人類(lèi)認(rèn)知的AI系統(tǒng)結(jié)構(gòu)圖:系統(tǒng)一、系統(tǒng)二,再加一個(gè)自學(xué)習(xí)模塊。
引入「自學(xué)習(xí)」的想法,主要基于三點(diǎn)。
第一,系統(tǒng)一可以對(duì)應(yīng)一個(gè)大規(guī)模模型,讓它通過(guò)模式匹配與知識(shí)提取,覆蓋大量常見(jiàn)問(wèn)答與常規(guī)任務(wù)。
第二,系統(tǒng)二可以對(duì)應(yīng)更強(qiáng)的知識(shí)融合與推理機(jī)制,例如指令微調(diào)、思維鏈等,使模型能處理更復(fù)雜的推理與決策。
第三,人腦在睡眠中會(huì)發(fā)生無(wú)意識(shí)的整合與鞏固,如果缺少睡眠,人并不會(huì)變得更聰明。
對(duì)應(yīng)到今天的路徑,可以把其三類(lèi)Scaling。
第一,Scaling數(shù)據(jù)與模型規(guī)模,提升智能上限。
第二,Scaling推理,讓思考時(shí)間更長(zhǎng),用更多計(jì)算與搜索找到更優(yōu)解。
第三,Scaling自學(xué)習(xí)環(huán)境,讓模型有更多與外界交互的機(jī)會(huì),從環(huán)境中獲得反饋。
通過(guò)這三個(gè)Scaling,可以讓機(jī)器來(lái)參考人的學(xué)習(xí)范式,學(xué)到更多。
對(duì)于系統(tǒng)一來(lái)說(shuō),既然已經(jīng)有了Transformer,是否意味著只要不斷加數(shù)據(jù)、加參數(shù)就夠了?
但我們現(xiàn)在面臨一個(gè)問(wèn)題,Transformer的計(jì)算復(fù)雜度接近O(N2),context越長(zhǎng),顯存開(kāi)銷(xiāo)越大,推理效率下降越明顯。
最近有一些新型模型,例如用線性復(fù)雜度處理長(zhǎng)序列的模型,嘗試像人腦一樣,用更小的「容量」承載更大的知識(shí)量。
但最近我也在反思,我們能不能找到更好的壓縮方法,把知識(shí)壓縮到更小的空間里面。這會(huì)帶來(lái)兩類(lèi)問(wèn)題。
第一,工程上能否做到?
第二,方法論上能否做到?
最近很多人在探討,大模型要回歸到研究上,不能單純的Scaling。Scaling是一個(gè)很好的辦法,但也是一個(gè)偷懶的辦法,
關(guān)鍵在于找到一個(gè)新范式,讓這個(gè)機(jī)器可以獨(dú)立Scaling。自己來(lái)定義獎(jiǎng)勵(lì)函數(shù)、交互方法、甚至訓(xùn)練任務(wù)來(lái)做Scaling。
在具備上述兩點(diǎn)之后,還要面對(duì)真實(shí)世界的超長(zhǎng)任務(wù)。要讓這個(gè)機(jī)器有像人一樣規(guī)劃,做一下,檢查一下,再反饋一下。
網(wǎng)上已經(jīng)有一些嘗試,這個(gè)idea是模型生成,實(shí)驗(yàn)也是模型做的,報(bào)告也是模型做的,最后可以做一個(gè)Wordshop,但事實(shí)上還沒(méi)有做出來(lái)。
給出我們的一些思考:
大模型之前,大部分機(jī)器學(xué)習(xí)都是F-X到Y(jié)的映射,我學(xué)習(xí)一個(gè)函數(shù),使得X樣本可以映射到Y(jié)。
大模型來(lái)了之后,把這個(gè)問(wèn)題變成F-X到X的映射,可也不是嚴(yán)格的X,但要讓它完全用自監(jiān)督來(lái)做多任務(wù)的自學(xué)習(xí)。
在第二層,我們通過(guò)引入更多數(shù)據(jù),讓模型學(xué)會(huì)推理,學(xué)會(huì)如何激活更底層的智能能力。
再往后,是讓模型具備自反思與自學(xué)習(xí)能力。通過(guò)持續(xù)的自我評(píng)估與自我批判,模型能夠逐步分辨哪些行為是有效的,哪些路徑還有優(yōu)化空間。
到未來(lái),還希望模型進(jìn)一步發(fā)展出更高層次的能力,例如自我認(rèn)知。
還要教這個(gè)機(jī)器能學(xué)習(xí)到更多,比如說(shuō)能學(xué)習(xí)到自我認(rèn)知,讓這個(gè)機(jī)器能對(duì)自己的行為,比如說(shuō)AI生成了大量的內(nèi)容可以自我解釋?zhuān)覟槭裁匆蛇@個(gè)內(nèi)容,我是什么,我的目標(biāo)是什么,在終極上也許有一天,AI也有意識(shí)。
我們大概有這么定義五層的思考
計(jì)算機(jī)有三個(gè)能力:計(jì)算、編程、搜索。這三個(gè)能力疊加在一起,可能能帶來(lái)所謂的「超級(jí)智能」。
我常常會(huì)想起2019年的一件事。當(dāng)時(shí)和阿里巴巴合作,對(duì)方希望我用一頁(yè)P(yáng)PT描述未來(lái)的方向,我給出的那一頁(yè)叫作「AGI-Next30」,討論的是未來(lái)30年我們應(yīng)該做什么。
回到今天看,推理能力已經(jīng)取得了一定共識(shí)和進(jìn)展;記憶能力開(kāi)始顯現(xiàn)雛形,但仍然有限;意識(shí)仍然處在探索階段。這也是我們持續(xù)投入的方向。
再往前看,如果繼續(xù)參考人類(lèi)認(rèn)知,未來(lái)AI可能需要回答更根本的問(wèn)題:什么是「我」,為什么是「我」;如何為模型構(gòu)建意義系統(tǒng);單個(gè)智能體的目標(biāo)是什么;多個(gè)智能體作為群體時(shí)目標(biāo)如何協(xié)調(diào)。通過(guò)這些問(wèn)題,AI才有可能走向?qū)ξ粗某掷m(xù)探索。
有人會(huì)認(rèn)為這些問(wèn)題過(guò)于遙遠(yuǎn),甚至不可能。但從人類(lèi)自身來(lái)看,文明的終極動(dòng)力正是不斷探索未知。那些看似不可能的方向,往往正是通往AGI道路上值得被認(rèn)真對(duì)待的探索目標(biāo)。
對(duì)我個(gè)人而言,2026年更重要的是專(zhuān)注,以及去做一些真正新的事情。
第一,Scaling仍然會(huì)繼續(xù),但需要區(qū)分兩種不同方向。一種是Scaling已知路徑,通過(guò)不斷增加數(shù)據(jù)和算力,持續(xù)探索能力上限;另一種是Scaling未知路徑,也就是尋找尚未明確的新范式。
第二,技術(shù)創(chuàng)新將變得更加關(guān)鍵。我們會(huì)推進(jìn)全新的模型架構(gòu)探索,重點(diǎn)解決超長(zhǎng)上下文、高效知識(shí)壓縮等問(wèn)題,并進(jìn)一步實(shí)現(xiàn)知識(shí)記憶與持續(xù)學(xué)習(xí)能力。
第三,多模態(tài)感統(tǒng)會(huì)成為今年的重點(diǎn)方向。具備這種能力之后,AI才能在真實(shí)工作環(huán)境中執(zhí)行長(zhǎng)鏈路、長(zhǎng)時(shí)效任務(wù),例如在手機(jī)、電腦等設(shè)備上持續(xù)協(xié)作。
同時(shí),我也判斷今年很可能會(huì)成為AI for Science的重要突破年份。隨著多項(xiàng)基礎(chǔ)能力的提升,AI能夠參與的科研任務(wù)范圍將顯著擴(kuò)大,也將打開(kāi)更多新的可能性。
楊植麟
從2019年到現(xiàn)在所有的大模型基本上基于同一個(gè)第一性原理,Scaling Law,也是把能源轉(zhuǎn)化成智能的一個(gè)視角。
![]()
如果有更好的方法,或者更好的芯片,其實(shí)可以把能源更好和更多轉(zhuǎn)化成更高級(jí)的智能。
有更多的算力、數(shù)據(jù)、模型參數(shù)之后,你的模型的loss可以線性下降,這是整個(gè)技術(shù)發(fā)展的基礎(chǔ)。
最早提出來(lái)的Scaling Law的這篇文章,里面對(duì)比了Transformer和Lstm在Scaling Law意義下的的區(qū)別,很有意思。
不管是在什么樣的參數(shù)量下,Transformer的Loss都會(huì)比LSTM更低,也就是在Scaling Law的尺度下,可以用更少的FLoss或者更少的參數(shù),就能得到更好的Scaling效果。
后面Transformer成為主流架構(gòu)的一個(gè)核心原因,是因?yàn)樗赟caling Law上有更好的表現(xiàn)
今天所有的模型架構(gòu)的迭代,其實(shí)都是為了尋找一條線能夠更接近左下角。如果你的網(wǎng)絡(luò)架構(gòu)越接近左下角,其實(shí)你就是更好的網(wǎng)絡(luò)架構(gòu)。
在當(dāng)前的情況下,它會(huì)變的更有意義。互聯(lián)網(wǎng)上的存量數(shù)據(jù)是有限,它是一個(gè)有限集合,高質(zhì)量的數(shù)據(jù)增長(zhǎng)速度其實(shí)是趕不上這個(gè)模型迭代的速度,所以當(dāng)你有一個(gè)越靠左下角的象限的時(shí)候,你的智能上限就會(huì)更高。
但是,很多人可能會(huì)忽略,為什么Transformer會(huì)更好。關(guān)鍵在于Token efficiency。
什么是Token efficiency呢?比如說(shuō)當(dāng)你給一個(gè)一百K的上下文,你會(huì)去數(shù)里面第一、第二、第三、第四一到第一百個(gè)Token的log是什么,比如說(shuō)還是loss,但是它是一個(gè)position loss,因?yàn)槟愕臋M坐標(biāo)是你的Token efficienc,表示你在這個(gè)序列里面到底是第幾個(gè)Token。
你可以看到在最前面的一百個(gè)Token里面,Transformer和LSTM完全一樣的,基本上這兩條線是交錯(cuò)在一起。就是說(shuō)當(dāng)你在很短的Context的時(shí)候,你去預(yù)測(cè)接下來(lái)的Context會(huì)變成什么樣,基本上是相等的效果。
所以在一百很短的Context下面,其實(shí)Transformer并不是一個(gè)更好的架構(gòu)。但是更好的架構(gòu)體現(xiàn)在當(dāng)你的Context非常長(zhǎng)的時(shí)候,Transformer顯著的比LSTM更好。
這也是另外一個(gè)視角拆解它是一個(gè)很重要的指標(biāo)。
在不同的Context長(zhǎng)度下,你的優(yōu)勢(shì)有多大。這個(gè)問(wèn)題在Agentic時(shí)代會(huì)變的非常重要,因?yàn)楹芏郺gent的任務(wù)要求非常長(zhǎng)的長(zhǎng)上下文,你要問(wèn)題很復(fù)雜的任務(wù),所以當(dāng)你一個(gè)架構(gòu)有更低的position loss,說(shuō)明它在做Agent任務(wù)的時(shí)候,會(huì)有好的多的技術(shù)上的潛力。
我們預(yù)訓(xùn)練策略或者模型設(shè)計(jì)策略,圍繞剛剛兩個(gè)維度做。
第一個(gè)是Token efficiency,我們希望做的事情是盡可能把這條線往左邊平移,當(dāng)你越往左邊移動(dòng)的時(shí)候,你的Token efficienc就越高,意味著你可以用盡可能少的Token得到一樣的效果。
當(dāng)你的整個(gè)預(yù)訓(xùn)練Token不夠用的時(shí)候,Token是常量,吃完所有Token的時(shí)候你的智能上限更高,因?yàn)槟愕腖oss更低,這是我們做預(yù)訓(xùn)練很重要的指標(biāo)和優(yōu)化方向。
第二個(gè)方向是Long context。
今天非常復(fù)雜的任務(wù),必須在超長(zhǎng)的Context下才能夠完成。是因?yàn)檠娱L(zhǎng)了Context之后,Loss必然是下降,而且只有一個(gè)好的Agentic才能下降的更多,如果你是LSTM、CNN、RNN這種架構(gòu),到一百Token就停了。
可以做簡(jiǎn)單的做翻譯的任務(wù),但是你永遠(yuǎn)做不了一個(gè)編程任務(wù),沒(méi)有辦法從零到一實(shí)現(xiàn)一個(gè)代碼庫(kù)的編寫(xiě)。這是我們整體的優(yōu)化,Token efficienc再乘以Long Context兩個(gè)東西,最終就可以做到非常好的agent智能。
所以在這里面有兩個(gè)主要的工作,第一個(gè)是米用MUON優(yōu)化器,是工業(yè)界二階優(yōu)化器,傳統(tǒng)的是十幾年前,2014年Adam優(yōu)化器提出之后,它做標(biāo)志性的一階優(yōu)化器。基本上用了十年的時(shí)間,可能主流大模型都是基于Adam訓(xùn)練。
但是我們發(fā)現(xiàn)可能基于MUON二階優(yōu)化器,它的效果會(huì)非常好,好的體現(xiàn)在它有兩倍的Token efficienc的提升,當(dāng)你看這兩條線的時(shí)候,只用50%的數(shù)據(jù)就可以達(dá)到一樣的Test Loss,等價(jià)的話是如果用一樣的數(shù)據(jù),你的Loss小或多,就會(huì)有一倍的Scaling的效果。
右邊是我們最新研究的kimi Linear的架構(gòu),當(dāng)你的這條線拉長(zhǎng)的時(shí)候,降低的幅度是非常大的,也就是你在Long Context等各種任務(wù)上的效果會(huì)顯著的變好。最后是這兩個(gè)東西乘起來(lái),我們認(rèn)為在模型的訓(xùn)練策略上,可以達(dá)到最好的agent的效果。
這些都是為了做出來(lái)更好的agent,為什么要Token efficiency,本質(zhì)上Agent的推理或者AgentRL的訓(xùn)練是搜索過(guò)程,比如說(shuō)你想從頭開(kāi)發(fā)一個(gè)Lineaxr,你想從零做這個(gè)事情,本質(zhì)上是搜索問(wèn)題。
如果你有無(wú)限的數(shù)據(jù),可以把所有可能的情況枚舉遍,看一看里面哪個(gè)東西是好的操作系統(tǒng),你讓AI開(kāi)發(fā)出來(lái)Linearx,提升它的效率,之前的agent是你用模型做很好的先驗(yàn),過(guò)程中不需要枚舉每一種可能的Token組合的情況,因?yàn)楹芏嘟M合是沒(méi)有意義或者錯(cuò)的,更好的預(yù)訓(xùn)練和基礎(chǔ)模型是減少了搜索空間,提升了更好的先驗(yàn)。
今天有很多人研究怎么去減少先驗(yàn),最終有可能是在先驗(yàn)非常少,或者幾乎沒(méi)有的情況下有可能實(shí)現(xiàn)AGI。但是我認(rèn)為基于先驗(yàn)實(shí)現(xiàn)AGI,還是會(huì)更早發(fā)生,整個(gè)領(lǐng)域先基于先驗(yàn)實(shí)現(xiàn)AGI,你再去探索先驗(yàn)非常低的情況下,越來(lái)越低的情況下實(shí)現(xiàn)SCI的方式。
這里等價(jià)對(duì)應(yīng)的是更強(qiáng)的先驗(yàn),你是在有限數(shù)據(jù)的情況下,同樣是一樣多的數(shù)據(jù),但是腦容量更大,學(xué)習(xí)效率更高,智能更高,有更好的先驗(yàn)就可以得到更強(qiáng)的agent。context是另外一個(gè)維度,你的Agent行為,需要它的工作記憶,所以你有更強(qiáng)的環(huán)境感知,做更長(zhǎng)程的任務(wù),最后是這兩個(gè)東西的結(jié)合。
我們?cè)谶@個(gè)基礎(chǔ)上,整個(gè)2025年kimi的迭代是沿著剛說(shuō)的兩個(gè)方向做了新的探索和實(shí)踐。首先是Muon優(yōu)化器,我們?cè)?jīng)做了非常多的實(shí)驗(yàn),發(fā)現(xiàn)有很多比較重要的技巧。
比如說(shuō)需要加入VDK,你在搜索的過(guò)程中,原來(lái)是Adam的優(yōu)化器,可能是接近1.0,如果用Muon的話,對(duì)照它的尺度其實(shí)效果會(huì)更好。通過(guò)這些比較重要的改進(jìn),我們得到了一個(gè)真正意義上比較好,而且在各種方面經(jīng)得起時(shí)間考驗(yàn)的優(yōu)化器,有2倍的Token efficienc提升。
所以,大家注意的是這里的efficienc不僅僅是efficienc,其實(shí)是智能上限,因?yàn)槟愕腡oken數(shù)量有限。我們也做了很多公平的比較,基本上所有的任務(wù)都會(huì)有提升,本質(zhì)上是等價(jià)相當(dāng)于訓(xùn)練了別人的兩倍Token。
在提升這個(gè)優(yōu)化器的過(guò)程中,能看到一些問(wèn)題,在一個(gè)中等規(guī)模的實(shí)驗(yàn)上,發(fā)現(xiàn)Muon的優(yōu)化過(guò)程里會(huì)出現(xiàn)一些挑戰(zhàn),左邊這張圖橫坐標(biāo)是訓(xùn)練的步數(shù),縱坐標(biāo)是最大的Logit取值,它是一個(gè)爆炸式的增長(zhǎng),其實(shí)是不健康的。
反映在右邊的非常高的時(shí)候,你的Logit訓(xùn)練就有可能不收斂,Loss會(huì)爆炸,出現(xiàn)一些不穩(wěn)定現(xiàn)象,其實(shí)這個(gè)模型最后的效果也不會(huì)好。
這里面很重要的一個(gè)點(diǎn)是通過(guò)一個(gè)新的方法解決Muon爆炸的問(wèn)題,我們也試了很多方法,QK-clip效果非常火,但是這里有一些細(xì)節(jié),你做QK映射的話,會(huì)乘上一個(gè)數(shù)值,這個(gè)數(shù)值是由當(dāng)前QK最大的Logit決定的,可以動(dòng)態(tài)的讓它c(diǎn)lip特定的取值里面。
效果就是這樣的,一個(gè)加Clip,一個(gè)沒(méi)有。
左邊這兩條線,但是這兩條線是完全重疊在一起的,你可能看不出來(lái),其實(shí)是完全重疊在一起。說(shuō)明你加了Clip之后,對(duì)效果是沒(méi)有任何影響,可以復(fù)現(xiàn)任何效果,但是logit會(huì)健康很多。
右邊開(kāi)始漲了,Logits漲到一百Q(mào)K就發(fā)揮作用了,發(fā)現(xiàn)可能我不需要這個(gè)東西,這個(gè)時(shí)候會(huì)自動(dòng)降下來(lái),所以其實(shí)是很好穩(wěn)定訓(xùn)練的作用,使得全新的優(yōu)化器可以在一萬(wàn)億參數(shù)的kimiK2的級(jí)別做穩(wěn)定訓(xùn)練,不然就像之前那樣炸了。
這張圖是2025年見(jiàn)過(guò)最漂亮的東西,這個(gè)是世界上最美的東西。
![]()
它是一個(gè)完全平穩(wěn)下降的Loss曲線,在整個(gè)15T的Token訓(xùn)練中沒(méi)有任何的問(wèn)題,可以全部把logits壓下來(lái),平穩(wěn)的收斂到一個(gè)非常好的點(diǎn)上。當(dāng)你有一個(gè)優(yōu)雅的方法,就可以得到一個(gè)優(yōu)雅的結(jié)果。
在kimiK2很好的模型上面,我們又做了很多強(qiáng)化學(xué)習(xí),后訓(xùn)練等等,但是這不是今天重點(diǎn),重要的是有幾個(gè)點(diǎn),我們?cè)诟鞣Nagent的能力上全面提升,而且可以對(duì)標(biāo)美國(guó)前沿的公司。
同時(shí),很重要的一個(gè)點(diǎn)是在最核心的點(diǎn)上,比如說(shuō)HLE,里面99%的題我都不知道怎么做,但是模型現(xiàn)在可以做到45%的準(zhǔn)確率,而且比OpenAI更高,你在最核心的數(shù)據(jù)上比美國(guó)公司更好,這是很重要的亮點(diǎn)。
同時(shí),它是一個(gè)完全agent的模型,kimiK2是中國(guó)第一個(gè)agent模型,K2 Thinking升級(jí)以后,可以完成兩百百步的工具調(diào)用,解決一個(gè)很難的題的時(shí)候用它寫(xiě)一寫(xiě)程序。兩三百步之后,可以完成我完全看不懂的題,但是它的答案是對(duì)的。
得益于這些發(fā)展,我覺(jué)得很多中國(guó)的開(kāi)源模型逐漸成為新的標(biāo)準(zhǔn),包括前段時(shí)間eda發(fā)布新的產(chǎn)品,現(xiàn)在也有中國(guó)很多開(kāi)源模型做標(biāo)準(zhǔn)的測(cè)試,這也是開(kāi)源很大的一個(gè)好處,我們希望有更多的中國(guó)的開(kāi)源力量,中國(guó)的模型能夠逐漸去成為標(biāo)準(zhǔn)的制定者。
在K2之后我們?cè)诔掷m(xù)探索下一代模型有可能長(zhǎng)什么樣,我剛剛講到開(kāi)源的kimiLinear的工作,這個(gè)工作也是我們前期的嘗試,接下來(lái)還會(huì)在這個(gè)基礎(chǔ)上做更多的優(yōu)化和改進(jìn)來(lái)訓(xùn)練K3模型。
最重要的一個(gè)改進(jìn)是kimi Delta Attention,它是一個(gè)新的線性注意力機(jī)制,這個(gè)技術(shù)有一段時(shí)間,但是一直沒(méi)有成為主流模型,或者說(shuō)最前沿的模型都還沒(méi)有用上這個(gè)技術(shù)。
最主要的原因是在長(zhǎng)距離任務(wù)上會(huì)掉點(diǎn),當(dāng)你的Context變長(zhǎng)之后,你用線性注意力效果是打不過(guò)全注意力的,打不過(guò)原始的Transformer。
這是很重要的問(wèn)題,因?yàn)楝F(xiàn)在很多任務(wù)需要長(zhǎng)程的能力,Context變長(zhǎng)之后,效果變差了,可能不太能去換。
kimi Linear最重要的一點(diǎn)是讓這種線性注意力的機(jī)制能夠在很長(zhǎng)程的任務(wù)上,甚至比全注意力做的更好,但是同時(shí)又更快,因?yàn)樗蔷€性的,所以它的效率會(huì)高非常多,一百萬(wàn)個(gè)Context的話,可能高6到10倍的端到端的速度上的優(yōu)勢(shì)。
同時(shí)又可以改進(jìn)很多現(xiàn)有的線性注意力缺點(diǎn),可能就是表達(dá)能力不夠,導(dǎo)致了效果不夠好,所以kimi Linear是第一個(gè)能夠在線性注意力上不管是在短程任務(wù),還是在長(zhǎng)輸入、長(zhǎng)輸出任務(wù)效果都比全注意力機(jī)制更好的一個(gè)線性注意力的架構(gòu)。所以,它在實(shí)踐里面會(huì)有非常重要的作用。
我們稍微看一下具體長(zhǎng)什么樣子,S表示當(dāng)前線性的數(shù)據(jù),可以看到它全部是線性的,ST相對(duì)ST減一來(lái)說(shuō)的操作,稱之為線性注意力。
這里面很重要的一個(gè)點(diǎn)是中間的對(duì)角化矩陣,F(xiàn)T每一個(gè)維度都會(huì)乘上一個(gè)值,等于說(shuō)對(duì)于這個(gè)狀態(tài)里面的每一個(gè)維度都可以精準(zhǔn)的控制到底有多少記憶是從ST減1留到ST。
這個(gè)是很重要的點(diǎn),它的表達(dá)能力會(huì)有很大增強(qiáng),增強(qiáng)的同時(shí)如果你是一個(gè)非常粗糙或者沒(méi)有優(yōu)化過(guò)的數(shù)據(jù),你的效率會(huì)大幅度降低,在這里面我們做了非常多的優(yōu)化,你可以把剛才的那個(gè)數(shù)值做很多變化之后得到下面的形式。
它在工程實(shí)現(xiàn)上就可以得到很多好處,你去對(duì)比DPLR,我們?cè)跀?shù)據(jù)上有優(yōu)勢(shì),減少矩陣操作,所以整體的效率是非常高的,你要得到一個(gè)好的架構(gòu),需要把很多底層的優(yōu)化和模型的架構(gòu)聯(lián)合在一起,你不能只改動(dòng)一些架構(gòu),如果沒(méi)有高效的實(shí)現(xiàn),很難得到一個(gè)很好的效果。
但是同時(shí)相比之前的線性注意力架構(gòu)又有一個(gè)顯著的優(yōu)勢(shì),表達(dá)能力更強(qiáng)。
這張圖里面的效果看一下,左邊是性能對(duì)比,我們會(huì)考察兩種任務(wù),一種是短程的任務(wù),MMLU,這些都是公平的比較,用完全一樣的數(shù)據(jù),一樣大小的模型去跑。在短程上會(huì)顯著做的更好,在長(zhǎng)程任務(wù)上是更好的效果,相比于之前的很多線性注意力和全注意力的架構(gòu)。
同時(shí),右邊的這張圖的速度也是顯著的變快,基本上跟之前的線性的注意力一樣快,但是比全注意力要快非常多。
接下來(lái)在K2的基礎(chǔ)上做更多的Scaling,當(dāng)然這個(gè)Scaling并不只是加算力。而是說(shuō)很多是技術(shù)改進(jìn),這些技術(shù)改進(jìn)也會(huì)等效的變成Scaling的優(yōu)勢(shì)。當(dāng)然這里面很重要的一個(gè)點(diǎn)是除了架構(gòu)、優(yōu)化器這樣的挑戰(zhàn),更好的數(shù)據(jù)。
很重要的點(diǎn)是接下來(lái)的模型有更多的Taste,更多的品位和審美。
做模型的過(guò)程本質(zhì)上是在創(chuàng)造一種世界觀,你覺(jué)得什么樣的東西是好的,一個(gè)好的AI應(yīng)該是有什么樣的表現(xiàn),應(yīng)該追求什么樣的價(jià)值觀,有點(diǎn)像喬布斯講的Taste這是我們很相信的一個(gè)東西,因?yàn)橹悄芎秃芏鄤e的東西不一樣,每個(gè)模型產(chǎn)生的Token,本身不是一個(gè)可交換的東西。
如果你今天看很多事情是相同的,你在深圳產(chǎn)生的一度電和北京一樣,銀行帳戶里面最后一分錢(qián)是完全一樣,它是等價(jià)交換。但是智能并不是這樣,一個(gè)CEO產(chǎn)生的智能和一個(gè)設(shè)計(jì)師產(chǎn)生的智能和一個(gè)音樂(lè)家產(chǎn)生的智能是不同的。
在智能的維度,你有非常多的Taste的空間,空間是指數(shù)增加,你會(huì)有更多新的Taste出來(lái),不是說(shuō)這個(gè)模型會(huì)趨同,這是接下來(lái)我們很重要的一個(gè)目標(biāo)。
我也經(jīng)常和kimi對(duì)話,分享之前很有趣的一次對(duì)話,現(xiàn)在我們都在做AGI/ASI,可能會(huì)有更美好的未來(lái),可以一起去探索宇宙,但是有可能會(huì)威脅到人類(lèi)。
如果你的效果做的非常好,它現(xiàn)在也可以完成很多自動(dòng)化的任務(wù),甚至后面還會(huì)有大幅度的提升, 這個(gè)答案很有啟發(fā)性。
它可能不是一個(gè)普通工具,而是可以提升人類(lèi)文明上限的東西。
人類(lèi)認(rèn)知的延伸,今天我們有很多問(wèn)題解決不了,很多癌癥無(wú)法被攻克,有很多能源的問(wèn)題需要被解決,甚至有很多社會(huì)的解決需要更好的設(shè)計(jì)。我覺(jué)得站在kimi講,它是我們探索未知世界的一個(gè)很重要的鑰匙。
所以,雖然它有風(fēng)險(xiǎn),但是它的回答是我仍然會(huì)選擇繼續(xù)開(kāi)發(fā),因?yàn)榉艞夁@個(gè)開(kāi)發(fā)就意味著放棄人類(lèi)文明上限。所以,我們不應(yīng)該害怕技術(shù)的風(fēng)險(xiǎn),而是應(yīng)該進(jìn)一步去突破。同時(shí),在這個(gè)過(guò)程中我們可能把風(fēng)險(xiǎn)控制好,因?yàn)樗械募夹g(shù)突破都伴隨著風(fēng)險(xiǎn),不能因?yàn)榭謶侄磺啊?/p>
我們希望在接下來(lái)的十年、二十年的時(shí)間,繼續(xù)把K4、K5到K100做的更好。
林俊旸
唐老師和植麟都是清華,我代表北大來(lái)一下。我很久沒(méi)有回海淀區(qū)了,我是朝陽(yáng)區(qū)的。
![]()
今天整體介紹一下千問(wèn)2025年的進(jìn)展,有些東西相對(duì)舊一些,最近幾個(gè)月我們?cè)诒镏乱淮臇|西,我盡量講一些我能講的東西。
Towards a Generalist Agent這個(gè)標(biāo)題我其實(shí)換了很多輪,原來(lái)叫Towards a Generalist model,后來(lái)覺(jué)得model是比什么都大的東西。
后來(lái)想想agent也許是更大的概念,像人一樣你可以自主的使用工具,人和動(dòng)物很大的差別是可以自主使用工具。所以就變成了Towards a Generalist Agent。
而且今天訓(xùn)練的范式發(fā)生了很大變化,過(guò)往我們不管做什么事情,都會(huì)有輸入和輸出把它標(biāo)注出來(lái),你可以認(rèn)為是我們傳統(tǒng)的標(biāo)注,今天有了這個(gè)新的技術(shù)以后,我只要解決了這個(gè)推理,解決了這個(gè)評(píng)估,這個(gè)東西就可以炫,干什么都可以,我就可以發(fā)揮想象力。
比如說(shuō)今天數(shù)據(jù)智能、模型智能都可能,這也是我一個(gè)干語(yǔ)言模型的人最近敢斗膽揚(yáng)言我要做VLA和機(jī)器人的一個(gè)小小的原因。
大家如果想用上我們的模型的話,最容易體驗(yàn)到我們開(kāi)源模型和閉源模型,我覺(jué)得很有意思,之前我們一直做開(kāi)源,大家比較清楚,不贅述和吹牛了。
但是網(wǎng)友們一直在罵我們,你們那個(gè)東西很難用,每次都得去你們的模型上面找,我們就把OpenWEB AI拖下來(lái)之后就把它變成了一個(gè)聚合器,看起來(lái)就像是ChatGPT一樣,本來(lái)算法的同學(xué)產(chǎn)品意識(shí)并沒(méi)有那么強(qiáng),做著做著就有這種感覺(jué)了,模型即產(chǎn)品,就有很好玩的東西出來(lái),所以我們都會(huì)放到這上面。
一般我們會(huì)在qwen.ai里面就可以很好的搜到,發(fā)博客對(duì)于我們來(lái)說(shuō)比較簡(jiǎn)單,最近我們火的新的模型架構(gòu)Qwen Next,很多同學(xué)沒(méi)有辦法引用,原諒一下我們。
們做開(kāi)源做的比較久,2023年8月3日開(kāi)始做開(kāi)源,很多人問(wèn)我們?yōu)槭裁醋鲩_(kāi)源這一件事情?
很多事情都有機(jī)緣巧合的成分在這里,反正開(kāi)源一路做下來(lái)之后做了很多,至少還是比較工業(yè)的事情。
東西不多,基本是一些腳本大家在上面看就可以。我們的模型是比較多的,為什么相對(duì)比較多?以前有很多人不理解我們?yōu)槭裁醋鲂∧P停墙裉齑蠹叶济靼仔∧P瓦€是挺有價(jià)值。
小模型最終起源于我們內(nèi)部用來(lái)做實(shí)驗(yàn)的1.8B模型,我們做預(yù)訓(xùn)練,資源畢竟有限,你做實(shí)驗(yàn)的話不能通通用7B的實(shí)驗(yàn)來(lái)驗(yàn),就拿1.8B的來(lái)驗(yàn)。當(dāng)時(shí)我的師弟跟我說(shuō)我們要把這個(gè)模型開(kāi)源出去,我非常不理解。
我說(shuō)這個(gè)模型在2023年幾乎是一個(gè)不可用的狀態(tài),為什么要開(kāi)源出去?
他跟我說(shuō):7B很消耗機(jī)器資源,很多碩士生和博士生沒(méi)有機(jī)器資源做實(shí)驗(yàn),如果1.8B開(kāi)源出去的話,很多同學(xué)就有機(jī)會(huì)畢業(yè)了,這是很好的初心。
干著干著手機(jī)廠商跑來(lái)跟我們說(shuō)7B太大,1.8B太小,能不能給我們干一個(gè)3到4B的,這個(gè)容易,沒(méi)有什么很難的事情。
一路干下來(lái)型號(hào)類(lèi)型越來(lái)越多,跟服務(wù)大家多多少少有一點(diǎn)關(guān)系。
但是我們自己的內(nèi)心追求的不僅僅是服務(wù)開(kāi)發(fā)者或者服務(wù)科研人員,我們看一看能不能做一個(gè)Multimoda Foundatine Agent,我特別相信這件事情。
如果追溯到更遠(yuǎn)的話,剛才唐老師說(shuō)我們當(dāng)年還在合作的時(shí)候,當(dāng)時(shí)就在大干多模態(tài),現(xiàn)在想想這是一個(gè)激情歲月。
2023年的時(shí)候大模型是一個(gè)大家都不要東西,多少少有那么幾分大煉鋼鐵的成分,多模態(tài)是我們延續(xù)下來(lái)一直想做的事情。
如果你想做一個(gè)智能的東西,天然的應(yīng)該是Multimoda,當(dāng)然帶有不同看法,各個(gè)學(xué)者都有一些看法,多模態(tài)能不能驅(qū)動(dòng)智力的問(wèn)題。
人有眼睛和耳朵可以做更多的事情,我更多的考慮是Foundatien有更多的生產(chǎn)力,能不能更好的幫助人類(lèi),毫無(wú)疑問(wèn)我們應(yīng)該做視覺(jué),我們應(yīng)該做語(yǔ)音。
理想的情況下,當(dāng)年我記得我們2022年的時(shí)候,當(dāng)時(shí)設(shè)計(jì)的一個(gè)系統(tǒng)是中間有一個(gè)大腦,我們不知道那個(gè)大腦是什么東西,但是我們知道不同的模態(tài)和任務(wù)都應(yīng)該進(jìn)入到這個(gè)大腦,從這個(gè)大腦輸出去,這個(gè)才是真正的想象當(dāng)中的AGI。
今天看起來(lái)很有可能,因?yàn)槲也恢来蠹易龅难芯糠较蛴袥](méi)有做統(tǒng)一理解生成這件事情,這件事情還挺復(fù)雜的。
目前谷歌也沒(méi)有做到統(tǒng)一理解互相生成,但是我還挺相信這些事情。如果看GPT的話,今天把很多東西統(tǒng)一了之后,看起來(lái)更加完美一些,當(dāng)年還在爭(zhēng)論他們到底是哪個(gè)好。
今年最大的進(jìn)展是Qwen3,這個(gè)是吉祥物,有點(diǎn)像熊,但它是一只卡皮巴拉。做的時(shí)候我覺(jué)得我們同學(xué)太辛苦了,不想他們太辛苦,今天這么卷的時(shí)代佛系一點(diǎn)不是說(shuō)不行。我們做的方向相對(duì)比較多一些。
但是你可以看到每一個(gè)方向都有它自洽的邏輯在這里面。
比如說(shuō)我們做Text和VL、Omni,做的時(shí)間比較長(zhǎng),做視覺(jué)、文本、語(yǔ)音生成,我們做的過(guò)程當(dāng)中,可能因?yàn)槲覀儽容^特殊的地方是我們背后是阿里云支持,我們有很多業(yè)務(wù)和阿里云的客戶比較相關(guān)。云的業(yè)務(wù)很多客戶是非常多樣的,包括Embed Guard都會(huì)給大家提供服務(wù)。
今天圍繞相對(duì)比較主線的Text、VL,包括Omni會(huì)給大家做介紹,Coder會(huì)放在Text和大家做相應(yīng)的介紹。Text今年主要是Qwen3系列,現(xiàn)在已經(jīng)做到3.5,3做的時(shí)間比較長(zhǎng)一些。
一個(gè)最大的特點(diǎn)是總體能力提升
今年比較有意思的是reasoning的能力要提升,我補(bǔ)充介紹一下我個(gè)人的理解,reasoning和現(xiàn)在的單純的tasks模型有一點(diǎn)不太一樣。
第二個(gè)是我們支持的語(yǔ)言及方言,語(yǔ)言沒(méi)有那么多,加上方言一共有119種。
為什么會(huì)做多語(yǔ)言這件事情呢?其實(shí)也有些機(jī)緣巧合的事情,2023年的時(shí)候,當(dāng)時(shí)我們覺(jué)得只要把中文和英文做好就可以服務(wù)好我們需要的人群,但是有一回我遇到韓國(guó)朋友,他們?cè)谧瞿P偷臅r(shí)候,為什么不用我們的模型做呢?
他說(shuō)你們的模型根本就不懂任何的含義,我感到非常的受傷,我就去看了一下,后來(lái)發(fā)現(xiàn)這個(gè)事情很簡(jiǎn)單,順手就把它做了。
后來(lái)發(fā)現(xiàn)我們?nèi)虻挠脩粼絹?lái)越多,我記得一些巴基斯坦的朋友不斷的跟我說(shuō)你快點(diǎn)支持烏爾都語(yǔ),我們真的沒(méi)有大模型可以用了,這個(gè)事情我覺(jué)得確實(shí)挺好,于是我們支持了更多的語(yǔ)言。我們現(xiàn)在還沒(méi)有做完,非洲的數(shù)據(jù)確實(shí)有點(diǎn)難以收集,非洲的語(yǔ)言沒(méi)有覆蓋。
今天我跟一些手機(jī)廠商聊了一下,非洲還有很多人使用功能機(jī),我們今天已經(jīng)到進(jìn)入智能機(jī)的時(shí)代,他們還在做這個(gè)事情,所以要幫助全人類(lèi)的話,確實(shí)是任重道遠(yuǎn),如果你的想法不是幫助全人類(lèi)的話,我覺(jué)得不如不做,所以就繼續(xù)干。
第三個(gè)是今天的長(zhǎng)文本、長(zhǎng)視頻可能都是其中一個(gè)例子。
但是我覺(jué)得這件事情很有意思,如果你真的想形成一個(gè)具有自我認(rèn)知的模型,首先上下文得足夠長(zhǎng),之前還有人討論一個(gè)問(wèn)題,你沒(méi)有必要把很多垃圾放到長(zhǎng)上下文里面,但是有了這個(gè)以后才能做到下面的理解。
所以我們現(xiàn)在一路做到1M以上,實(shí)際上我們內(nèi)部已經(jīng)做到好幾個(gè)M,可能還不夠。今天為什么還想說(shuō)這是非常非常長(zhǎng)的這種事情。回到剛才的問(wèn)題,我們這一代模型可能和2024年相比,很大的一個(gè)區(qū)別是reasoning的能力要提升,廣義的reasoning是做問(wèn)題推理,讓問(wèn)題得到更好的解決。
雖然不得不做相關(guān)的研究,怎么讓reasoning更加nativel一些,Qwen3的時(shí)候,我們4月份發(fā)的版本,當(dāng)時(shí)有些做的不太好,數(shù)據(jù)方面沒(méi)有做的太好,合并起來(lái)有一些問(wèn)題。
有超過(guò)90%的客戶不再使用Thinking模型,大量使用我們QWQ系列的很重要的原因是他們的用戶喜歡看機(jī)器和自己進(jìn)行聊天。但是很快大家就回到Instruct,這里主要看一下黃色和藍(lán)色的部分,藍(lán)色是4月份版本,紅色是7月份版本。
除了把數(shù)據(jù)做的更好以外,一件很重要的事情是AIME可以干到70分,你做Thinking可以做到90分,但是這個(gè)能力加進(jìn)去之后,客戶很明顯的反饋是模型比以前聰明了很多,只有20多分,基本上什么題可能都做不了,比如說(shuō)在教育領(lǐng)域做一點(diǎn)數(shù)學(xué)題可能都干不明白,這是我們挺驕傲的模型,這個(gè)模型也不是很大,很多人在用我們系列的模型。
但是還有一個(gè)遺憾,這個(gè)模型還有很多東西沒(méi)有做完,這里是一個(gè)取舍的問(wèn)題。
比如說(shuō)Coding和Agent能力怎么把它集成進(jìn)去,做起來(lái)很難。考慮到自己的技術(shù)實(shí)力和狀況,包括自己一直做Cod系列,我們推出了這個(gè)模型。
今天的Cod和過(guò)往的不太一樣。比如說(shuō)去年和前年都在解單純的競(jìng)賽題,給一道題看一看能不能把答案做出來(lái)。
今天我們做什么事情呢?Software Engineer,2024年的時(shí)候大家非常驚訝,第一個(gè)AI能不能像一個(gè)程序員,今天我就維護(hù)一個(gè)這件事情挺難的,你把它做了就好了。實(shí)際做的過(guò)程中,這個(gè)事情人做起來(lái)步驟挺復(fù)雜,最簡(jiǎn)單的是至少我可以打開(kāi)這些文件夾,看了這些文件夾的名字知道我可以點(diǎn)開(kāi)哪一個(gè),其實(shí)是多輪交互的過(guò)程。
今天做Agent一個(gè)很重要的但,為什么大家提多輪環(huán)境交互,說(shuō)白了打開(kāi)文件夾看一言,這個(gè)其實(shí)也是一個(gè)跟環(huán)境交付的方式,這件事情很重要,并且非常有意思,讓我們非常激動(dòng),真的能產(chǎn)生產(chǎn)力。我們想做今天的Coding的模型可以有生產(chǎn)力,很多代碼可以寫(xiě)出來(lái),這是很驚訝的。
當(dāng)然這個(gè)中美是不一樣的,剛剛從灣區(qū)回來(lái),我感受到兩邊不太一樣。這個(gè)是非常夸張的,但是今天是不是模型做的不夠好,還是說(shuō)WEBCoding還沒(méi)有做的更好,我覺(jué)得是大家認(rèn)知上面有差異,我們想做的事情是殊途同歸,都是想讓它產(chǎn)生生產(chǎn)力。
當(dāng)時(shí)我們就特別關(guān)注兩個(gè)生辰里,一個(gè)是SWE-bench,你能不能提一個(gè)PR把它解掉,70算是比較高的門(mén)檻,當(dāng)然現(xiàn)在可以感到75以上,這是7月份的時(shí)候,當(dāng)時(shí)我們做到67和69分覺(jué)得可以。
Terminal-Bench也挺難,今天大家都在用這系列的產(chǎn)品,大家會(huì)發(fā)現(xiàn)這個(gè)東西確實(shí)會(huì)和你的生產(chǎn)力接在一起以前不一樣,今天我們做的是貼近實(shí)際的任務(wù)。也許今天我們只是一兩個(gè)Bench而,有沒(méi)有可能讓它更加服真實(shí)的環(huán)境和真實(shí)的生產(chǎn)任務(wù)是我們想做的事情。
當(dāng)時(shí)剛出的時(shí)候挺火的,但是現(xiàn)在競(jìng)爭(zhēng)太過(guò)激烈,Token coder量一直干到第二名,小小吹噓一下。
最有意思的是這一套東西,以前從來(lái)沒(méi)有做過(guò),今天模型訓(xùn)練我有一個(gè)Scaling,就是今天AgentScaffods的東西,所謂的腳手架你再簡(jiǎn)單理解一點(diǎn)就是這個(gè)東西。它就能夠在機(jī)器里面跟阿里云的ECS的這些機(jī)器在這里面一個(gè)個(gè)起一個(gè)不僅是算法的挑戰(zhàn),在里面干完活就把它消除掉。
真真實(shí)實(shí)的存在,Instruct挑戰(zhàn)也很多,右上角的東西我自己可以感,左上角就得需要拉其他的伙伴一起,算法Instruct今天聯(lián)合的事情是真真實(shí)實(shí)的存在的,今天我們要做這么難的任務(wù),需要很多Instruct的支持。
這個(gè)是當(dāng)時(shí)做Coding的事情,我們更想做的是把Coding的能力是否可以集成在我們很大的模型上,比較抱歉的一件事情是最大的這個(gè)模型,大于1T的模型,我確實(shí)沒(méi)有推動(dòng)將其開(kāi)源出來(lái),雖然我也很想開(kāi)源。
但是就是這么回事,我們終于把這些能力集成進(jìn)來(lái),大家可以看到我們的SWE-bench可以做到70分,之前你沒(méi)有很好的把它集成進(jìn)來(lái),其實(shí)很難做到一個(gè)比較高的分?jǐn)?shù)。這也說(shuō)明一個(gè)問(wèn)題,做到很強(qiáng)的時(shí)候,你也可以集結(jié)一個(gè)很強(qiáng)的模型,需要進(jìn)行相應(yīng)的積累。
Qwen3-Max也是排在前五,Overall。當(dāng)然,它體現(xiàn)的是人類(lèi)的偏好,未來(lái)評(píng)測(cè)會(huì)不會(huì)是動(dòng)態(tài)的?讓它放到人類(lèi)的生產(chǎn)環(huán)境里面,比如說(shuō)就讓它炒股票。最后有一個(gè)公司做炒股這件事情,雖然有很多隨機(jī)性,但是開(kāi)了一個(gè)好頭,讓大家在人類(lèi)的真實(shí)世界中看AI做的好還是不好。
做語(yǔ)言模型其實(shí)還要想一個(gè)問(wèn)題,它能不能有眼睛看到這個(gè)世界,舉個(gè)例子。我們剛才提到想做Coding Agent提升生產(chǎn)力,我總得讓它操控電腦,看電腦屏幕,沒(méi)有眼睛就看不到,所以我們毫不猶豫的去做,這是巨大的差異,Visual Understanding就去做可以了。
但是今天很多的模型比人看東西看的更明白,比如說(shuō)我又近視又散光,基本上不太好使,看不明白。但是上下左右我總歸分的很清楚,但是AI很有意思,很細(xì)節(jié)的東西它看很清楚。比如說(shuō)問(wèn)前后左右這個(gè)問(wèn)題,居然分布出來(lái)。
我們很長(zhǎng)時(shí)間評(píng)估一個(gè)案例,叫活體的方向,當(dāng)時(shí)我還問(wèn)我們的評(píng)測(cè)人員什么是活體,分不清楚東西在左邊還是右邊,我覺(jué)得蠻奇怪的,但是這是我們要解的問(wèn)題。
但是不僅僅如此,我們還要做一件事情是讓它的intelligence不要降低,我們沒(méi)有期待它真的能夠大幅度提高智商,但是至少不要變笨,因?yàn)楹芏鄷r(shí)候做VL模型是變笨的,我們這一次終于讓它不再變笨,大概和我們的235B的語(yǔ)言模型達(dá)到一個(gè)持平的狀態(tài)。
這里講一下我們這次主要的提升,簡(jiǎn)略的說(shuō)一下。
第一個(gè)我們大家都在做一件事情,讓它操作手機(jī)、操控電腦的能力進(jìn)一步提升。
第二個(gè)是它的語(yǔ)言的治理,VL模型能不能當(dāng)LRM來(lái)用,這樣才可以追上原生多模態(tài)的模型,至少做到技術(shù)上讓語(yǔ)言的智力能夠達(dá)到持平狀態(tài)。
第三個(gè)是Coding,這件事情很重要,但是Coding的輸入也可以是圖像或者是視頻。
比如說(shuō)今天我想做一個(gè)APP,想做一個(gè)網(wǎng)頁(yè),我可以畫(huà)出來(lái)。不一定我用文字寫(xiě),因?yàn)檫@個(gè)很考驗(yàn)人類(lèi)的表達(dá)能力。很多時(shí)候大家表達(dá)的不一定很清楚,你可以畫(huà)一個(gè)圖。還有對(duì)視頻的理解,也許是VL下一代的機(jī)會(huì)。
視頻是更廣義的表達(dá),圖片可以理解為是單幀的視頻,理解很長(zhǎng)的視頻是很有意思的一個(gè)事情。
我一直在想如果我們有了智能眼鏡,每天接收更多東西的時(shí)候,能不能構(gòu)建我們的矩陣,這個(gè)眼鏡是第一人稱視角的東西,一般來(lái)說(shuō)我們?cè)诰W(wǎng)上搜羅的視頻是第三人稱視角,對(duì)第一人稱視角理解很少,我們一般談?wù)摰氖撬鼘?duì)這個(gè)物理世界能不能構(gòu)建一些好的理解。
我們做的時(shí)候,就發(fā)現(xiàn)真的需要知道他是不是能理解這個(gè)空間的東西,這個(gè)東西激勵(lì)我們做一件事情,我們能不能去做VLA,可能得把這些數(shù)據(jù)都集合進(jìn)來(lái),有沒(méi)有可能接入硬件做VLA的模型,能不能讓它獲得一些泛化。
另外是基礎(chǔ)能力的提升,比如說(shuō)今天大家在使用OCR的時(shí)候,有很多東西的用力,都在檢測(cè)一些很褶皺的東西。但是我們的的圖像很多時(shí)候檢測(cè)不到,紙張非常的褶皺,能不能讓它看的懂都是我們自己要解的問(wèn)題。
另外是印章,字體非常特別,非常的小,圖片分辨率低,能不能識(shí)別出來(lái)是很特別的事情。Multimmod模型能不能做Reasoning,能不能對(duì)圖片進(jìn)行理解。比如說(shuō)今天我們看到一個(gè)數(shù)學(xué)問(wèn)題做分析,不斷的一步一步去推,和圖片結(jié)合起來(lái)看能不能看到圖片上更小的點(diǎn)。
舉個(gè)更小的例子,一張照片有50個(gè)人它能不能數(shù)的出來(lái)呢?數(shù)不出來(lái),但是配上Reasoning我就可以一點(diǎn)點(diǎn)的去看,一點(diǎn)點(diǎn)的去打這個(gè)點(diǎn),有可能我能把這個(gè)數(shù)字給數(shù)出來(lái)。今天結(jié)合具體的應(yīng)用,能做的空間其實(shí)非常多。
我們現(xiàn)在基本上可以達(dá)到2.5pro的水平,但是讓我開(kāi)心的是語(yǔ)言的智力沒(méi)有那么降智了,也算是第一次解決了這個(gè)問(wèn)題。
更進(jìn)一步我們想做什么呢?除了理解圖像和視頻以外,有沒(méi)有可能同時(shí)生成圖像和視頻?我們甚至有一個(gè)更大的想象,如果我們今天在思考有沒(méi)有可能把我們的基礎(chǔ)模型實(shí)現(xiàn)想象這些事情。
我腦海里有一些畫(huà)面,這個(gè)想象對(duì)我來(lái)說(shuō)是有意義的,這些事情都可以通過(guò)圖像生成和視頻生成進(jìn)行相應(yīng)的實(shí)現(xiàn),這個(gè)也會(huì)和今年的視界模型聯(lián)系在一起。
今年我們剛開(kāi)始做生成的事情,花了幾個(gè)月時(shí)間做了Qwen-lmage系列,12月份剛剛更新了一個(gè)。
這是我們內(nèi)部人員進(jìn)行盲測(cè),排名還是可以,基本上比最好的開(kāi)源模型和閉源模型,比相交還是稍微差一點(diǎn)點(diǎn)。但是我看到一些實(shí)際的圖的時(shí)候,我其實(shí)比較興奮。
比如說(shuō)和其他模型比較沒(méi)有什么感覺(jué),但是可以看一下8月份和12月份的版本,8月份生成的圖AI感還是非常重的,但是12月份生成了已經(jīng)接近離譜了,雖然沒(méi)有那么美和好看,但是已經(jīng)接近真人了。
其實(shí)還有一張我們博客里面宿舍女生拍照,真的很像宿舍女生剛睡醒拍照,放在這里不是很好,我放了更好看一點(diǎn)的。還有更自然的東西,比如說(shuō)燈塔,水花特別夸張,但是右面的水可以達(dá)到非常自然的狀態(tài)。
另外一個(gè)是生成圖像文字要很準(zhǔn)確,能夠把文字生成到圖片上面來(lái)。分鏡不是拼出來(lái)的,其實(shí)是12張圖合起來(lái)的一張圖,包括文字都是一次性生成出來(lái),今天模型有一些威力超出了我們的現(xiàn)象,有時(shí)候我們自己訓(xùn)練模型都沒(méi)有想到會(huì)變的這么強(qiáng)。
但是除了生成以外的話,我們還要做更重要的事情。我們做了生成之后,用戶告訴我們才知道編輯是更大的需求,因?yàn)榇蠹叶夹枰狿圖,讓自己變的更好看。
Image-edit版本也有,接下來(lái)會(huì)把edit生成合在一起,我自己每天用這個(gè)東西,最近出去旅游的時(shí)候,我想拍出美國(guó)往事的感覺(jué),下面有很多人,我就把很多人P掉,調(diào)整一下風(fēng)格,就可以把這個(gè)東西做出來(lái),這是每天干的事情。
我想給大家分享一個(gè)更有意思的案例,也是今天大家會(huì)問(wèn)我,開(kāi)源社區(qū)究竟怎么幫助我們研發(fā)這個(gè)模型,如果不是開(kāi)源社區(qū)告訴我們,這輩子都想不到有這個(gè)問(wèn)題。
有一張圖片我們想對(duì)它進(jìn)行編輯,讓它放下圖像中右邊的人,你會(huì)發(fā)現(xiàn)它放下來(lái)之后,兩張圖重疊在一起的時(shí)候你會(huì)發(fā)現(xiàn)糊了,它有點(diǎn)移動(dòng)了,不在原位,偏移了。
對(duì)于很多搞PS的同學(xué)來(lái)說(shuō),這個(gè)東西要非常精確,你不能隨便移動(dòng),所以2511這個(gè)版本很重點(diǎn)的是在解這個(gè)問(wèn)題。在2511這個(gè)版本,我把兩張合在一起的時(shí)候,基本上人在原來(lái)的位置上,我覺(jué)得是開(kāi)發(fā)者給我們很好的用力,原來(lái)可以做出真的可以幫助到他們東西。
編輯可以做很多事情,比如說(shuō)我調(diào)整光線讓它變成更柔和的光鮮。我們的用戶和產(chǎn)品跟我們說(shuō)這個(gè)光射合理不合理是很重要的,我們做算法的同學(xué)很多時(shí)候感受,但是有些時(shí)候大家對(duì)圖的要求比想象的更高。
所以,大家談世界模型的時(shí)候,是不是真的能構(gòu)建出符合物理規(guī)律或者真實(shí)世界的東西其實(shí)還是很重要的東西。
還有一些例子,比如若平移一些鏡頭,旋轉(zhuǎn)30度這些都是很常見(jiàn)東西,今天這個(gè)模型甚至可以和推理結(jié)合在一起,我們一直有一件事情非常想做,教小朋友家長(zhǎng)們很痛苦,很多時(shí)候AI去教有一些題教不了,畫(huà)輔助線的東西是教不了的,真的需要生成模型才能做,我真的能夠把一道數(shù)學(xué)題做好,比如說(shuō)畫(huà)輔助線這件事情我可能要通過(guò)生成推動(dòng)更好的理解。
接下來(lái)是更進(jìn)一步的,如果今天看的圖像的問(wèn)題解的差不多了,甚至自己可以把東西生成出來(lái),有沒(méi)有讓它像人一樣聽(tīng)和說(shuō)呢?因?yàn)檎Z(yǔ)音交互也是很重要的事情。今天大家在使用各類(lèi)的APP的時(shí)候,大家發(fā)現(xiàn)有語(yǔ)音交互真的是很方便的一件事情。
Omni也是很大的智能,并且我愿意相信一些事情,今天對(duì)事件的環(huán)境音理解,人講的話不是單純的使用ASR就可以解決的。
所以我們就做一個(gè)Talker的東西,這個(gè)模型做了很久,讓它既能聽(tīng)又能說(shuō),能夠保證它的效果是穩(wěn)定的。Omni是沿著這個(gè)方向持續(xù)做的,大概的進(jìn)展稍微有一點(diǎn)降智,但是降智的已經(jīng)不多。
我們這個(gè)模型可以達(dá)到2.5文本的水平,對(duì)于語(yǔ)音基本可以對(duì)標(biāo)2.5por的水平,這里面有挺多好玩的東西,時(shí)間關(guān)系沒(méi)有辦法和大家分享。
今天TDS可以換各種聲音,包括自己定制你自己的聲音,只要描述這個(gè)聲音長(zhǎng)的什么樣子,就可以讓AI以這個(gè)形式把東西講出來(lái),我覺(jué)得還有很好玩的事情,基礎(chǔ)模型和基礎(chǔ)Agent是不是真的可以跟人類(lèi)的真實(shí)世界,也包括虛擬世界進(jìn)行更好的交互。
下一步要做什么樣的事情呢?我們做了這么多,當(dāng)然希望集合在一起,全模態(tài)模型是要做的
有一個(gè)很重要的,我覺(jué)得也是殊途同歸的事情,跟kimi文化做類(lèi)似的事情。我們同時(shí)做各種各樣的實(shí)驗(yàn)的時(shí)候,最后選擇了用Linear Context,當(dāng)然也是以三層Linear配合它的。
下一代的模型也會(huì)沿著新的架構(gòu)進(jìn)行相應(yīng)的實(shí)現(xiàn),其實(shí)我們這里想做的事情是新一代的架構(gòu)能不能解決我們剛才到的問(wèn)題,能夠省下很多步驟。也許還會(huì)有更多的威力在里面。下一代的模型,其實(shí)也會(huì)沿著新的架構(gòu)進(jìn)行相應(yīng)的實(shí)現(xiàn)。
更進(jìn)一步我們要做什么東西呢?Omni的模型不僅僅是我能夠理解文本、視覺(jué)、音頻,我們可能還讓它生成文本、音頻,今天我們已經(jīng)做到了,但是我們還沒(méi)有做到把視覺(jué)生成結(jié)合在一起。如果做到三進(jìn)三出,我覺(jué)得會(huì)是至少我個(gè)人喜歡的東西。
第二個(gè)是今天的范式發(fā)生了一個(gè)很大的變化,今天不是像以前那樣訓(xùn)模型,有標(biāo)注的數(shù)據(jù),有一條輸入和輸出訓(xùn)練就可以,我們今天要把更多的數(shù)據(jù)放到實(shí)驗(yàn)中去訓(xùn)練
如果大家關(guān)注XAI的宣傳,RL的數(shù)據(jù)我雖然覺(jué)得他們有點(diǎn)浪費(fèi),但是另一方面也意味著RL有很多的想象空間。當(dāng)然并不是說(shuō)自己跟自己對(duì)話,我其實(shí)沒(méi)有那么關(guān)心我們的模型能不能做成為最強(qiáng)的數(shù)學(xué)大腦,我更關(guān)心的是像日常真實(shí)的人,為這個(gè)社會(huì)做貢獻(xiàn)。如果它能夠做到這一點(diǎn),我覺(jué)得還挺好。
所以Multi-turn RL with environment feedback towards long-horizon reasoning,因?yàn)楹芏鄷r(shí)候做很多事情需要很長(zhǎng)的時(shí)間,你得一步步去做。
但是AI可以加速很多,比如說(shuō)人類(lèi)花兩個(gè)月的時(shí)間做的東西,AI可以花兩天的時(shí)間。雖然有很多Token在里面,但是兩天確實(shí)能夠節(jié)省我們很多的時(shí)間在這里面。
Agent其實(shí)可以走向虛擬世界和物理世界,所以有了Embodied Reasoning的這種方式。我們內(nèi)部討論了一個(gè)方式,就算你是做VLA,做Coding的模型,說(shuō)白了也是把語(yǔ)言轉(zhuǎn)化成Embodied的模型,從這個(gè)角度上來(lái)看就非常的振奮人心。
于是我們就覺(jué)得大干一長(zhǎng),看一看能不能走向Digital Agent,GUI操作,同時(shí)能夠使用API,這個(gè)就是非常完美的Digital Agent。如果走向物理世界,是不是能夠把話筒拿起來(lái),能夠斟茶倒水。
圓桌對(duì)談
本次峰會(huì)最精彩的,當(dāng)屬圓桌環(huán)節(jié)。
開(kāi)場(chǎng)就很drama,本應(yīng)有四位嘉賓,臺(tái)上卻只有三位。
![]()
正在疑惑,姚順雨突然大臉跳屏
- 我現(xiàn)在是不是一張大臉在屏幕上?
![]()
全場(chǎng)都愣了一下,隨后便是哄堂大笑。
主持人也正好趁這個(gè)機(jī)會(huì),直接從姚順雨開(kāi)始,切入了正題。
Q1:路線分化
主持人:我是接下來(lái)Panel的主持人廣密。
可以從分化這個(gè)主題先聊起來(lái),硅谷的競(jìng)爭(zhēng)那么激烈,它沒(méi)有完全Follow,全都做,而且是專(zhuān)注到了企業(yè),專(zhuān)注到了Coding,專(zhuān)注到了Agent。
我也在想接下來(lái)中國(guó)的模型會(huì)分化成自己想要的哪些方向?我覺(jué)得分化這個(gè)主題蠻有意思的。
順雨開(kāi)場(chǎng)給大家講一講,順便說(shuō)說(shuō)你最近在干什么。
姚順雨:大家好,我現(xiàn)在是不是一個(gè)巨大的臉在會(huì)場(chǎng)?不好意思,今天沒(méi)法親自來(lái)北京,但是很高興參加這個(gè)活動(dòng)。最近忙著做模型、做產(chǎn)品、做AI,是一個(gè)很正常的狀態(tài)。回國(guó)的感覺(jué)還是挺好的,吃的好很多。
我覺(jué)得有兩個(gè)大的感受,一個(gè)感受是toC和toB發(fā)生了明顯的分化,另外一個(gè)感受是垂直整合這條路,以及模型和應(yīng)用分層這條路,也開(kāi)始出現(xiàn)了分化。
我先說(shuō)第一點(diǎn),我覺(jué)得很明顯的是當(dāng)大家想到AI就是兩個(gè),ChatGPT,另外一個(gè)Claude code,是做toC和toB的。
非常有意思的一點(diǎn)是我們今天用ChatGPT和去年相比的話,感受差別不是太大。
但是,Coding夸張一點(diǎn)來(lái)講,已經(jīng)在重塑整個(gè)計(jì)算機(jī)行業(yè)做事的方式,人已經(jīng)不再寫(xiě)代碼,而是用英語(yǔ)和電腦去交流。
我覺(jué)得很核心的一點(diǎn),對(duì)于toC來(lái)說(shuō),大部分人大部分時(shí)候不需要用到這么強(qiáng)的智能,可能今天用ChatGPT和去年相比,寫(xiě)成交代數(shù)和伽羅瓦理論的能力變強(qiáng)的,但是大部分人大部分時(shí)候感受不到。
大部分人尤其是在中國(guó)更多像是搜索引擎的加強(qiáng)版,很多時(shí)候也不知道該怎么去用,把它的智能給激發(fā)出來(lái)。
但對(duì)于toB來(lái)說(shuō),很明顯的一點(diǎn)是智能越高,代表生產(chǎn)力越高,值錢(qián)的也越來(lái)越多,這些東西都是相關(guān)的。
對(duì)于toB來(lái)講,還有一個(gè)很明顯的點(diǎn),大部分時(shí)候很多人就愿意用最強(qiáng)的模型,一個(gè)模型是200美元/月,第二強(qiáng)或者差一些的模型是50美元/月、20美元/月。
很多美國(guó)的人愿意花溢價(jià)用最好的模型,可能他的年薪是20萬(wàn)美元,每天要做10個(gè)任務(wù),像一個(gè)非常強(qiáng)的模型可能10個(gè)任務(wù)中,八九個(gè)做對(duì)了,差的是做對(duì)五六個(gè),問(wèn)題是你不知道這五六個(gè)是哪五六個(gè)的情況下,需要花額外精力去監(jiān)控這個(gè)事情。
我覺(jué)得無(wú)論是人還是模型,在toB這個(gè)市場(chǎng)上發(fā)現(xiàn)了一個(gè)很有意思的現(xiàn)象,強(qiáng)的模型和稍微差點(diǎn),或者弱的模型它的分化會(huì)越來(lái)越明顯。
第二點(diǎn)觀察,垂直整合這條路和模型應(yīng)用分層這條路的區(qū)別,我覺(jué)得一個(gè)比較好的例子,比如ChatGPT Agent,相比于用Claude或者Gemini加上Manus這樣的應(yīng)用層產(chǎn)品,過(guò)去大家會(huì)認(rèn)為當(dāng)你有垂直整合能力肯定會(huì)做的更好,但起碼今天來(lái)看并不一定。
首先模型層和應(yīng)用層需要的能力還是挺不一樣的,尤其是對(duì)于toB或者生產(chǎn)力這樣的場(chǎng)景來(lái)說(shuō),可能更大的預(yù)訓(xùn)練還是一個(gè)非常關(guān)鍵的事情,這個(gè)事情對(duì)于產(chǎn)品公司確實(shí)很難做,但是想要把這么一個(gè)特別好的模型用好,或者這樣的模型有它的溢出能力,也需要在應(yīng)用側(cè)或者環(huán)境這一側(cè)做很多相應(yīng)的事情。
我們會(huì)發(fā)現(xiàn)其實(shí)在toC的應(yīng)用上垂直整合還是成立的,無(wú)論是ChatGPT還是豆包,模型和產(chǎn)品是非常強(qiáng)耦合去緊密迭代的,但是對(duì)于toB來(lái)說(shuō)這個(gè)趨勢(shì)似乎是相反的,模型在變的越來(lái)越強(qiáng)、越來(lái)越好,但同樣會(huì)有很多應(yīng)用層的東西應(yīng)用好的模型在不同的生產(chǎn)力環(huán)節(jié)。
騰訊肯定還是toC基因更強(qiáng)的公司,我覺(jué)得我們會(huì)思考怎么樣能夠讓今天的大模型或者說(shuō)AI的發(fā)展能夠給用戶提供更多價(jià)值,很核心的思考是我們發(fā)現(xiàn)很多時(shí)候我們的環(huán)境來(lái)講或者更強(qiáng)的模型,或者很強(qiáng)的模型,很多時(shí)候是額外的Context。
我最近經(jīng)常舉一個(gè)例子,比如我想問(wèn)我今天該去吃什么?其實(shí)你今天問(wèn)ChatGPT和你去年問(wèn)或者明天問(wèn)都會(huì)差很多。
這個(gè)事情想要變好,不是說(shuō)你需要更大的模型、更強(qiáng)的預(yù)訓(xùn)練、更強(qiáng)的強(qiáng)化學(xué)習(xí)、更強(qiáng)的Agent環(huán)境或者更強(qiáng)的搜索引擎,這個(gè)問(wèn)題可能需要更多額外的輸入,或者我們叫Context。
toB確實(shí)是很難的事情,生產(chǎn)力的革命,包括我們今天很多中國(guó)的公司做Coding Agent需要打很多海外市場(chǎng)。
我們會(huì)思考怎么把自己先服務(wù)好,像創(chuàng)業(yè)公司做Coding這個(gè)事情和大公司做Coding這個(gè)事情,一個(gè)區(qū)別是作為大公司本身就已經(jīng)有各種各樣的應(yīng)用場(chǎng)景、各種各樣需要生產(chǎn)力變的更好的地方。
如果我們的模型能夠在這個(gè)地方做的更好,不僅這個(gè)模型會(huì)有自己獨(dú)特的優(yōu)勢(shì),不僅我們公司本身能得到很好的發(fā)展,很重要的一點(diǎn)是對(duì)于真實(shí)世界場(chǎng)景的數(shù)據(jù)捕捉會(huì)是一個(gè)很有意思的事情。
比如說(shuō)Cloud,這些創(chuàng)業(yè)公司,他們想要去做更多的Coding Agent的數(shù)據(jù)廠商去標(biāo)注這個(gè)數(shù)據(jù),他們需要利用各種各樣的軟件工程師去想我要去標(biāo)什么樣的數(shù)據(jù)。
這個(gè)事情是數(shù)據(jù)公司一共就這么幾家,一共有招了這么多人,最終你會(huì)受限,但如果你是一個(gè)10萬(wàn)人的公司可能會(huì)有一些有意思的嘗試,怎么把真實(shí)世界的數(shù)據(jù)利用好,而不是僅僅依賴于標(biāo)注商或者協(xié)議。
林俊旸:今天toB也好,toC也好,我們?cè)诜?wù)真實(shí)的問(wèn)題,我們想的問(wèn)題是怎么把人類(lèi)世界變的更好。你就算做toC的產(chǎn)品也會(huì)分化,今天OpenAI更像一個(gè)平臺(tái)了,但是toC最終要服務(wù)真實(shí)的這批用戶究竟是誰(shuí)。
今天可能有很多AI會(huì)更偏向medical和log,今天我覺(jué)得Coding真的很厲害,我就拜訪它,因?yàn)槲抑浪麄兏蛻艚涣鞣浅6啵@個(gè)是我們還不夠好的一個(gè)點(diǎn),雖然我們擁有巨大的優(yōu)勢(shì),也可能中國(guó)SaaS市場(chǎng)跟美國(guó)確實(shí)不太一樣,他們確實(shí)非常頻繁地跟客戶進(jìn)行交流,很容易發(fā)現(xiàn)很大的機(jī)會(huì)。
今天我跟美國(guó)的很多API廠商聊起來(lái),他們沒(méi)有想Coding消耗量那么大,在中國(guó)真的沒(méi)有那么大,至少?gòu)奈疫@邊來(lái)看,但是在美國(guó),基本上全都是Coding,我覺(jué)得這個(gè)事情不是所有人都能Get到的。
今天做的一些相關(guān)的一些東西,我覺(jué)得也是他們自己在跟客戶看到這個(gè)機(jī)會(huì),我覺(jué)得可能大家的分化是自然的分化,我更愿意相信AGI,做AGI該做的事情,順其自然,這是我們?cè)撟龅氖虑椤?/p>
楊強(qiáng):分化的問(wèn)題其實(shí)我更想聊一下工業(yè)界和學(xué)術(shù)界的分化,這個(gè)可能是橫跨美國(guó)和中國(guó)的。
一直以來(lái),學(xué)術(shù)界是一個(gè)觀望者,工業(yè)界在領(lǐng)頭往前瘋跑,搞得很多學(xué)術(shù)界的人也在做工業(yè)界的事情,像唐杰老師,這是一個(gè)好事,就好像天體物理學(xué)剛剛開(kāi)始的時(shí)候是以觀測(cè)為主,伽利略的望遠(yuǎn)鏡,然后才出現(xiàn)牛頓。
所以我覺(jué)得后面一個(gè)階段,當(dāng)我們有了眾多的穩(wěn)定大模型,進(jìn)入一個(gè)穩(wěn)態(tài)的時(shí)候,我們學(xué)術(shù)界應(yīng)該跟上來(lái)。
學(xué)術(shù)界跟上來(lái)要解決什么問(wèn)題呢?工業(yè)界可能還沒(méi)來(lái)得及解決的一些問(wèn)題,這也是我一直在考慮的問(wèn)題,就是說(shuō)智能上界在哪里,比如說(shuō)給你一定的資源,計(jì)算資源或者能源資源,你能做到多好?
可以更細(xì)一點(diǎn),比方說(shuō)我們把這個(gè)資源怎么分配,哪些分配在訓(xùn)練上、哪些分配在推理上?其
實(shí)我很早就在做AI,90年代初就做過(guò)一個(gè)小實(shí)驗(yàn),如果我們有一定的投入在記憶上,那么這個(gè)記憶能夠幫助推理多少,這個(gè)幫助會(huì)不會(huì)變成一個(gè)反向的,就是說(shuō)你記的太多了,反而記的噪音會(huì)干擾你的推理,有沒(méi)有一個(gè)平衡點(diǎn),我覺(jué)得這些問(wèn)題今天還是適用的。
我最近也在想另外一個(gè)問(wèn)題,大家學(xué)計(jì)算機(jī)的都必定上計(jì)算機(jī)理論課,里面有一個(gè)重要的定理叫哥德?tīng)柌煌陚涠ɡ恚蟾乓馑际钦f(shuō)一個(gè)大模型不能自證清白,必定有一些幻覺(jué)不可能消滅掉,可能你給更多的資源,它會(huì)消滅的更多。
所以科學(xué)問(wèn)題就來(lái)了,你多少資源能夠換取多少幻覺(jué)的降低或者錯(cuò)誤率的降低,這是有一個(gè)平衡點(diǎn)的,這個(gè)平衡點(diǎn)特別像經(jīng)濟(jì)學(xué),經(jīng)濟(jì)學(xué)的風(fēng)險(xiǎn)和收益的一種平衡,所以我們叫這叫無(wú)免費(fèi)午餐定理。像這些東西,我覺(jué)得今天就特別適合數(shù)學(xué)界、算法界和學(xué)術(shù)界和工業(yè)界一起做研究,這孕育著一個(gè)巨大的突破。
剛才唐杰老師也提到持續(xù)學(xué)習(xí),我覺(jué)得持續(xù)學(xué)習(xí)是一個(gè)特別好的問(wèn)題,它里面有個(gè)時(shí)間的概念,你在持續(xù)地不斷地學(xué)的過(guò)程當(dāng)中。
但是你會(huì)發(fā)現(xiàn),比方說(shuō)你把不同的Agent給串聯(lián)起來(lái),每一個(gè)Agent都不能做到百分之百的話,你在N個(gè)以后它的能力是按指數(shù)下降的,你怎么樣能夠保證它不下降,人類(lèi)是用一個(gè)方法做這個(gè)事,第一天是學(xué)習(xí),第二天會(huì)在第一天噪音的基礎(chǔ)上學(xué)習(xí),這樣你的能力就類(lèi)似大模型會(huì)下降。
但是人類(lèi)有一個(gè)方法就是睡覺(jué)、睡眠,我建議大家看一本書(shū)叫《我們?yōu)槭裁此X(jué)》,是MIT的兩個(gè)教授寫(xiě)的,非常好玩,它說(shuō)每天晚上睡覺(jué)是在清理噪音,使得第二天你可以把準(zhǔn)確率持續(xù)地提升,不至于是兩個(gè)策略率的疊加。
像這些理論的研究孕育著一種新的計(jì)算模式。我們今天可能比較關(guān)注Transformer computer,但是我覺(jué)得有必要做一些新的探索,這是工業(yè)界和學(xué)術(shù)界要拉齊。
唐杰:早期的時(shí)候還是基座模型,2023年那個(gè)時(shí)候我們第一個(gè)做出Chat的,當(dāng)時(shí)第一個(gè)想法是趕緊把Chat扔在網(wǎng)上上線,當(dāng)時(shí)國(guó)家有規(guī)定,八九月份一起上。
當(dāng)時(shí)我的第一感受是十來(lái)個(gè)大模型都上來(lái)了,而且每一家用戶都沒(méi)有那么多,當(dāng)然今天分化的非常嚴(yán)重。
后來(lái)我經(jīng)過(guò)一年的思考,我覺(jué)得其實(shí)這個(gè)已經(jīng)不是真的解決問(wèn)題,我的第一個(gè)預(yù)判是說(shuō)它會(huì)替代搜索。
我相信今天很多人在用這個(gè)模型替代搜索,到今天我相信大家很多人在開(kāi)始用這個(gè)模型替代索索,但是并沒(méi)有替代谷歌,谷歌反而把自己的搜索革命了,谷歌自己做了搜索的改進(jìn)。
從這個(gè)角度上,我覺(jué)得這一仗從DeepSeek出來(lái)之后,已經(jīng)沒(méi)有了,已經(jīng)結(jié)束了。
DeepSeek之后我們應(yīng)該想的是下一仗是什么東西?
我們團(tuán)隊(duì)爭(zhēng)論了很久,下一仗肯定要讓AI做一件事情,做這件事情是什么可以討論一下,那個(gè)時(shí)候廣密還到我們那跟我們交流,廣密的知識(shí)特別淵博,他思考問(wèn)題很深邃。和他的交流對(duì)我的啟發(fā)非常大,原來(lái)我沒(méi)有想到,那一次讓我啟發(fā)非常大。
后來(lái)我們團(tuán)隊(duì)爭(zhēng)論了很多晚上,爭(zhēng)論到最后,可以叫我們的運(yùn)氣,另一方面我們也是把所有的精力放在了Coding上。
Q2:自主學(xué)習(xí)
主持人:接下來(lái)第二個(gè)比較有意思的問(wèn)題,今天這個(gè)時(shí)間點(diǎn)特別特殊,一個(gè)是預(yù)訓(xùn)練過(guò)去走了3年,大家都說(shuō)可能今天走到了七八成的收益,強(qiáng)化學(xué)習(xí)也都成為共識(shí),做到了四五十的空間,后面的數(shù)據(jù)、環(huán)境空間很大。
接下來(lái)一個(gè)新的范式,唐老師也談到了自主學(xué)習(xí)、自我學(xué)習(xí),因?yàn)榻裉爝@個(gè)會(huì)的主題是接下來(lái)的展望Next,我覺(jué)得這是一個(gè)特別值得去聊的話題。
姚順雨:現(xiàn)在自主學(xué)習(xí)是一個(gè)非常熱門(mén)的詞,在硅谷大街小巷咖啡館里面,大家都在談?wù)摚纬闪艘粋€(gè)共識(shí)。根據(jù)我的觀察,每個(gè)人對(duì)這個(gè)東西的定義和看法都不一樣,我講兩點(diǎn):
第一,這個(gè)事情不是方法論,而是數(shù)據(jù)或者任務(wù)。
當(dāng)我們?cè)谡務(wù)撟灾鲗W(xué)習(xí)的時(shí)候,它到底在什么樣的場(chǎng)景下基于什么樣的獎(jiǎng)勵(lì)函數(shù)去做。
你在聊天的時(shí)候變的越來(lái)越個(gè)性化是一種自主學(xué)習(xí),在寫(xiě)代碼的時(shí)候越來(lái)越熟悉每個(gè)公司獨(dú)特的環(huán)境或者文檔是一種自主學(xué)習(xí),你去探索新的科學(xué),在這個(gè)過(guò)程中像一個(gè)博士一樣,從原來(lái)不了解有機(jī)化學(xué)是什么,到完成這個(gè)領(lǐng)域的專(zhuān)家,這也是一種自主學(xué)習(xí)。每一種自主學(xué)習(xí)的挑戰(zhàn)或者說(shuō)方法論都不太一樣。
第二,ChatGPT在利用用戶的數(shù)據(jù)不斷彌合人聊天的風(fēng)格是什么,這是不是一種自我學(xué)習(xí)?
今天Claude已經(jīng)寫(xiě)了Claude這個(gè)項(xiàng)目95%的代碼,它在幫助它自己變的更好,這是不是一種自我學(xué)習(xí)?
我們當(dāng)時(shí)2022年、2023年的時(shí)候,我去硅谷宣傳這個(gè)工作,我當(dāng)時(shí)寫(xiě)了第一頁(yè)是說(shuō)ASI最重要的點(diǎn)是自主學(xué)習(xí)。今天的AI系統(tǒng)本質(zhì)上都有兩部分,首先它是一個(gè)模型,其次它有個(gè)代碼庫(kù),你怎么去用這個(gè)模型,是用來(lái)做推理,還是做Agent,有相應(yīng)的代碼庫(kù),我們今天看Claude這個(gè)系統(tǒng)本質(zhì)上有兩部分。
一部分是是部署環(huán)境的一大堆相應(yīng)的代碼,KeonGPU的環(huán)境是怎樣的。
另一部分是怎么樣去使用它,有一大堆相應(yīng)的代碼,無(wú)論是GPU的,或者說(shuō)它的前端還是環(huán)境是什么樣的。
我們做Switch方面大家意識(shí)不到,這些自主學(xué)習(xí)的例子可能還局限在每一個(gè)特定的場(chǎng)景下,沒(méi)有讓人感覺(jué)到非常大的威力。
這個(gè)事情已經(jīng)在發(fā)生了,可能效率或者受限制的限制,有各種各樣的問(wèn)題,可能這個(gè)事情我個(gè)人的看法它更像是一個(gè)漸變。
很多人說(shuō)2026年看到信號(hào),我覺(jué)得2025年就看到信號(hào)了。
Cursor每幾個(gè)小時(shí)都會(huì)用最新的用戶數(shù)據(jù)去進(jìn)行學(xué)習(xí),包括新的模型,也在使用這些真實(shí)環(huán)境下的數(shù)據(jù)去訓(xùn)練,大家覺(jué)得這個(gè)東西可能還沒(méi)有特別石破天驚,是因?yàn)槭芟抻谒麄儧](méi)有預(yù)訓(xùn)練能力,他們模型效果確實(shí)還不如Opens,顯然這是一個(gè)信號(hào)。
最大的問(wèn)題是想象力,我們很容易想象強(qiáng)化學(xué)習(xí)或者推理這個(gè)范式,如果實(shí)現(xiàn)大概是什么樣,我們可以想象O1,在數(shù)學(xué)題上本來(lái)是10分,現(xiàn)在變成了80分,通過(guò)這個(gè)強(qiáng)化學(xué)習(xí)有非常強(qiáng)的思維鏈做這個(gè)事情。
如果2026年或者2027年我們有一個(gè)范式的發(fā)生,我宣布了一個(gè)新的模型或者新的系統(tǒng)實(shí)現(xiàn)了自我學(xué)習(xí),我們應(yīng)該用什么樣的任務(wù),它應(yīng)該是什么樣的效果,你會(huì)相信它實(shí)現(xiàn)了。
它是一個(gè)賺錢(qián)的交易系統(tǒng),它可以賺很多錢(qián),它真的解決了人類(lèi)之前沒(méi)法解決的科學(xué)問(wèn)題還是別的。我覺(jué)得可能需要先想象到它長(zhǎng)什么樣。
林俊旸:如果從更實(shí)際一點(diǎn)來(lái)講的話,剛才講的這個(gè)范式在比較早期階段,RL這個(gè)事情,實(shí)際上我們還沒(méi)有做的那么充分,很多潛力沒(méi)有打出來(lái)。
今天我們也看到很多問(wèn)題在這里面發(fā)生,我覺(jué)得全球范圍內(nèi)類(lèi)似的問(wèn)題還存在。
如果要說(shuō)下一代范式的話,一個(gè)自主學(xué)習(xí),之前跟一個(gè)朋友聊到說(shuō)人類(lèi)不能讓AI變的更厲害,比如說(shuō)你跟AI不斷地交互,只會(huì)讓它上下文變的越來(lái)越長(zhǎng),AI變的越來(lái)越笨,這是很煩人的事情。
這件事情是不是真的能夠發(fā)生?這還是挺值得思考的,你能吐更多Token讓你變的更強(qiáng),就像我真的干30個(gè)小時(shí)真的能夠干出很難的任務(wù),今天大家做超越的事情很難,有沒(méi)有可能通過(guò)Coding去實(shí)現(xiàn)。
從這個(gè)角度來(lái)說(shuō),AI肯定需要自主進(jìn)化,但究竟你是不是要更新參數(shù),我覺(jué)得見(jiàn)仁見(jiàn)智,大家都有不同的技術(shù)手段去實(shí)現(xiàn)這個(gè)事情。
第二點(diǎn)是AI有沒(méi)有可能實(shí)現(xiàn)更強(qiáng)的主動(dòng)性,環(huán)境是我的輸入信號(hào),我現(xiàn)在的AI必須得有人類(lèi)幫助他才能啟動(dòng),但是有沒(méi)有可能自己能自主思考,去做一些事情。這引發(fā)了一個(gè)新的問(wèn)題,就是安全的問(wèn)題,我非常擔(dān)心安全的問(wèn)題,不是擔(dān)心它今天講一些不該說(shuō)的話,最擔(dān)心的是它做一些不該做的事情
比如說(shuō)今天主動(dòng)產(chǎn)生一些想法,往會(huì)場(chǎng)里面扔一顆炸彈,我們肯定不希望不安全的事情發(fā)生。就像培養(yǎng)小孩一樣,我們要給它注入一些正確的方向,但主動(dòng)學(xué)習(xí)是一個(gè)挺重要的范式。
可能很快訓(xùn)AI這件事情就可以實(shí)現(xiàn),我看我們同學(xué)每天干這個(gè)事情,我覺(jué)得很快就被替代掉。
可能更持續(xù)的理解用戶這件事情還挺重要的,比如說(shuō)過(guò)往我們?cè)谧鐾扑]系統(tǒng)的時(shí)候,用戶這個(gè)信息是持續(xù)輸入,讓這個(gè)系統(tǒng)變的更強(qiáng),它的算法變的更簡(jiǎn)單。在AI這個(gè)時(shí)代它是不是能不更懂你,這些信息的輸入能不能真正成為幫助我們的工具。
如果說(shuō)自主學(xué)習(xí)的話,可能會(huì)是跟人的交互上就能做到。但是以什么指標(biāo)進(jìn)行衡量?不太好說(shuō)。
在推薦的時(shí)代下,你做的越好,別人可能點(diǎn)的越多、買(mǎi)的越多,但是在AI時(shí)代覆蓋到人類(lèi)生活的方方面面的時(shí)候,真正的衡量指標(biāo)是什么,我們不太知道。我感覺(jué)今天更大的從技術(shù)上的挑戰(zhàn),我們今天不知道該怎么做,這可能是我們更值得研究的問(wèn)題。
大量的技術(shù)所謂的突破性都是一些觀測(cè)問(wèn)題,都是在線性發(fā)展的,只是人類(lèi)對(duì)它的感受非常強(qiáng)烈而已。
包括像ChatGPT的出現(xiàn),對(duì)于我們做大模型的人來(lái)講都是線性的增長(zhǎng),現(xiàn)在大家都是在做Memory這個(gè)事情,這個(gè)技術(shù)對(duì)還是不對(duì)呢?
很多方案也沒(méi)有對(duì)錯(cuò)之分,但做出來(lái)的效果,至少拿我們自己獻(xiàn)丑,我們自己的Memory看起來(lái)知道我過(guò)去干了什么,但是只是記起來(lái)過(guò)去事情,每次叫一遍我的名字,其實(shí)并不顯得你很聰明。
你的Memory有沒(méi)有可能到某一個(gè)臨界點(diǎn)的時(shí)候,結(jié)合你的Memory,就像生活當(dāng)中的人一樣,過(guò)去大家講電影,它真的很像人,理解你的Memory就是在那一下,人類(lèi)的感受突然間迸發(fā)。
我覺(jué)得多多少少也需要一年時(shí)間,很多時(shí)候技術(shù)也沒(méi)有發(fā)展那么快。
大家比較卷,每天有新的東西,但是技術(shù)在線性的發(fā)展,我們?cè)谟^測(cè)的角度處于指數(shù)上升的階段,比如說(shuō)Coding能力的一點(diǎn)點(diǎn)提升,可能就能帶來(lái)很多生產(chǎn)價(jià)值。
每天看我們自己做的事情覺(jué)得真的挺土的,那些Bug真的不好意思拿出來(lái)跟大家講。如果這樣做,我們已經(jīng)做到這樣的成績(jī),我覺(jué)得可能未來(lái)算法infra結(jié)合的更好,可能更大有可為。
楊強(qiáng):我一直以來(lái)是做聯(lián)邦學(xué)習(xí)的,聯(lián)邦學(xué)習(xí)的主要思想是多個(gè)中心大家協(xié)作。
我現(xiàn)在越來(lái)越多地看到很多有本地資源不足,但是本地的數(shù)據(jù)又有很多隱私和安全的要求,所以這樣我們就可以想象現(xiàn)在大模型的能力越來(lái)越強(qiáng),這種通用型大模型和本地特殊性的小模型或者領(lǐng)域?qū)<业哪P腿绾螀f(xié)作,我覺(jué)得這種協(xié)作變的越來(lái)越可能。
像美國(guó)ZOOM,就是黃學(xué)東他們做的AI系統(tǒng),他做了一個(gè)很大的基座,這個(gè)基座大家都可以插進(jìn)來(lái),它可以在Decentralise的狀態(tài)下,能夠既保護(hù)隱私,又能夠和通用大模型有效的溝通、協(xié)作。
我覺(jué)得這種開(kāi)源模式特別好,一個(gè)是知識(shí)的開(kāi)源,一個(gè)是Code方面的開(kāi)源,模型階段。
尤其是像醫(yī)療、金融這樣的場(chǎng)景下,會(huì)越來(lái)越多看到這樣的現(xiàn)象發(fā)生。
唐杰:我對(duì)今年會(huì)有非常大的范式革新有信心,我不說(shuō)太細(xì),就像我剛才講的持續(xù)學(xué)習(xí),還有Memory,甚至多模態(tài),我覺(jué)得都有可能出現(xiàn)新的范式變革。
為什么會(huì)產(chǎn)生這么一個(gè)范式?
我覺(jué)得原來(lái)其實(shí)工業(yè)界跑的遠(yuǎn)遠(yuǎn)快于學(xué)術(shù)界,我記得去年和前年回到清華跟很多老師聊天的時(shí)候能不能做大模型,很多老師第一是沒(méi)卡,也不是沒(méi)卡,是卡的數(shù)量幾乎為零。
工業(yè)界有1萬(wàn)片,學(xué)校是0片或者1片,倍數(shù)是1萬(wàn)次,但是到現(xiàn)在的時(shí)候,很多學(xué)校已經(jīng)有很多卡了,而且很多老師已經(jīng)開(kāi)始做了很多大模型的相關(guān)研究,包括硅谷那邊有很多老師都開(kāi)始做模型架構(gòu)、持續(xù)學(xué)習(xí)相關(guān)的研究。
原來(lái)我們總覺(jué)得工業(yè)界在dominating這些,其實(shí)我覺(jué)得今天在2025年底到2026年初的時(shí)候,這一現(xiàn)象不大存在了,可能還有10倍的差,但它已經(jīng)孵化出種子了,我覺(jué)得在學(xué)術(shù)界有這個(gè)創(chuàng)新的基因,有這個(gè)可能性,這是第一個(gè)。
第二,我覺(jué)得一個(gè)創(chuàng)新的出現(xiàn)一定是某個(gè)事情有大量的投入,并且它的efficiency變成瓶頸了,現(xiàn)在在整個(gè)大模型里面投入已經(jīng)巨大,但是efficiency并不高,也就是我們繼續(xù)Scaling,肯定是有收益。
原來(lái)data從2025年初,當(dāng)時(shí)可能10個(gè)TB的數(shù)據(jù),現(xiàn)在30個(gè)T,甚至我們可以Scaling到100個(gè)T,但是100個(gè)T,你Scaling上去以后,你的收益有多少,計(jì)算Cost有多少,變成了這么一個(gè)問(wèn)題,你不創(chuàng)新,這就變成了可能花掉10個(gè)億、花掉了20個(gè)億,但是你的收益很小,就不值得了。
另外一方面對(duì)于新的智能創(chuàng)新,假如說(shuō)我們每一次都要重訓(xùn)一個(gè)基座,再重訓(xùn)很多RL,像2024年出RL的時(shí)候,很多人會(huì)覺(jué)得我接著訓(xùn),收益表里有,但是到今天的時(shí)候再接著瘋狂的RL,收益也有,但沒(méi)有那么大,還是收益效率的問(wèn)題,可能我們未來(lái)也許可以定義,一方面既然要Scaling up,最笨的辦法就是Scaling,Scaling我們會(huì)有收益,Scaling肯定會(huì)帶來(lái)智能上界的提升。
第二個(gè)辦法是應(yīng)該定義Intelligence efficiency,就是說(shuō)智能的效率,我們獲得智能的效率,我們用多少投入能獲得這個(gè)智能的增量,如果我們能用更少的獲得它的增量,而且現(xiàn)在我們已經(jīng)變成了一個(gè)瓶頸,假如能用更少的范式獲得同樣智能的提升,它就變成一個(gè)瓶頸式的事情。
所以我覺(jué)得2026年一定會(huì)有這樣一個(gè)范式的發(fā)生,我們也在努力,我們希望發(fā)生在我們身上,但也不一定。
Q3:Agent之年
主持人:第三個(gè)是聊聊Agent戰(zhàn)略,它不再只是一個(gè)Chat,而是說(shuō)真的在自動(dòng)化一整天甚至一周的任務(wù)流,2026年Agent可能是創(chuàng)造經(jīng)濟(jì)價(jià)值的關(guān)鍵一年。
順雨花了很多時(shí)間做Agent的研究,你對(duì)2026年Agent,比如說(shuō)Long Agent真的能干人類(lèi)1-2周的工作,對(duì)Agent戰(zhàn)略,包括從模型公司的出發(fā)點(diǎn),會(huì)怎么思考這個(gè)問(wèn)題?
姚順雨:我覺(jué)得還是像剛剛說(shuō)的toB和toC不太一樣,目前看起來(lái),我覺(jué)得toB的情況現(xiàn)在已經(jīng)達(dá)到了在不斷上升的曲線,目前看起來(lái)好像沒(méi)有變慢的趨勢(shì)。
很有意思的一點(diǎn)是它基本上不做什么創(chuàng)新,就是覺(jué)得模型預(yù)訓(xùn)練變大了,老老實(shí)實(shí)的把這些東西做好,只要預(yù)訓(xùn)練不斷地變大,后訓(xùn)練不斷地把這些真實(shí)世界的任務(wù)給做好,會(huì)越來(lái)越聰明,它就會(huì)帶來(lái)越來(lái)越大的價(jià)值。
從某種程度來(lái)說(shuō),做toB,所有的目標(biāo)這件事更一致,模型的智能越高,解決的任務(wù)越多,解決的任務(wù)越多,在toB下帶來(lái)的收益越大。
做toC的問(wèn)題是說(shuō),我們都知道DAU或者說(shuō)產(chǎn)品的指標(biāo)和模型的智能,很多時(shí)候是不相關(guān)的,甚至是相反的關(guān)系,我覺(jué)得這是能夠聚焦的另一個(gè)很重要的原因,他只要真的把模型越做越好,他的收益越來(lái)越高,所有的事情都是非常好的。
目前看起來(lái),toB或者說(shuō)生產(chǎn)力的Agent剛剛開(kāi)始,現(xiàn)在除了模型之外,有兩個(gè)Next,環(huán)境問(wèn)題或者Deployment問(wèn)題。
在OpenAI之前,我在一個(gè)公司實(shí)習(xí)過(guò),這是一個(gè)toB的公司,我覺(jué)得在toB公司工作過(guò)有很多收獲,最大的收獲是即使今天的模型不再變好,所有的模型訓(xùn)練全部停止了。
但是我們把這些模型部署到世界上各種各樣的公司,已經(jīng)能帶來(lái)今天10倍或者100倍的收益,能應(yīng)對(duì)GDP產(chǎn)生5%-10%的影響,但是今天它對(duì)GDP的影響還不到1%。
另外我覺(jué)得教育非常重要,我觀察現(xiàn)在人和人的差距非常大,更多時(shí)候不是說(shuō)人類(lèi)替代了人類(lèi)工作,而是會(huì)使用這些工具的人在替代那些不會(huì)使用工具的人,就像當(dāng)年電腦出來(lái),如果轉(zhuǎn)身學(xué)習(xí)編程跟你還在持續(xù)計(jì)算尺、使用算法,差距是巨大的。
今天中國(guó)能做到的最大的有意義的事情是更好的教育,教育大家怎么更好的使用像Claude或者ChatGPT這樣的產(chǎn)品,當(dāng)然Claude可能在中國(guó)用不了,但我們可以用Kimi或者智譜這樣的國(guó)產(chǎn)模型。
林俊旸:這里可能涉及到產(chǎn)品哲學(xué)的問(wèn)題,當(dāng)然Manus確實(shí)很成功,套殼是不是未來(lái),這本身也是個(gè)話題,今天到這個(gè)環(huán)節(jié),我比較同意你的觀點(diǎn),叫模型即產(chǎn)品。
我跟TML的聊,他們叫Research,其實(shí)我挺喜歡這個(gè)事情的,包括我的視角看OpenAI,我覺(jué)得還有挺多這種事情,就是挺多Research,自己可以成為產(chǎn)品經(jīng)理,把這個(gè)東西給做起來(lái),包括今天我們自己內(nèi)部的Research都可以做面向真實(shí)世界的東西。
我愿意相信接下來(lái)的Agent是可以做到剛才所說(shuō)的這個(gè)事情,而且跟剛才所提的主動(dòng)學(xué)習(xí)都有比較強(qiáng)烈的關(guān)系,它能干這么長(zhǎng)的時(shí)間,自己就得在這個(gè)過(guò)程當(dāng)中進(jìn)化,并且它還要決定去干什么,因?yàn)樗盏降倪@個(gè)指令是非常通用的任務(wù),我們現(xiàn)在Agent已經(jīng)變的托管式的Agent,而不是我要不斷給你來(lái)來(lái)回回交互的那種形式。
從這個(gè)角度來(lái)說(shuō),它對(duì)模型的要求是很高的,模型就是這是這個(gè)Agent本身,Agent就是這個(gè)產(chǎn)品本身,如果它們都是一體化的話,今天做基礎(chǔ)模型本身,其實(shí)也就是在做產(chǎn)品。
從這個(gè)角度來(lái)說(shuō),如果不斷提升模型能力的上限,包括Scaling能做上去,確實(shí)能夠做到這個(gè)事情。
我覺(jué)得還有一個(gè)點(diǎn)是跟環(huán)境交互有關(guān)系,我們現(xiàn)在交互的環(huán)境還不是很復(fù)雜,這些都還是電腦的環(huán)境。我有朋友是做AI for Science比較相關(guān)的,比如說(shuō)今天你干AlphaFold這個(gè)事情,其實(shí)你最后干出來(lái),它還沒(méi)有到那一步。
比如距離制藥這件事情,就算用今天的AI,不一定能幫到你那么多,因?yàn)槟阋プ鲈噷?shí)驗(yàn),你要去做這些事情才能得到反饋,有沒(méi)有可能我們未來(lái)AI環(huán)境復(fù)雜到真實(shí)的人類(lèi)世界的環(huán)境,指揮機(jī)器人去做試實(shí)驗(yàn),去加快效率。
現(xiàn)在人類(lèi)的效率非常低,我們還要雇傭很多外包在實(shí)驗(yàn)環(huán)境里面去做實(shí)驗(yàn),如果能達(dá)到這個(gè)點(diǎn),可能才是我想象當(dāng)中Agent能做很長(zhǎng)時(shí)間的活,而不是在電腦當(dāng)中寫(xiě)個(gè)文件等,這些東西今年很快就可以完成,接下來(lái)3-5年的時(shí)間,這個(gè)事情會(huì)更加有意思一些。這個(gè)可能又要跟具身智能結(jié)合在一起。
做通用Agent最有意思的事情就是長(zhǎng)尾反而是更值得關(guān)注的事情,或者說(shuō)今天AI更大的魅力是在長(zhǎng)尾,如果是馬太效應(yīng),頭部的東西挺容易解決的。
當(dāng)年做推薦的時(shí)候我們看到那個(gè)推薦非常集中,商品都是在頭部,但我們想把尾部的東西推過(guò)去,但是我當(dāng)時(shí)做的非常遭殃,我作為一個(gè)干多模態(tài)的人碰到推薦系統(tǒng),我去干解馬太效應(yīng),基本上是奔著死路去的。
今天所謂的AGI就在解這個(gè)問(wèn)題,你做通用Agent,能不能把長(zhǎng)尾的問(wèn)題給解決,今天我一個(gè)用戶,真的尋遍各處都找不到能夠幫我解這個(gè)問(wèn)題的,但是在那一刻,我感受到了AI的能力,全世界任何一個(gè)角落,尋遍各處都找不到,但是你卻能幫我解決,這就是AI最大的魅力。
要不要做通用Agent呢?我覺(jué)得見(jiàn)仁見(jiàn)智,如果你是一套殼高手,套的可以比模型公司做的更好,我覺(jué)得可以去做;但如果你沒(méi)有這個(gè)信心,這個(gè)事情可能是留給模型公司做模型即產(chǎn)品的,因?yàn)樗麄冇龅絾?wèn)題的時(shí)候,我只要訓(xùn)一訓(xùn)模型,只要燒一燒卡,這個(gè)問(wèn)題可能就解決了。
今天RL最有意思的地方,修問(wèn)題比以前容易。
以前修問(wèn)題很難。我舉個(gè)B端客戶的情況,他們說(shuō)我們自己要做SSD,你能不能告訴我這個(gè)通用數(shù)據(jù)怎么配比,每次我們都很頭痛,我們覺(jué)得對(duì)方不太會(huì)做SSD,他那個(gè)數(shù)據(jù)非常垃圾,但他們可能覺(jué)得非常有用。
但現(xiàn)在有RL以后,今天很小的一個(gè)數(shù)據(jù)點(diǎn),甚至都不需要標(biāo)注,只要有Query,這個(gè)東西稍微訓(xùn)一訓(xùn),合并起來(lái)也非常容易,這可能是今天技術(shù)的魅力。
楊強(qiáng):Agent出現(xiàn),應(yīng)該有四個(gè)階段,
一個(gè)是目標(biāo)的定義,是人為定義的,還是自動(dòng)定義的,這是目標(biāo)。第二是說(shuō)規(guī)劃,就是中間的Action,規(guī)劃可以由人定義,也可以AI自動(dòng)定義。
我們現(xiàn)在在一個(gè)非常初級(jí)的階段,目標(biāo)也是人定義的,規(guī)劃也是由人來(lái)做的,所以現(xiàn)在的這些Agent的軟件系統(tǒng),基本上是更高級(jí)的階段,但是我預(yù)料未來(lái)會(huì)出現(xiàn)一個(gè)大模型觀察人的工作,尤其是把data給使用起來(lái)。
最后目標(biāo)也可以是大模型來(lái)定義,規(guī)劃也可以由大模型定義,所以Agent應(yīng)該是由大模型內(nèi)生的一個(gè)native的系統(tǒng)。
唐杰:有幾個(gè)方面決定了Agent未來(lái)的走勢(shì)。
第一,Agent本身有沒(méi)有解決人類(lèi)的事情,而這個(gè)事情是不是有價(jià)值,價(jià)值有多大?比如說(shuō)原來(lái)的Agent像GPT-S出來(lái)也做了很多Agent,那時(shí)候你會(huì)發(fā)現(xiàn)那個(gè)Agent非常簡(jiǎn)單,最后發(fā)現(xiàn)promoment就解決了,這時(shí)候大部分Agent慢慢就死掉了。第一個(gè)是解決Agent這個(gè)事情多有價(jià)值,以及真的能夠幫到人。
第二,做這個(gè)事情咱們Cost有多大,如果Cost的特別大,這個(gè)時(shí)候也是一個(gè)問(wèn)題,就像剛才俊旸說(shuō)的,也許調(diào)用一個(gè)API就能把這個(gè)問(wèn)題解決了,但是反過(guò)來(lái),假如調(diào)到API就能解決,這個(gè)API本身有可能覺(jué)得當(dāng)這件事情價(jià)值很大的時(shí)候,就會(huì)把它做進(jìn)去,這是個(gè)矛盾,非常矛盾,基座的應(yīng)用永遠(yuǎn)是矛盾。
最后,做應(yīng)用的速度。如果說(shuō)我有個(gè)時(shí)間窗,能夠拉開(kāi)半年的時(shí)間窗,迅速把這個(gè)應(yīng)用滿足了,半年以后,要么迭代,要么怎么接,怎么能往前走也是一個(gè)方面。
大模型到現(xiàn)在更多的是在拼速度、拼時(shí)間,也許我們代碼正確了,也許我們就會(huì)在這方面走的更遠(yuǎn)一點(diǎn),但也許失敗以后就半年,半年就沒(méi)了,今年我們只是在Coding,在Agent這一塊做了一點(diǎn)點(diǎn),現(xiàn)在我們Coding的調(diào)用量都還不錯(cuò),我覺(jué)得更多的也是一個(gè)方向,做Agent未來(lái)也是一個(gè)方向。
Q4:中國(guó)能否反超
主持人:第四個(gè)問(wèn)題,在三年和五年以后,全球最領(lǐng)先的AI公司是中國(guó)團(tuán)隊(duì)的概率有多大?
姚順雨:我覺(jué)得概率還挺高的,我還是挺樂(lè)觀的。目前看起來(lái),任何一個(gè)事情一旦被發(fā)現(xiàn),在中國(guó)就能夠很快的復(fù)現(xiàn),在很多局部做的更好,包括之前制造業(yè)、電動(dòng)車(chē)這樣的例子已經(jīng)不斷地發(fā)生。
我覺(jué)得可能有幾個(gè)比較關(guān)鍵的點(diǎn),一個(gè)可能是中國(guó)的光刻機(jī)到底能不能突破,如果最終算力變成了Bottleneck,我們能不能解決算力問(wèn)題。
目前看起來(lái),我們有很好的電力優(yōu)勢(shì),有很好的基礎(chǔ)設(shè)施的優(yōu)勢(shì)。主要的瓶頸,一個(gè)是產(chǎn)能,包括光刻機(jī),以及軟件生態(tài)。如果這個(gè)問(wèn)題解決,我覺(jué)得會(huì)是很大的幫助。
另一個(gè)問(wèn)題,除了toC之外,能不能有更成熟或者更好的toB的市場(chǎng),或者有沒(méi)有機(jī)會(huì)在國(guó)際的商業(yè)環(huán)境競(jìng)爭(zhēng)。
今天我們看到很多做生產(chǎn)力或者做toB的模型或者應(yīng)用,還是會(huì)誕生在美國(guó),因?yàn)橹Ц兑庠父鼜?qiáng)的,文化更好,今天在國(guó)內(nèi)做這個(gè)事情很難,所以大家都會(huì)選擇出海或者國(guó)際化的事情,這兩個(gè)是比較大的客觀上的因素。
更重要的是主觀上的概念,最近我在跟很多人聊天,我們的感受是在中國(guó)有非常多非常強(qiáng)的人才,任何一個(gè)事情只要被證明能做出來(lái),很多人都會(huì)非常積極地嘗試,并且想做的更好。
我覺(jué)得中國(guó)想要突破新的范式或者做非常冒險(xiǎn)事情的人可能還不夠多,這里面有經(jīng)濟(jì)環(huán)境、商業(yè)環(huán)境包括文化的因素,如果增加一點(diǎn),主觀上有沒(méi)有更多有創(chuàng)業(yè)精神或者冒險(xiǎn)精神的人,真的想要去做前沿探索或者新的范式突破的事情。
目前來(lái)看,一個(gè)范式一旦發(fā)生,我們可以用很少的卡、很高的效率去局部做的更好,我們到底能不能引領(lǐng)新的范式,這可能是今天中國(guó)唯一要解決的問(wèn)題,因?yàn)槠渌凶龅氖虑椋瑹o(wú)論是商業(yè),還是產(chǎn)業(yè)設(shè)計(jì),還是做工程,我們某種程度上已經(jīng)比美國(guó)做的更好。
每個(gè)地方的研究文化都很不一樣,美國(guó)實(shí)驗(yàn)室的區(qū)別可能比中美實(shí)驗(yàn)室的差別還要大,在中國(guó)也一樣。
在中國(guó)大家還是更喜歡做更安全的事情,比如說(shuō)今天預(yù)訓(xùn)練這個(gè)事情已經(jīng)被證明可以做出來(lái)了,其實(shí)這個(gè)事情也非常難做,有很多技術(shù)問(wèn)題要解決,但只要這件事情一旦被證明能做出來(lái),我們都很有信心幾個(gè)月或者一段時(shí)間內(nèi)就把這個(gè)問(wèn)題搞清楚。
但如果今天讓一個(gè)人說(shuō)探索一個(gè)長(zhǎng)期記憶或者持續(xù)學(xué)習(xí),這個(gè)事情大家不知道怎么做、不知道能不能做起來(lái),這個(gè)事情還是比較困難的。
可能不只是大家更喜歡做確定性的事情、不太愿意做創(chuàng)新性的事情,很重要的一點(diǎn)是文化的積累或者整體的認(rèn)知,其實(shí)是需要時(shí)間沉淀的事情
OpenAI在2022年就開(kāi)始做這個(gè)事情了,國(guó)內(nèi)2023年開(kāi)始做了,對(duì)這個(gè)東西的理解會(huì)有一些差異,或者說(shuō)中國(guó)沒(méi)有這么大。
我覺(jué)得可能很多也就是時(shí)間問(wèn)題,當(dāng)你積累了文化或者底蘊(yùn)更深的時(shí)候,潛移默化的程度可能會(huì)影響人的做事方式,但是它很微妙,很難通過(guò)榜單去體現(xiàn)。
中國(guó)對(duì)于刷榜或者數(shù)字看的更重一些,包括DeepSeek做的比較好的一點(diǎn),他們可能沒(méi)有那么關(guān)注榜單的數(shù)字,可能會(huì)更注重,第一,什么是正確的事情;
第二,什么是你自己能體驗(yàn)出好或者不好的。我覺(jué)得這還是挺有意思的,因?yàn)槟憧碈laude模型可能在編程或者軟件工程的榜單上也不是最高的,但大家都知道這個(gè)東西是最好用的,我覺(jué)得這還是需要大家能夠走出這些榜單的束縛,能夠堅(jiān)持自己覺(jué)得是不是正確的過(guò)程。
林俊旸:美國(guó)的Computer可能整體比我們大1-2個(gè)數(shù)量級(jí),但我看到不管是OpenAI還是什么,他們大量的Computer投入到的是下一代的Research當(dāng)中去,我們今天相對(duì)來(lái)說(shuō)捉襟見(jiàn)肘,光交付可能就已經(jīng)占據(jù)了我們絕大部分的Computer,這會(huì)是一個(gè)比較大的差異在這里。
創(chuàng)新是發(fā)生在有錢(qián)的人手里,還是窮人手里,窮人不是沒(méi)有機(jī)會(huì),我們覺(jué)得這些富哥真的很浪費(fèi)卡,他們訓(xùn)了這么東西,可能訓(xùn)了很多也沒(méi)什么用,但今天窮的話,比如今天所謂的算法Infra聯(lián)合優(yōu)化的事情,如果你真的很富,就沒(méi)有什么動(dòng)力去做這個(gè)事情。
我覺(jué)得可能更進(jìn)一步的,剛才順雨提到光刻機(jī)的問(wèn)題,未來(lái)有可能還有一個(gè)點(diǎn),如果從軟硬結(jié)合的角度,是不是真的有可能做出來(lái),比如說(shuō)我們下一代這個(gè)模型和芯片,有可能是一起把它給做出來(lái)的。
我在2021年的時(shí)候在做大模型,因?yàn)榘⒗镒鲂酒谡椅艺f(shuō)能不能預(yù)測(cè)一下三年之后這個(gè)模型是不是Transformer,三年之后這個(gè)模型是不是多模態(tài),為什么是三年呢?
他說(shuō)我們需要三年時(shí)間才能流片。
我當(dāng)時(shí)的回答是三年之后,在不在阿里巴巴,我都不知道!
但我今天還在阿里巴巴,他果然還是Transformer,果然還是多模態(tài),我非常懊悔為什么當(dāng)時(shí)沒(méi)有催他去做,當(dāng)時(shí)我們的交流非常雞同鴨講,他給我講了一大堆東西,我完全聽(tīng)不懂。
我給他講,他也不知道我們?cè)谧鍪裁矗湾e(cuò)過(guò)了這個(gè)機(jī)會(huì)。這個(gè)機(jī)會(huì)有沒(méi)有可能再來(lái)一次?我們雖然是一群窮人,是不是窮則生變,創(chuàng)新的機(jī)會(huì)會(huì)不會(huì)發(fā)生在這里?
今天我們教育在變好,我屬于90年代靠前一些的,順雨屬于90年代靠后一點(diǎn)的,我們團(tuán)隊(duì)里面有很多00后,我感覺(jué)大家的冒險(xiǎn)精神變的越來(lái)越強(qiáng)。
美國(guó)人天然有非常強(qiáng)烈的冒險(xiǎn)精神,一個(gè)很典型的例子是當(dāng)時(shí)電動(dòng)車(chē)剛出來(lái),甚至天棚漏水的情況下,甚至開(kāi)車(chē)會(huì)意外身亡的情況下,依然會(huì)有很多富豪們都愿意去做這個(gè)事情。
今天大家的冒險(xiǎn)精神開(kāi)始變的更好,中國(guó)的營(yíng)商環(huán)境也在變的更好的情況下,我覺(jué)得是有可能帶來(lái)一些創(chuàng)新的。
概率沒(méi)那么大,但真的有可能。我覺(jué)得是20%吧,已經(jīng)非常樂(lè)觀了。
今天你干這一行就不能恐懼,必須得有非常強(qiáng)的心態(tài),對(duì)于我們的心態(tài)來(lái)說(shuō),能干這一行就非常不錯(cuò)了,能做大模型這件事情已經(jīng)非常幸運(yùn)了。
我覺(jué)得還是看你的初心是什么,剛才順雨提到一個(gè)點(diǎn),你的模型不一定那么強(qiáng)在C端里邊是OK的。我可能轉(zhuǎn)換成另外一個(gè)角度去思考這個(gè)問(wèn)題,我們的模型為人類(lèi)社會(huì)帶來(lái)了什么樣的價(jià)值,只要我相信我這個(gè)東西能夠?yàn)槿祟?lèi)社會(huì)帶來(lái)充分的價(jià)值,能夠幫助人類(lèi),就算不是最強(qiáng)的,我也愿意接受。
楊強(qiáng):我們可以回顧一下互聯(lián)網(wǎng)的發(fā)展,一開(kāi)始也是從美國(guó)開(kāi)始,但中國(guó)很快就趕上了,而且應(yīng)用像微信,是世界第一的。
我想AI是一個(gè)技術(shù),它并不是一個(gè)終端的產(chǎn)品,但我們中國(guó)有很多聰明才智會(huì)把這個(gè)產(chǎn)品發(fā)揮到極致,不管是toB還是toC,但我可能更看好toC,因?yàn)榘倩R放,中國(guó)人集思廣益,但toB可能會(huì)有一些限制,像付費(fèi)意愿、企業(yè)文化等也在改變。
我最近也在觀察商業(yè)方向跟商學(xué)院的一些同學(xué)探討,比方說(shuō)美國(guó)有一個(gè)公司叫Palantir,它的一個(gè)理念是不管AI現(xiàn)在發(fā)展到什么階段,我總是能在AI里面發(fā)現(xiàn)一些好的東西應(yīng)用在企業(yè)上,中間肯定有g(shù)ap,我們要給它彌合,它有一個(gè)辦法叫本體,用的是本體的方法。
我觀察了一下,大概的思想是我們之前做的遷移學(xué)習(xí),就是說(shuō)把一個(gè)通用的Solution能夠應(yīng)用到一個(gè)具體的實(shí)踐當(dāng)中,用一個(gè)本體來(lái)做知識(shí)的遷移,這個(gè)方法非常巧妙。當(dāng)然它是通過(guò)一種工程的方法,叫前端工程師FDE來(lái)解決的。
不管怎么樣,我覺(jué)得像這種就非常值得我們學(xué)習(xí),我覺(jué)得中國(guó)的企業(yè)像AI Native的公司應(yīng)該發(fā)展出這樣一些toB的Solution來(lái),我相信會(huì)的。所以我覺(jué)得toC肯定是百花齊放的,toB也會(huì)很快的跟上來(lái)。
唐杰:首先我覺(jué)得確實(shí)要承認(rèn)在中美,無(wú)論是做研究,尤其是企業(yè)界的AI Lab,我覺(jué)得和美國(guó)是有差距的,這是第一個(gè)。
但我覺(jué)得在未來(lái)中國(guó),現(xiàn)在慢慢變的越來(lái)越好,尤其是90后、00后這一代企業(yè),遠(yuǎn)遠(yuǎn)好過(guò)之前。有一次我在一個(gè)會(huì)上說(shuō)我們這一代最不幸運(yùn),上一代也在繼續(xù)工作,我們也在工作,所以我們還沒(méi)有出頭之日,很不幸的是下一代已經(jīng)出來(lái)了,世界已經(jīng)交給下一代了,已經(jīng)把我們這一代無(wú)縫跳過(guò)了。這是開(kāi)玩笑的。
中國(guó)也許的機(jī)會(huì):
第一,一群聰明人真的敢做特別冒險(xiǎn)的事
00后這一代,包括90后這一代是有的,包括俊旸、Kimi、順雨都非常愿意冒風(fēng)險(xiǎn)來(lái)做這樣的事情。
第二,咱們的環(huán)境可能更好一些
無(wú)論是國(guó)家的環(huán)境,比如說(shuō)大企業(yè)和小企業(yè)之間的競(jìng)爭(zhēng),創(chuàng)業(yè)企業(yè)之間的問(wèn)題,包括我們的營(yíng)商環(huán)境,像剛才俊旸說(shuō)的,我還在做交付,我覺(jué)得如果把這個(gè)環(huán)境建設(shè)的更好。
讓一群敢于冒險(xiǎn)的聰明人有更多的時(shí)間去做這樣創(chuàng)新的事情,比如說(shuō)讓俊旸有更多的時(shí)間做創(chuàng)新的事情,這是第二個(gè),也許是我們政府,包括我們國(guó)家可以幫忙改善的事情。
第三,回到我們每個(gè)人自己身上,就是我們能不能堅(jiān)持。
我們能不能愿意在一條路上敢做、敢冒險(xiǎn),而且環(huán)境還不錯(cuò)。
我覺(jué)得環(huán)境肯定不會(huì)是最好的,永遠(yuǎn)不會(huì)想著環(huán)境是最好的,我們恰恰是幸運(yùn),我們經(jīng)歷環(huán)境從原來(lái)沒(méi)那么好,到慢慢變得更好的一個(gè)時(shí)代。
我們是經(jīng)歷者,也許就是財(cái)富,包括經(jīng)歷收獲最多的人,如果我們笨笨的堅(jiān)持,也許走到最后的就是我們。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.