![]()
“我相信今年可能是AI for Science的一個爆發年,因為很多能力大大提升,我們可以做更多的事情。”在昨日舉行的AGI-Next前沿峰會上,清華大學教授、智譜首席科學家唐杰這樣說道。
據了解,該峰會由清華大學基礎模型北京重點實驗室發起,旨在探討全球AGI發展的新范式與面臨的挑戰。
活動還邀請了Kimi創始人、CEO楊植麟,阿里Qwen技術負責人林俊旸,加拿大皇家學院院士、香港科技大學榮休教授楊強,以及此前被騰訊高調官宣的CEO首席科學家姚順雨參與了報告和分享,中國“開源四杰”一次聚齊了三家。
“開源四杰”是DeepLearning.AI創始人、斯坦福大學兼職教授吳恩達給出的定義,他曾在社媒上表示,盡管美國在頂尖閉源模型上保持優勢,但在開源領域,中國的DeepSeek R1、Kimi K2、Qwen3和GLM-4.5等模型已經領先于美國最好的開源產品。
最近一段時間,中國大模型企業也在資本市場上動作不斷。就在本場峰會舉辦的前三天,智譜剛剛在港交所敲鐘上市。本周,智譜股價已上揚至158港元,市值來到700億港元。
而在幾周前,月之暗面方面宣布剛剛完成了一輪5億美元規模融資,投后估值來到43億美元。
“開源四杰”中未能在本次活動現身的DeepSeek,也在近期傳出將在今年2月中旬推出DeepSeek V4的傳聞,外媒報道稱其將具備更強的編碼能力。
2026剛剛開年,中國大模型圍場已經熱鬧起來。
01
“大模型應對GDP產生
5%-10%的影響”
在圓桌座談環節,姚順雨并未現身活動現場,而是遠程加入了這場關于AGI新范式的討論。
![]()
“對于ToC來說,大部分人不需要用到這么強的智能。今天用ChatGPT和去年相比,寫交換代數和伽羅瓦理論的能力變強了,但是大部分人基本感受不到。”在談及對模型路線分化的看法時,姚順雨表示,大模型在ToC和ToB,以及模型和應用分層兩個維度上,都發生了明顯的分化。
“AI Coding夸張一點來講,已經在重塑整個計算機行業做事的方式,人不再是寫代碼,而是用自然語言和電腦去交流。”在姚順雨看來,ToB行業正呈現一個模型分化趨勢,即大部分用戶其實更傾向于用最強的模型。“最好的模型是200美元/月,第二強或者差一些的模型是50美元/月、20美元/月。我們發現像很多美國人愿意溢價用最好的模型。”
在姚順雨看來,AI在ToC應用上的垂直整合已經看到效果,無論是ChatGPT還是豆包,模型和產品是強耦合、緊密迭代的,“但對于ToB而言,這個趨勢似乎是相反的,模型在變得越來越強、越來越好,但同樣會有很多應用層的東西,應用好的模型在不同的生產力環節。”
“這一仗從DeepSeek出來之后,已經結束了。”說起模型分化,唐杰坦言,DeepSeek在2025年初的橫空出世,已經終結了大模型排隊做對話和搜索的時代,讓他開始思考下一階段一定要“讓AI做一件事情”。他表示,在和團隊爭論很久后,才決定把重心放在Coding上。
而在談到當下RL(強化學習)正成為行業主流訓練方式時,尤其是RLVR(編者注:可驗證獎勵強化學習,一種在既定標準下的機器自主學習),姚順雨給出了他的觀察。
“現在自主學習是一個非常熱門的詞,在硅谷的大街小巷,甚至路邊的咖啡館里,大家都在談論。”談及模型自主學習的技術路線,姚順雨表示,自主學習會面臨“在什么場景下,基于什么獎勵函數做”的問題,比如掌握某一業務場景的代碼能力,和學習某一種自然科學,是完全不同的自主學習方法論。
“這個事情其實已經發生了。”姚順雨提到,OpenAI就在利用用戶數據不斷彌合人聊天的風格,Claude已經為自身這個項目完成了95%的代碼,這都可以算是一種自主學習。
在姚順雨看來,自主學習在過去一年中已出現清晰信號。他提到,Cursor團隊已在真實環境中,實現按小時級別用最新用戶數據持續學習與迭代,盡管受限于預訓練能力,整體效果仍不及OpenAI,但路徑的可行性已被證明。
“我對今年會有非常大的范式革新有信心,在持續學習、模型記憶能力,甚至多模態領域,都有可能出現新的范式變革。”在唐杰的表述中,這份信心來源于在大模型研發領域,學術界正在跟上工業界的腳步。
“兩年前,一些高校老師手上都沒有卡(算力),如今很多高校都有了算力配置,也開始進行大模型架構、持續學習的相關研究。”在唐杰看來,學術界已經加速鋪開AI研究的土壤,有望孵化出新的創新種子。
“一個創新的出現,一定是某個事情有大量的投入,并且它的Efficiency(這里指模型訓練的投入產出比)到了瓶頸。”唐杰進一步解釋這一觀點。他表示,如果AI行業繼續Scaling,盡管這樣做仍會有收益,但當成本到達某一個數量級,就需要訓練范式的創新。
“一方面既然要Scaling up,Scaling肯定會帶來智能上界的提升;但同時應該定義Intelligence Efficiency,即智能的效率,用更少的投入獲得智能的增量。”唐杰這樣總結他對未來模型訓練范式的觀察。
另一邊,作為Agent領域的知名研究學者,姚順雨也分享了他對Agent迭代的前瞻。
“目前看來,ToB或者說生產力Agent才剛剛開始。”姚順雨表示,即使今天開始,世界上所有的模型訓練全部停止,但是把這些模型部署到企業中,已經能帶來10倍甚至100倍的收益。“大模型應對GDP產生5%-10%的影響,但是今天它對GDP的影響還不到1%。”
而在唐杰看來,判斷一個Agent的功能邏輯是否成立,首先要看它是否真正解決了對人有價值的問題。早期不少Agent看似復雜,但最終發現通過更好的Prompt或基礎能力即可完成,獨立Agent的存在價值隨之消失。
“基座的應用永遠是矛盾。”唐杰表示,如果實現成本過高,而調用現成API就能解決,Agent的合理性就會被削弱;但一旦需求價值足夠大,基座模型又可能把能力直接吸收進來。
對于Agent的演進,加拿大皇家學院院士、香港科技大學榮休教授楊強將其劃分為四個階段:從目標與規劃均由人定義,到逐步由模型參與,再到完全由大模型內生完成。他指出,當前階段的Agent仍高度依賴人工設定,本質是工具化系統;真正的拐點在于模型開始觀察人類工作并利用真實數據,進而自主生成目標與行動路徑。
對于Agent的未來,楊強給出了他的定義:“Agent應該是由大模型內生的一個native系統。”
“很多時候不是說人類替代了人類工作,而是會使用這些工具的人,在替代那些不會使用工具的人。”姚順雨的另一個觀察,來自AI時代大眾對大模型認知的參差。
“今天中國能做到一個很有意義的事情,是更好的教育,教育大家怎么更好地使用大模型產品。”姚順雨如是說道。
02
Scaling仍在繼續,
但訓練范式在變
“今年是RLVR(可驗證獎勵強化學習)爆發年。”談及Scaling模式的進化,唐杰表示,在RLVR爆發之前,行業內只能通過人類反饋數據來做,但人類反饋的數據中“噪音”也非常多,而且場景也非常單一。“但如果我們有一個可驗證的環境,就可以讓機器自己去探索、去發現反饋數據,實現自我成長。”
![]()
唐杰所說的RLVR,是指在推理訓練中,只對模型最終是否完成目標給反饋,而不評判表達方式或推理風格。系統會依據預設規則自動判斷結果:如數學是否得到唯一正確解、代碼是否通過測試。模型在多次嘗試中,僅當結果被驗證成功時才獲得獎勵,失敗則不獎勵,從而調整其推理策略。
RLVR的反饋可自動生成、標準一致,因此同一套推理任務可以被反復、大規模(scaling)用于訓練。
“大家可能會問,是不是智能越來越強,我們直接把模型不停地訓就行了?”在報告環節,唐杰拋出了這樣一個問題。他表示,2025年初,DeepSeek的橫空出世給了業內很多“震撼”,標志著大模型已經基本解決了Chat(對話)和搜索部分,“這個范式可能基本上快到頭了,剩下更多的反而是工程和技術上的問題。”
“今天(行業內)訓練的范式發生了很大變化。過往我們不管做什么事情,都會由人工將輸入和輸出標注出來。”在發言中,阿里Qwen大模型負責人林俊旸同樣提及了模型的訓練范式。他表示,早期訓模型時,只要有標注的數據,有“輸入”和“輸出”就可以進行訓練,“現在則是要把更多的數據,放到實驗中去訓練。”
林俊旸以xAI為例進一步解釋了這一觀點。xAI團隊此前在直播中透露,Grok 4在RL(強化學習)階段投入的算力,是市面上其他任何模型的10倍以上。
“如此大規模的RL的數據,我雖然覺得他們有點浪費,但另一方面也意味著RL有很多的想象空間。”林俊旸說道。
![]()
“我們發現可能基于MUON二階優化器,它的效果會非常好,體現在它有兩倍的Token Efficiency的提升。”在月之暗面CEO楊植麟的分享中,他反復提到Token Efficiency這個概念,“你的Token Efficiency越高,意味著你可以用盡可能少的Token得到一樣的效果。”
楊植麟提到的Muon,是一種用于大模型訓練的優化器。在訓練過程中,模型會不斷計算預測結果與正確答案之間的誤差,優化器的任務就是根據這個誤差,計算參數該如何更新。優化器不決定模型上限,但會直接影響訓練所需的Token數量和算力成本。
“我認為基于先驗實現AGI,可能會更早發生。”總結個人觀察時,楊植麟表示,Agent訓練本質是一個搜索問題:在大量可能的行動與推理路徑中,找到有效解。更強的基礎模型和預訓練,相當于提供更好的先驗(Prior,已有知識與約束),能提前排除大量無意義或錯誤的嘗試,從而減少搜索空間、提升Token Efficiency。
![]()
“什么是Agent最基礎的能力?是編程,(任何)計算機完成編程動作,就可以執行。”唐杰這樣解構Agent的技術邏輯。他在現場舉例說明,不管是Claude的Computer Use,還是幾周前剛剛發布的豆包手機助手,抑或是名聲大噪的Manus,“異步”執行都是一個關鍵屬性。
“幫我搜集一下,今天關于清華大學在小紅書上所有的討論,然后將關于某某的全部整理出來,生成相關的文檔。”唐杰舉例說明,像這樣一個任務,往往要經歷幾十步,甚至上百步流程。AI必須在后臺自動運行、持續判斷與執行。換言之,大模型在Agent和Coding上的能力,將是一個映射在Device Use(設備端側使用)上的命題。
在總結環節,唐杰進一步闡釋了他的理念,“在我看來計算機有三個能力:第一,計算機的表示和計算;第二,編程;第三,本質上是搜索。”他認為,正是這三種能力的疊加,使計算機具備了走向“超級智能”的潛力。
回到訓練層面上,唐杰坦言,他認為Scaling仍將繼續,但重點正在發生變化,“已知的是我們不斷加數據、不斷探索上限。還有Scaling未知,就是我們不知道的新的范式是什么。”
03
做大模型要敢于冒險,
走出榜單的束縛
展望下一個AGI的范式和行業未來,唐杰毫不掩飾作為AI研究學者的審視態度:“我們做了一些開源的成功,可能有些人會覺得很興奮,覺得中國的大模型好像已經超過美國了,但可能真正的答案是,我們的差距目前并未縮小。”
正視挑戰和差距的同時,唐杰也分享了他眼中的國產模型發展方向。在他看來,2025年只是多模態適應的適應期。未來關鍵在于,模型能否像人類一樣,把視覺、聲音、觸覺等信息統一整合,形成原生、多源協同的整體感知能力,這是多模態能力躍遷的核心難題。
唐杰進一步指出,大模型在記憶、持續學習與自我認知上仍明顯不足。當前模型缺乏分層記憶結構,如何把個人記憶擴展為可長期保存的人類集體知識,并在此基礎上探索反思與自我認知能力,將是下一階段最具挑戰、也最值得投入的方向。
“目前的模型已經有一定的反思能力,但如何形成自我認知還是很難的問題。”唐杰表示,對于大模型是否能有自我認知,在基礎模型研究領域一直都存在爭議,“我覺得模型的自我認識是有可能的,這個領域值得我們探索。”
“在國內,大家對于刷榜或者數字看得更重一些。”在對話中,姚順雨對當下的AI研究文化也給出了個人視角的觀察。他以DeepSeek為例闡述這一觀點:“他們(DeepSeek)就沒有那么關注榜單的數字,反而會更注重:第一,什么是正確的事情;第二,什么是你自己能體驗出好或者不好的。”
![]()
他進一步舉例,Claude可能在編程或者軟件工程的榜單上并非排名最高,但卻獲得了業內公認的好評。“這需要大家能夠走出榜單的束縛,在體驗上去感受是不是正確的過程。”
“我們到底能不能引領新的范式,這可能是今天中國AI產業唯一要解決的問題。”姚順雨坦言,“其他所有做的事情,無論是商業、產業設計還是做工程,我們某種程度上已經比美國做得更好。”
“我還是挺樂觀的。”這位1998年出生的AI頂尖學者表示,任何一個新業態一旦被發現,在中國就能夠很快復現,甚至局部做得更好,“在制造業、新能源車領域,這樣的例子已經不斷發生。”
在唐杰看來,中國AI產業的機會,在于聰明且敢冒險的年輕人,在于持續改善的營商環境;而在產業中的每個人身上,“就是我們能不能堅持,能不能在一條路上敢做、敢冒險。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.