![]()
Yoky| yokyliu@pingwest.com
周華香 |zhouhuaxiang@pingwest.com
月之暗面的CEO楊植麟問智譜CEO張鵬:
你們最近模型怎么做的,最近怎么漲價了?
這不是什么狗血模型公司商戰的情節,而是中關村論壇上剛剛結束的一場論壇里的對話。
3月27日,中關村論壇最受關注的一場圓桌論壇,月之暗面創始人楊植麟少有的沒有擔任分享嘉賓,而是作為主持人,和無問芯穹聯合創始人兼CEO夏立雪、智譜華章CEO張鵬、小米MiMo大模型負責人羅福莉及香港大學助理教授黃超一起討論了今天開源最重要的話題。
一些核心的信息和觀察包括:
1. Token量爆發式增長帶來的算力結構變革
由OpenClaw帶動的算力結構變革,無問芯穹分享:從一月底開始,Token調用量每兩周翻一倍,到現在已增長十倍。夏立雪形容:“上一次看到這種增長速度,還是3G時代手機流量快速普及的時候。”
2. OpenClaw拉高了中國開源模型能力的上限
羅福莉認為,OpenClaw的核心價值不僅是改變交互形態,更是把國內那些尚未完全逼近閉源模型、但已位于開源模型賽道前列的模型,上限顯著拉高:讓稍弱一點的模型也能達到Claude Code的水平。
3. 基礎設施應該“智能體化”
夏立雪提出,未來基礎設施本身也應該是一個智能體:能自我進化、自我迭代,形成自主組織。它應該有一個「CEO」是一個Agent,能根據AI客戶的需求,自主迭代基礎設施。
4. 楊植麟Sharp提問張鵬為何漲價?
作為主持人的楊植麟變得更Sharp。他問張鵬兩個問題:GLM最新的迭代思路是什么?你們最近為什么漲價?直接切入商業和技術核心。張鵬講道復雜任務的Token消耗是簡單問答的十倍甚至百倍,漲價是回歸正常商業價值的必然。
5.小米的模型是怎么做的?
楊植麟問小米怎么做模型?羅福莉雖未正面回答,但透露了技術路線:最近的 Hybrid Sparse、Linear Attention 結構:DSSA;Kimi 有 KDA,小米的下一代架構叫 Highest Bus。這是面向 Agent 時代的新探索。
6. 超長Context是模型自迭代的前提
超長Context是模型“越用越好用”的前提。但推理成本和速度是瓶頸。只有達到10M/100M Context,才能實現真正的模型自迭代:模型在復雜環境中依靠超強Context完成自我進化。
7. Harness將作為Agent的關鍵設計
Harness(以及Skills體系)被認為是緩解Planning錯誤、提升任務完成度的關鍵設計。從模型層面的Long Context,到Harness層面的Memory/Harness,是讓特定模型支持更復雜任務的兩個互補方向。
8、Agent釋放了Chatbot沒有發揮預訓練模型的上限
原來的 Chatbot 沒有把模型預訓練的能力釋放出來,直到 Agent 框架出現。現在通過外部工具的協調,包括任務拆解與驗證機制的引入、多工具鏈的靈活組裝、以及面向長時間任務的持續迭代閉環。模型正在從單純的內容生成,邁向能夠自主創造新事物的能力躍遷。
9、現在Skills太亂了,質量不夠,需要開源社區解決
現在 Skills 確實很多,但高質量的很少。低質量 Skills 會嚴重影響任務完成度,還存在惡意注入等安全問題。這需要靠整個社區一起解決:如何把 Skills 發展得更好,甚至讓 Agent 在執行過程中能自主進化出新的 Skills。
10、Agent原生軟件交互:從GUI到CLI
整個生態從GUI、MCP又轉到了CLI模式。未來大部分軟件不一定面向人類,人類需要GUI,但軟件和生態可能更多面向Agent原生去使用。
以下是圓桌對話實錄:
楊植麟: 很榮幸今天能邀請到各位重磅嘉賓。大家覆蓋了不同層面:從模型層,到底層算力層,再到更上層的 Agent 層。今天也非常高興能和大家一起探討這個話題。我們今天最核心的兩個關鍵詞,一個是“開源”,一個是“Agent”。
我們先從第一個問題開始,這個問題想請每位嘉賓都談一談。最近最火的無疑是 OpenClaw。大家在日常使用 OpenClaw 或類似產品時,覺得最有想象力、最讓你印象深刻的地方是什么?另外,從技術角度來看,你們如何看待今天 OpenClaw 以及相關 Agent 的演進?我們先從張鵬開始。
張鵬: 好。先感謝植麟的邀請,也感謝主辦方給我這個機會,和大家一起交流。其實我很早就開始玩 OpenClaw 了。那時候它還不叫 OpenClaw,最早叫 Clawdbot。我自己一直在折騰這些東西,畢竟也是程序員出身,所以對這類產品一直有比較直接的體驗。
![]()
我覺得,這件事給大家帶來的最大突破,或者說最大的“新鮮感”,在于它不再只是程序員或者極客的專屬工具了。普通人也可以比較方便地使用頂尖模型的能力,尤其是在編程和智能體相關的能力上。
所以到現在為止,我在和大家交流時,更愿意把 OpenClaw 稱作一種“腳手架”。它提供的是一種可能性:在模型能力之上,搭起了一個足夠穩固、足夠方便、同時又足夠靈活的腳手架。大家可以按照自己的意愿,去調用底層模型提供的各種新能力。很多過去受限于“不會寫代碼”或“缺乏其他專業技能”而無法實現的想法,今天只需要通過很簡單的交流,就有機會把它真正做出來。對我來說,這件事的沖擊非常大,也讓我重新認識了這類產品的意義。
夏立雪: 其實我最開始使用 OpenClaw 的時候,并不太適應。因為我已經習慣了和大模型對話式交互的方式,所以一開始會覺得它的響應有點慢。
但后來我意識到,它和過去聊天機器人最大的不同在于:它不是一個只負責“聊天”的東西,而更像是一個能夠幫我完成大型任務的人。所以,當我后來開始給它布置一些更復雜的任務時,我才真正發現,它其實可以完成得很好。
這件事讓我感觸很深。模型從最開始按 Token 進行對話,到今天變成一個 Agent,變成一個“龍蝦”,真正開始幫你完成任務,這極大拓展了我們對 AI 的想象空間。但與此同時,它對整個系統能力的要求也顯著提高了。這也是為什么我一開始會覺得它“有點卡”。
作為基礎設施底層的廠商,我看到的是,OpenClaw 給整個 AI 背后的大型系統和生態都帶來了更多機遇和挑戰。因為我們今天所有可調用的資源,想要支撐這樣一個快速增長的時代,其實還是不夠的。就拿我們公司來說,從一月底開始,我們的 Token 量基本上每兩周就翻一倍,到現在已經增長了十倍。上一次看到這種增長速度,還是 3G 時代手機流量快速普及的時候。
所以我現在有一種很強烈的感覺:今天的 Token 用量,就像當年大家每個月只有 100MB 手機流量時的那個階段。這就是時代變化的一個信號。在這樣的背景下,我們的資源一定要被更好地優化、更好地整合,才能讓每一個人——不只是 AI 行業里的人,而是整個社會中每一個鮮活的個體——都真正把 AI 能力用起來。
所以,作為基礎設施領域的從業者,我對這個時代非常激動,也非常有感觸。我認為這里面還有大量優化空間,但我們依然應該持續探索、持續嘗試。謝謝。
羅福莉: 我自己會把 OpenClaw 看作 Agent 框架層面一個非常革命性、也非常顛覆性的事件。雖然我知道,我身邊很多做深度 Coding 的人,第一選擇可能仍然是 Claude Code,但我相信,只要真正用過 OpenClaw,你就會很明確地感受到,這個框架在很多設計上其實是領先的。包括最近 Claude Code 的不少更新,在我看來,某種程度上也是在向 OpenClaw 靠近。
![]()
就我自己的使用體驗來說,這個框架給我帶來的,更多是一種“隨時隨地擴展想象力”的可能。最開始,我只能在桌面端延展自己的創意;但后來我發現,OpenClaw 真正的價值在于,它讓你可以在更多場景里持續推進自己的想法。
我覺得 OpenClaw 最核心的價值主要有兩點。第一,它是開源的。開源非常有利于整個社區深入參與、持續改進,并且不斷投入到這個框架之中。第二,像 OpenClaw、Claude Code 這樣的框架,本身就是一個非常重要的前置條件。我認為,它們很大的價值在于,把國內那些還沒有完全逼近閉源模型、但已經位于開源模型賽道前列的模型,上限顯著拉高了。
在絕大多數場景里,我們會發現,它的任務完成度已經非常接近 Claude 最新的模型;同時,它又把下限保障得很好。因為它可以依靠一整套 harness 系統、skills 體系,以及很多初步但有效的設計,來保證任務完成度和準確率。
所以,從基座模型的角度來看,我認為這類框架一方面保證了基座大模型的下限,另一方面又拉伸了它的上限。除此之外,我覺得它給整個社區帶來的另一個重要價值,是點燃了大家對于 Agent 層的想象力。大家開始意識到,在大模型之外、也就是更重要的 Agent 這一層,其實還有非常大的空間可以做。
這也是為什么最近社區里,除了研究員之外,越來越多的人開始參與到這場 AGI 變革中。也有越來越多的人,開始借助更強的框架,比如 harness、scaffold 等等,在一定程度上替代自己的工作、釋放自己的時間,去做更有想象力的事情。
黃超: 我感覺,從交互模式上來看,OpenClaw 這次之所以會爆火,首先是因為它給了大家一種更強的“活人感”。我們其實做這類事情也有一兩年了,但之前像 Cursor、Claude Code 這類 Agent,給人的感覺更多還是“工具感”。
而這一次,我們看到它通過 IM 軟件嵌入的交互方式,讓大家更容易產生一種“這是一個個人 AI”的感覺,也更接近大家想象中的 Jarvis 那樣的概念。我覺得,這是它在交互模式上帶來的一個非常重要的變化。
另外,它帶給大家的另一個啟發,是它的架構本身。像 agent loop 這樣一種非常簡單、但又非常高效的框架,再一次被證明是成立的。
同時,它也讓我們重新思考:我們到底需要的是一個 all-in-one、非常強大的智能體,替我們做很多事;還是需要一個更輕量級、像操作系統或腳手架一樣的小管家?
我覺得它帶來的是另一種可能:通過一個像 OpenClaw 這樣的輕量級“龍蝦操作系統”生態,把整個社區真正調動起來,撬動生態里的各種工具。隨著 skills、harness 這些組件越來越豐富,也會有越來越多的人開始設計更適用于 OpenClaw 這類系統的應用,并進一步賦能各行各業。
黃超: 所以我覺得,它天然就和開源生態結合得非常緊密。這兩點,是它給我帶來的最大啟發。
楊植麟: 順著剛才大家一直在討論 OpenClaw,我也想接著問張鵬一個問題。我們看到最近智譜發布了新的 GLM-5-Turbo 模型。我理解,這個模型在相關能力上也做了很大的增強。能不能請你給大家介紹一下,這個新模型和其他模型相比,有哪些不同之處?另外,我們也觀察到,你們最近有一個提價策略。這個策略反映了怎樣的市場信號?
張鵬: 前兩天我們確實緊急更新了一版。當然,這其實是我們整個發展目標中的一個階段,只是把它提前拿出來了。
這次更新最主要的目標,還是從原來“簡單對話”的能力,進一步走向“真正干活”的能力。剛才各位提到的一點我非常贊同:OpenClaw 讓大家第一次明確感受到,大模型不再只是會聊天,而是真的能幫我做事。
但“干活”這件事背后,對模型能力的要求其實非常高。它需要自己進行長程任務規劃,不斷嘗試、不斷壓縮上下文、不斷 debug,甚至還可能涉及多模態信息處理。
所以,這對模型本身的能力要求,和傳統面向對話機器人的通用模型其實是不一樣的。GLM-5-Turbo 就是在這些方面做了針對性的強化。尤其像剛才提到的這種長程任務——比如讓它連續工作 72 個小時,能夠持續不斷地自行 loop 執行——我們在這方面做了很多工作。大家剛才也提到了 Token 消耗量的問題……
前兩天,我們確實緊急更新了一版模型。當然,這其實是我們整個發展目標中的一個階段,只是把它提前拿出來了。
這次更新最主要的目標,還是讓模型從原來的“簡單對話”能力,進一步走向“真正干活”的能力。剛才各位提到的一點我非常贊同:OpenClaw 讓大家第一次明確感受到,大模型不再只是會聊天,而是真的能夠幫人做事。
但“干活”這件事背后,對模型能力的要求其實非常高。它需要自己進行長程任務規劃,不斷嘗試、不斷壓縮上下文、不斷調試,甚至還可能涉及多模態信息處理。所以,這對模型本身能力的要求,和傳統面向對話機器人的通用模型并不完全一樣。GLM-5-Turbo 就是在這些方面做了針對性的強化。尤其是剛才提到的長程任務,比如讓模型連續工作 72 個小時,并且能夠持續自主地 loop 執行,我們在這方面做了很多工作。
大家剛才也提到了 Token 消耗量的問題。讓一個更聰明的模型去執行更復雜的任務,資源消耗其實是非常巨大的。普通用戶未必能直觀感受到這一點,但最終一定會體現在賬單上。所以,我們也針對這方面做了一些優化,讓模型在面對復雜任務時,能夠以更高的效率完成執行。這是這次優化的幾個重點方向。
但從本質上來說,它的模型架構仍然是一種多任務協同的通用模型架構,只是在能力側做了更有針對性的增強。至于提價,這件事也比較容易解釋。因為現在已經不是簡單地問一個問題、模型給出一個回答了。它背后的思考和推理鏈路會變得很長,還會通過寫代碼的方式與底層基礎設施交互,不斷調試,并隨時修正自己的錯誤。
這意味著整體消耗量會非常大。完成一個任務所需要的 Token 量,可能是回答一個簡單問題時的十倍,甚至百倍。因此,價格上相應做一些調整,本質上是成本變化的自然結果。模型更大了,能力更強了,對應的服務成本也提高了,所以我們希望把它逐步拉回到一個正常的商業價值區間。
因為長期依賴低價競爭,其實并不利于整個行業的發展。這也是我們的一個重要考量。我們希望通過這樣的方式,在商業化路徑上形成一個更健康的閉環,持續優化模型能力,并更長期、穩定地為大家提供更好的模型和相應的 Token 服務。
楊植麟: 非常好的分享。其實現在開源模型和推理算力正在逐漸形成一個新的生態。各種各樣的開源模型,可以部署在不同的推理算力平臺上,為用戶提供更多價值。隨著 Token 量的爆發,整個行業也可能正在從訓練時代逐步走向推理時代。所以我想請教一下立雪,從基礎設施層面來看,這個推理時代對無問芯穹意味著什么?
夏立雪: 感謝植麟。確實,因為我們是一家誕生于 AI 時代的基礎設施廠商,現在也在為 Kimi、智譜等公司提供服務,也在和 MiniMax 等團隊合作,幫助大家把我們這樣的“Token 工廠”更高效地用起來。同時,我們也在和很多高校、科研院所合作。
所以,我們其實一直都在思考一件事:AGI 時代所需要的基礎設施,到底應該是什么樣子。以及,我們應該怎樣一步一步在這個過程中去實現它、推演它。對這件事,我們已經做了比較充分的準備,也看到了短期、中期和長期幾個不同階段需要解決的問題。
當前最現實、最緊迫的問題,其實就是剛才大家聊到的:像 OpenClaw 這類 Agent 產品帶動了整個 Token 需求的暴增,而這種暴增對系統效率提出了更高要求。從某種意義上說,價格上漲也是在這種需求壓力之下形成的一種應對方式。
我們一直以來都是從軟硬件協同的角度去做布局和解決方案設計。包括我們接入了幾乎所有能看到的主流計算芯片,把國內十幾種芯片、幾十個不同的算力集群統一連接起來。這樣,我們就能夠更好地解決 AI 系統中算力資源緊缺的問題。因為在資源不足的時候,最好的辦法,第一是把所有可用資源都盡可能用起來;第二是讓每一份算力都真正用在刀刃上,讓每一份資源都發揮出最大的轉化效率和價值。
所以,在當下這個階段,我們要解決的核心問題,就是如何進一步打造一個更高效的 Token 工廠。圍繞這一點,我們做了很多優化。比如,讓模型與硬件、顯存等各類資源實現最優適配;也在持續觀察,最新的模型結構與硬件結構之間,是否還能形成更深層次的“化學反應”。
但如果只解決眼前的效率問題,其實還不夠。我們現在做的,本質上還是一個標準化的 Token 工廠;可面向 Agent 時代,我們認為這遠遠不夠。因為正如剛才大家所說,Agent 更像是一個“人”,我們可以直接把任務交給它去完成。
而我一直非常堅定地認為,當前很多云計算時代的基礎設施,本質上還是為程序和人類工程師設計的,而不是為 AI 設計的。它更像是:我們先做出一套基礎設施,再提供一個給人類工程師使用的接口,然后再在外面包一層,接入 Agent。這種方式,其實是在用人類操作系統的邏輯,限制 Agent 的發揮空間。
我舉個例子。Agent 可以在秒級甚至毫秒級完成思考并發起任務,但我們過去很多底層 API 和系統能力,其實并沒有為這種調用頻率做好準備。因為對人類來說,發起一個任務通常是分鐘級別的,而不是毫秒級的。所以,我們需要新的能力來適配這種變化。我們把它理解為一種面向 Agent 的基礎設施,也就是要打造一個更智能化的調度引擎。這正是我們現在在做的事情。
再往更長遠的未來看,當真正的 AGI 時代到來時,我們甚至認為,連基礎設施本身都應該是一個智能體。也就是說,我們正在打造的這套工廠,本身也應該具備自我進化、自我迭代的能力,能夠形成一個自主運轉的組織。可以把它理解為:這個系統內部甚至會有一個“CEO”,而這個 CEO 本身也是一個 Agent。它會負責管理整個基礎設施,并根據 AI 客戶的需求,自主提出需求、迭代能力、優化系統。
只有這樣,AI 與基礎設施之間才能形成更好的耦合。我們也在做一些相關探索,比如讓 Agent 與 Agent 之間可以更高效地通信,實現 cache-to-cache 這類能力。我們一直在思考,基礎設施的發展不應該是一個割裂的過程,不應該只是“我接收一個需求,再去機械執行”,而應該不斷產生更豐富的化學反應。
我認為,只有做到這一點,才真正實現了所謂的軟硬協同,也真正實現了算法與基礎設施的協同。這也是我一直想去完成的一件事。謝謝。
楊植麟: 接下來想問問福莉。小米最近發布了新的模型,也在持續推進開源和背后的相關技術,我覺得這對整個社區做出了很大的貢獻。所以也想請你談談,你覺得小米在做大模型這件事上,有什么獨特的優勢?
羅福莉: 我想先把“小米做大模型有什么獨特優勢”這個問題放一放。我更想談的,其實是中國大模型團隊在做基座模型這件事上的整體優勢,因為我覺得這個話題更有普遍價值。
大概從兩年前開始,我就已經看到,中國的基座模型團隊在這個方向上出現了非常重要的突破。這個突破在于:在有限算力,尤其是在 NVLink 互聯帶寬受限的情況下,我們如何突破這些硬件條件帶來的限制,去做一些看起來像是在為效率妥協、但本質上卻是模型結構創新的工作。比如 DeepSeek V2、V3 系列中的細粒度 MoE 和 MLA 等。后來我們看到,這類創新其實帶來了一場真正的變化。
這個變化在于:當算力預算相對固定的時候,我們如何把同樣一份算力所能達到的智能水平推到最高。我覺得,DeepSeek 的出現,給了國內所有基座模型團隊很大的勇氣和信心。雖然到了今天,我們自己的國產芯片,無論是推理芯片還是訓練芯片,都已經在不斷進步,但正是在此前那種受限環境下,反而逼出了我們對“更高訓練效率、更低推理成本”的全新探索。
比如最近出現的 hybrid sparse、linear attention 等結構方向。包括 DeepSeek 的相關探索,Kimi 的相關方案,以及小米面向下一代模型結構所做的一些研究。它們都指向同一個問題:當我們進入 Agent 時代之后,模型結構到底應該如何進一步演化。
我為什么認為結構創新如此重要?因為剛才我們一直在討論 OpenClaw。只要你真正用過 OpenClaw,就會發現它往往是“越用越好用,越用越聰明”。而它成立的一個前提,就是推理階段必須擁有足夠長的 context。Long context 其實已經是一個被討論了很久的話題,但直到今天,大家才真正開始意識到:不是模型做不到百萬級甚至千萬級上下文,而是如果推理成本太高、速度太慢,這件事就沒有現實價值。
所以,真正關鍵的問題是:你能不能在 100 萬甚至 1000 萬級 context 的情況下,把推理成本打下來,把速度提上去。只有在這種前提下,用戶才會愿意把真正具有高生產力價值的任務交給模型,模型也才有機會在長上下文環境中完成更高復雜度的任務。甚至可以說,只有到了 1000 萬級、上億級上下文的階段,我們才可能真正看到模型的自我迭代能力被釋放出來。
所謂模型的自我迭代,就是它能夠在一個復雜環境里,依靠超強的上下文能力,完成對自身的持續進化。這個進化既可能發生在框架層,也可能發生在模型參數層。因為在我看來,長上下文本身其實就是對參數能力的一種外延和增強。
所以,未來真正的競爭會是一個全方位的競爭:一方面,你能不能做出原生適配長上下文的模型架構;另一方面,你能不能在推理側真正把 long-context efficiency 做出來。除此之外,還包括你能否在預訓練階段就把這類架構打牢,以及在后訓練階段,能不能把模型在真實長程任務上的穩定性和能力上限繼續往上推。
我們現在也在思考,怎樣構造更有效的學習算法;怎樣采集在 100 萬、1000 萬、甚至更長上下文里,真正具有長期依賴關系的文本;以及怎樣結合復雜環境,生成高質量的軌跡數據。這些,都是我們正在持續推進的事情。
但我能看到的更長期趨勢是:隨著大模型本身在飛速進步,再疊加 Agent 框架的加持,推理需求一定會繼續迅速增長。就像剛才立雪提到的,過去一段時間里,Token 需求已經增長了接近十倍。那么今年,整個 Token 需求會不會增長到一百倍?這其實已經把競爭帶到了另一個維度:不僅是模型之間的競爭,也是算力、推理芯片,甚至能源層面的競爭。
所以,如果大家繼續深入思考這個問題,我相信我也會從各位身上學到更多。
楊植麟: 對,非常有 insight 的分享。下面想問一下黃超。你也開發了一些非常有影響力的 Agent 項目,包括像 nanobrowser 這樣的項目,在社區里也積累了很多用戶和粉絲。想請你談談,從技術或者應用層面來看,接下來有哪些值得重點關注的方向?
黃超: 感謝植麟。我覺得,如果把 Agent 技術抽象出來,核心大致有幾個模塊:planning、memory 和 tool use。
先說 planning。我覺得現在最大的問題,仍然出現在長程任務和復雜上下文上。比如一個任務可能需要 500 步,甚至更多步驟,很多模型未必能夠做好規劃。我認為,本質上還是因為模型不具備足夠的隱性知識。尤其是在很多復雜的垂直領域,這個問題會更加突出。未來一個很重要的方向,是把已有的復雜任務知識更系統地固化到模型中。
當然,從 skills 的角度來看,包括 harness 在內的很多機制,本質上也是在緩解 planning 過程中帶來的錯誤。因為高質量的 skill,其實就是在幫助模型完成一些本來較難的任務。這是 planning 這一部分。
再說 memory。我的感受是,memory 始終會面臨一些根本性問題,比如信息壓縮不準確、表達失真等。隨著長程任務和復雜場景越來越多,memory 的需求也會迅速膨脹,這本身就會給整個系統帶來很大壓力。
但現在,包括各種“龍蝦”在內,很多系統采用的 memory 方案其實都還比較簡單,例如基于文件系統、Markdown 文件,或者通過共享文件的方式來管理 memory。我覺得未來的 memory 很可能會走向分層設計,同時也要想辦法讓它更加通用。因為說實話,當前的 memory 機制其實很難做到真正的通用。比如 coding 場景、deep research 場景、多模態場景,它們的數據模態差異都非常大。如何針對這些不同類型的 memory 做更好的檢索和索引,并進一步提高效率,我覺得這會一直是一個關鍵方向。
另外一點是,OpenClaw 這類系統把創建 Agent 的門檻大幅降低之后,未來可能不會只有一個 Agent。比如我們已經看到,Kimi 也在嘗試 Agent Swarm 這樣的機制。也就是說,未來每個人可能擁有的不是一個“龍蝦”,而是一群“龍蝦”。
而一群 Agent 所帶來的上下文規模,相比單個 Agent 會大得多。這也會進一步加大 memory 的壓力。現在其實還沒有一套特別成熟的機制,去管理這種多 Agent 帶來的海量上下文。尤其是在復雜 coding、科研發現這類任務中,不管是對模型本身,還是對整個 Agent 架構,壓力都會很大。
最后是 tool use。我覺得在這一塊,現在整個 skill 生態仍然存在不少問題。MCP 當年暴露出來的一些問題,其實在今天依然存在,比如質量缺乏保障,以及潛在的安全風險。現在雖然 skill 很多,但高質量的 skill 其實仍然偏少。低質量的 skill 會顯著影響 Agent 完成任務的效果;與此同時,skill 本身也可能存在惡意注入等問題。
所以在這一塊,我覺得很大程度上還是需要依靠整個社區,一起把 skill 生態建設得更好。甚至進一步思考,怎樣讓系統在執行過程中演化出新的 skill。總的來說,我覺得無論是 planning、memory,還是 skill,都是當前一線最現實的痛點,也都是未來非常重要的演進方向。
![]()
楊植麟: 可以看到,剛才兩位嘉賓其實是從不同視角討論了同一個問題。隨著任務復雜度不斷提升,上下文規模也會迅速膨脹。一方面,模型層面可以繼續提升原生上下文長度;另一方面,在 Agent 和 harness 層面,像剛才提到的 planning、memory 以及各類輔助機制,也能夠幫助模型在既有能力邊界內支撐更復雜的任務。我覺得這兩個方向接下來會進一步產生化學反應,從而提升系統完成復雜任務的能力。
最后,我們做一個開放式展望。想請各位用一個詞,來描述接下來 12 個月大模型發展的趨勢,以及你們的期待。
黃超: 那這次先從我開始。說實話,在 AI 領域,12 個月聽起來都已經很遙遠了,甚至很難判斷 12 個月之后會發展成什么樣。但如果一定要用一個詞來概括,我會選“生態”。
我覺得現在 OpenClaw 讓整個社區非常活躍,這是一個很好的開始。但未來 Agent 真正重要的,不只是成為個人助手,而是要進一步轉化為真正能一起工作的“打工人”,或者說 coworker。現在很多人使用它,可能更多還是出于新鮮感,或者覺得好玩。但未來,只有當這些“龍蝦”真正沉淀下來,成為大家穩定的生產工具、協作伙伴,這件事才算真正跑通。
而這件事離不開生態的共同建設。開源在這里面非常重要。因為只有把相關的技術探索、模型能力、工具能力持續開放出來,整個生態才可能共同推進。無論是模型本身的迭代,還是 skills 平臺的演進,或者各種工具鏈的完善,我覺得都需要圍繞 Agent 去建立一個更好的生態。
從我自己的觀察來看,未來一個很明顯的問題是:軟件到底還是不是主要給人用的?我覺得未必。未來很多軟件可能不再以人類為中心,因為人類需要 GUI,但很多系統可能會越來越偏向 Agent-native,也就是原生面向 Agent 使用。
這樣一來,人類可能只會保留那些真正讓自己感到愉悅的交互,而大量真正執行性的工作,會逐漸轉移給 Agent。所以我覺得,現在整個生態其實已經在發生變化:從 GUI、MCP,逐漸轉向 CLI 這種模式。接下來,不管是軟件系統、數據結構,還是各種技術棧,本質上都需要朝著 Agent-native 的方向重構。只有這樣,整個 Agent 生態的發展才會更加豐富。
羅福莉: 我覺得,把這個問題收縮到一年的尺度非常有意義。因為如果把時間拉到五年,在我對 AGI 的理解里,很多事情幾乎已經是必然會發生的了。所以,如果要用一個詞來概括接下來一年里 AGI 進程中最關鍵的一件事,我會選“進化”。
![]()
雖然這個詞聽起來有一點抽象,但我最近對它有了更具體、也更務實的理解。過去一年,大家已經多次提到這件事,但直到最近,我才真正開始感受到,“自進化”這件事其實已經開始具備比較可行的實現路徑。
其中一個很重要的原因在于,隨著模型能力增強,我們逐漸意識到,在過去那種單純對話式的范式下,預訓練模型的上限其實并沒有被真正發揮出來。而今天,這個上限正在被 Agent 框架逐步激活。
我們現在已經摸到這個邊界了。尤其是當模型開始執行更長時間的任務時,我們會發現,它其實能夠自己學習、自己進化。一個很簡單的實驗是:在現有框架上,疊加一個可驗證的目標約束,再給它設置一個 loop,讓它持續圍繞這個目標進行迭代優化。你就會發現,模型會不斷拿出更優的方案。
如果這種自進化機制可以持續運轉,那么它的潛力會非常大。現在其實很多國內模型已經能夠穩定跑上一到兩天了。當然,這和任務難度有關。比如在一些科研任務中,模型去探索更優的結構設計,因為這類任務存在明確的評估標準,例如更低的 PPL,這就意味著它具備可驗證性。在這種確定性較強的任務上,我們已經看到,模型能夠自主優化并持續執行兩三天。
所以從我的角度來看,自進化是一個真正可能創造新東西的方向。它不是簡單地替代人類已有的生產力,而是像頂尖科學家一樣,去探索世界上原本還不存在的東西。一年前,我還會覺得這個過程大概要三到五年;但到了最近,我反而覺得這個時間窗口應該縮短到一到兩年。
也就是說,我們可能很快就能看到:在一個很強的自進化 Agent 框架加持下,大模型對科學研究帶來至少指數級的加速。因為我最近已經很明顯地觀察到,我們組內做大模型研究的同學,他們的 workflow 本身就是高度不確定、又高度依賴創造力的。而在這種情況下,借助 Claude Code,再結合非常頂尖的模型,研究效率基本上已經可以提升接近十倍。
所以我非常期待這種范式未來能夠輻射到更廣泛的學科和領域。我覺得,這會是一件非常重要的事情。
夏立雪: 我的關鍵詞是“可持續”。因為我看到,整個行業的發展仍處在一個長期演進的過程中,我們也希望它具備長久的生命力。從基礎設施角度看,一個非常現實的問題是,資源終究是有限的,就像我們過去談“可持續發展”時反復強調的那樣。
我們現在作為一家 Token 工廠,能否持續、穩定、大規模地向外提供可用的 Token,讓頂尖模型真正持續服務更多下游場景,這是我最關注的問題。因此,我們也需要把視角進一步放寬到整個生態:從最早的能源轉化,到算力,再到 Token,最終轉化為 GDP,形成一條可以持續進行經濟化迭代的完整鏈路。
而且,我們不只是要把國內各種算力資源真正用起來,也在嘗試把這些能力輸出到海外,讓全球資源能夠更好地打通和整合。所以我所說的“可持續”,其實也包括把具有中國特色的 Token 經濟學真正做起來。過去我們講的是 Made in China。大家會發現,我們能夠把中國具備成本優勢的制造能力,轉化為優質商品并輸出到全球。
今天我們想做的,有點像 AI Made in China。也就是說,把中國在能源等方面的優勢,通過 Token 工廠持續轉化為高質量的 Token,并輸出到全球,最終成為全球的 Token 工廠。這是我希望在今年看到的,中國為世界人工智能發展帶來的價值。
張鵬: 我盡量簡短一點。前面大家可能都在仰望星空,那我就稍微落地一些。我認為,未來 12 個月最關鍵的問題,可能還是算力。
因為剛才大家已經提到,不管是模型能力,還是智能體框架,確實都在顯著提升創造力和生產效率,很多場景下甚至可以帶來十倍級的效率提升。但前提是,大家得用得起,也用得上。不能因為算力不夠,用戶提了一個問題,結果模型想了半天還給不出答案,這顯然是不行的。
也正因為如此,我們很多研究進展,包括很多原本想做的事情,事實上都會受到制約。前兩年業界有一句話,叫“講卡傷感情,沒卡沒感情”。我覺得,今天某種程度上又回到了這個階段,只不過這一次的背景已經不一樣了。
因為我們現在正在真正轉向推理階段,而之所以會轉向推理階段,是因為需求正在爆發,而且是十倍、百倍地爆發。剛才也提到,過去一段時間需求可能已經增長了十倍,但真實需求也許是一百倍,那還有大量需求沒有被滿足。這個問題怎么辦?我想,這可能需要我們一起想辦法。謝謝。
楊植麟: 好,感謝各位的精彩分享,謝謝大家。
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.