![]()
Agent 時代的 Infra,機會和想象力比“龍蝦”大得多。
2026 年 3 月,AI 行業里最熱的詞不是任何一個模型的名字,而是一個聽起來跟 AI 毫無關系的英文單詞:Harness。
它的本義是馬具。韁繩、籠頭、鞍具,那一整套套在馬身上的東西。
如果換作動詞,它的意思應該是"駕馭"。
你不會說 harness a calculator(駕馭一臺計算器),但你會說 harness the wind(駕馭風),harness a horse(駕馭馬)。用這個詞的人,不管有意還是無意,都在承認一件事:他面對的不是一個被動的工具,而是一種有力量、有自主性的存在。他不是在"使用"它,是在"駕馭"它。
這個詞正在成為 AI Agent 時代最核心的產業概念。
圍繞它,正在生長出一個萬億美金規模的基礎設施層。而這個基礎設施層的規則制定者,也呼之欲出。
Harness is the New Infra
Harness 在 AI 語境里有兩條演化線索。
第一條是修辭層的。"Harness AI"作為一個泛用表達,在科技行業流傳已久,意思無非是"駕馭 AI 的能力"。
第二條更重要,是技術層的。2025 年底,Anthropic 開始用"harness"描述圍繞 AI Agent 搭建的那套基礎設施——上下文管理、工具調用、記憶、護欄、編排。Claude Agent SDK 的官方定義就是"a general-purpose agent harness"。
2026 年初,HashiCorp 聯合創始人 Mitchell Hashimoto 把"AI Harness"作為一個正式概念提出,"Harness Engineering"作為一個新的工程實踐領域迅速擴散。
但真正讓這個詞值得被認真對待的,不是它的流行,而是它精確地描述了人和 AI 之間正在形成的一種新關系:共生式的不對稱協作。
人提供意圖、判斷和方向。AI 提供能力、速度和規模。
Harness 同時承認了能力的不對稱和權威的不對稱,而且這兩種不對稱是反向的——AI 的能力可能遠超駕馭者,但駕馭者擁有最終的方向決定權。
馬比人跑得快得多、力量大得多,但去哪兒,是人說了算。
人需要駕馭比自己強大的 AI。 這大概是 Anthropic 選擇這個詞時——不管有意還是無意——最精準的一層表達。
而 Harness 這個詞,確實也挺"Anthropic"(人類),有點兒以人為本的意思。
有人說: Harness is the New Datasets。
這句話的直覺很靈敏,但結論不準確。當基座模型趨同時,Harness 的質量確實成了決定 Agent 好壞的關鍵變量,就像數據質量能決定一款基座模型的生死一樣。
但 Datasets(數據集) 和 Harness 的存在方式根本不同:Datasets 在技術架構中占據單一位置,即訓練階段的輸入;但 Harness 不是一個具體的層,而是一個棧,是層的組合。
上下文工程和記憶是存儲層,工具接入是網絡層,編排是容器層,護欄是安全層,評估是可觀測層,技能封裝是中間件。每一層都能長出獨立的公司、標準和商業模式。這跟云計算 Infra 的棧式結構完全同構。
從這個意義上說,Harness is the New Infra,它不是模型預訓練的 infra,而是建構 Agent 的 infra,讓 Agent 具備自主性,同時嚴格遵循人的指令、確保安全和遵守規則的 infra。
Harness 本身不是新的 Datasets,但 Harness 的良性運轉會為 Agent 生成好的 datasets,并建立數據飛輪。當一個 harness 積累了足夠多的用戶行為數據和領域知識,它就不只是外掛的系統設計了,它開始擁有數據的屬性:越用越好、越用越難替換。
由此可以推出一個幾乎可以當定義用的等式:
基座模型 + Harness = Agent。
基座模型提供原始能力——推理、生成、理解。但它是靜態的、被動的、無方向的。它什么都能做,所以它什么都不是。Harness 提供結構、方向和約束,把無限的可能性收束成有限的、有目的的行動。兩者結合的瞬間,AI 從一個被詢問的對象變成了一個去行動的主體。
同一匹馬,套上不同的裝具,能拉車、能載人、能耕田、能比賽。Harness 的設計決定了 Agent 的形態和用途。
林俊旸的 Pitch Deck
2026 年 3 月 26 日,Qwen 團隊前技術負責人林俊旸(Junyang Lin)在 X 上發了一篇長文,標題是 "From 'Reasoning' Thinking to 'Agentic' Thinking"。兩日內,70 萬閱讀,2800 個贊,677 次轉發。
三周前,3 月 4 日,他剛從阿里巴巴離職。三周后,他寫了一篇系統性的行業判斷文章。
![]()
文章的核心論點是:AI 正在從"想得更久"轉向"為了行動而想"。
Reasoning Thinking(推理思考)本質是靜態獨白——模型在封閉空間里生成越來越長的推理鏈,試圖用更多文本彌補缺乏與環境交互的不足。而 Agentic Thinking 是在與環境交互的過程中持續推進任務。訓練對象經歷了三級跳:從訓練模型,到訓練 Agent,到訓練系統。
這不是空談。他用 Qwen 自己的實戰教訓來佐證:合并 thinking(思考) 和 instruct(指令) 模式比想象中難得多。兩種行為的數據分布和優化目標根本性地互相拉扯——instruct 追求簡潔、快速、格式合規,thinking 追求花更多 token 探索替代路徑。Qwen3 嘗試合并后,又拆回了獨立線。
這個教訓指向一個更深的洞察:Instruct 是前 Agent 時代的 Harness 替代品。
Instruct 通過 SFT 和 RLHF 把行為規范"燒"進模型權重——這等于是把韁繩縫進了馬的肌肉里。它在一問一答的時代夠用。但到了 Agent 時代,模型要自主運行、調用工具、持續決策,行為空間爆炸式膨脹,不可能把所有約束都訓進權重里。控制的重心必須從模型內部轉移到模型外部。
Instruct 的能力邊界被 Agent 范式擊穿了,Harness 是必然演化。
林俊旸在文中四次提到"harness",遞進關系非常清晰:
從"agent 運行的外部環境",到"一個獨立的工程實踐——harness engineering",再到"訓練對象的一部分——agent and the harness around it"。
他的文章從訓練側證明了一件事:Harness 不僅是 Agent 運行時的基礎設施,也是 Agent 訓練時的基礎設施。
在 Agentic RL 的閉環里,Agent 在 Harness 中運行,環境產生反饋信號,反饋驅動 RL 更新策略,策略改變 Agent 行為。拿掉 Harness,不是 Agent 變慢的問題,是訓練根本跑不起來的問題。
而且他明確提出:Agentic RL 的最大瓶頸不是算法、不是模型架構,而是環境質量和 rollout 基礎設施。制約 Agent 進化的卡點在 Infra 層。
感謝俊旸,替我補充了"Harness is the New Infra" 這個論證缺失的一半。
Harness 是 Agent 運行時不可或缺的基礎設施(infra),這是前文的一個斷言。而俊旸的這篇文章告訴我們:Harness 也是 Agent 訓練時的 Infra。在 Agentic RL 的閉環里,環境產生反饋信號,反饋驅動策略更新,策略改變 Agent 行為,Agent 行為又觸發新的環境反饋。
一個在訓練和推理兩端都不可或缺的系統層,才是真正意義上的 infra,也就是 Harness。
林俊旸在文章里說了一句意味深長的話:"環境構建正在從副項目變成一個真正的創業品類"。
"環境構建"并不等同于 Harness,而是 Harness 的一個子集,但又是一個重要的子集。"環境"主要對應 Harness 架構中工具接入和評估反饋——特指 Agent 訓練時與之交互的那個世界:代碼執行沙箱、瀏覽器模擬器、測試用例集、API 模擬層。它的核心功能是產生反饋信號,讓 Agentic RL 有東西可以優化。它有點像是 Agent 訓練和搭建的容器、benchmark 和 Hugging Face。
環境是 Agent 訓練時的操場,Harness 是 Agent 跑起來時的全套裝備。 操場是裝備的一部分,但不是全部。
不過,當一個開源模型的前技術負責人開始為 Harness 的某一個子模塊單獨定義創業品類,這件事本身就是一個信號——它說明這個棧已經足夠復雜、足夠有價值,開始像真正的 Infra 棧一樣分層長出獨立的商業實體了。
而在一篇學術味很濃的長文里定義了一個創業賽道。如果你覺得這還不算是林俊旸創業的pitch deck,那你就別做 VC 了。
萬億美金的創業賽道
如果林俊旸真的去做 Agent 訓練環境基礎設施——那個他親手定義為"真正的創業品類"的方向——他面對的是 Harness 這塊蛋糕的哪層?這層蛋糕又有多大?
Harness 內部是一個完整的多層架構,可以拆成七個核心模塊:上下文工程、記憶系統、工具接入、技能封裝、護欄與權限、評估與反饋、編排與狀態管理。
除了工具接入層(MCP),每一層都有創業公司在跑。
上下文與記憶層有 Cognee(€750 萬融資)和 Interloom($1650 萬種子輪,Sequoia 參投)。
工具接入層被 MCP 協議標準化了——月 SDK 下載量 9700 萬,Anthropic、OpenAI、Google、Microsoft、Amazon 全部接入了,沒有太多創業公司。
安全接入層冒出了 Runlayer($1100 萬,Khosla 領投),護欄與合規有 Guardrails AI、Vigilant AI、Runtime、Alter。評估與可觀測性最熱,Arize AI 拿了 $7000 萬 C 輪,客戶包括 Uber 和 PepsiCo,Langfuse 成了開源社區標準。
編排層則呈現了"三強"格局:LangGraph、CrewAI($1800 萬融資,60% 財富 500 強在用)和微軟 Agent Framework,其中兩家是創業公司。而 Skills 封裝層的創業公司多以垂直行業賽道的 Agent 產品呈現,它的標桿是 Harvey——法律 AI,$110 億估值,$10 億累計融資,ARR $1.9 億,以及 Abridge,醫療——AI,$53 億估值。
訓練環境層處于最早期,約 20 家種子期公司,Wing VC 預測到 2030 年整合為 3-5 家。
但不是每個模塊都是好賽道。
判斷賽道還壞,核心判斷標準是:這個模塊解決的是"模型能力問題"還是"系統設計問題"。
前者會被基座模型吞掉——上下文窗口從 128K 擴到 1M 再到更大,今天精巧的壓縮策略,可能明天就沒用了。
而系統設計層的模塊則有持久價值——比如工具接入,它是生態位問題;安全護欄是合規問題;評估是獨立性問題,這些不是模型變強就能消解的。
它們的退出路徑也截然不同。工具接入和技能封裝離模型太近,模型廠有極強動機收編——Anthropic 做 MCP 和 Skills,OpenAI 做 Plugins 和 GPTs,都是在吞這兩層。
在這兩個方向創業,天花板是被收購。護欄合規和評估可觀測性正好相反,它們天然需要第三方獨立性。銀行不會信任 Anthropic 自己的合規審計工具,就像你不會讓被審計方自己出審計報告。獨立性不是商業策略,是產品價值本身。 前者是好的收購標的,后者是好的 IPO 標的。
它們都屬于 Harness,Agent 的 Infra。那 Harness 賽道的總盤子有多大?
自下而上,按七個子賽道的估值空間加總,到 2030 年獨立創業公司的估值總和約 $5000-8000 億。其中技能封裝與垂直知識最大($2500-3500 億),護欄與合規增速最快(CAGR 65.8%,從 2024 年 $7 億到 2034 年預測 $1099 億,Agent 越自主,韁繩的價格越貴),訓練環境最早期但確定性最高。
AI Agent 整體市場 2030 年預測 $500-1000 億收入,Harness 作為 Infra 層約占 40-50%,按 SaaS/Infra 的 10-15x PS 倍數折算,估值空間是可以的吻合。
近萬億美元的創業賽道。
如果把模型廠內嵌的 Harness 收入也算進來,整體 Harness 基礎設施層的估值空間在 $2.5-3.8 萬億。大約相當于今天整個云計算 Infra 層的市值總和。
那么回到林俊旸,他如果真的切入訓練環境與 RL 基礎設施這個 Harness 子賽道,它面對的是一個目前只有約 20 家種子期公司、但到 2030 年估值空間 $200-500 億的市場。Wing VC 預測這個賽道最終會整合為 3-5 家頭部。
以他 Qwen 前技術負責人的身份,如果在硅谷,種子輪估值可能在 $2-5 億之間。市場給的不是公司估值,是對人的定價。林俊旸已經不需要寫 BP了,那篇推文就足夠了。而如果在中國拿美元基金,估值$5000萬起底,$ 1億不無可能。人民幣?那再說吧。
Anthropic 的手掌心
現在需要回答一個真正重要的問題:Harness 這個萬億美金的基礎設施層,是誰在定義規則?
讓我們看看以下殘酷的事實:
MCP 是 Anthropic 推的標準協議。Claude Code 是 Anthropic 造的 harness 產品,年化收入 $25 億。Agent SDK 是 Anthropic 建的開發者入口。Skills 系統是 Anthropic 設計的。甚至"harness"這個詞在 AI Agent 語境里的流行,最大的推手就是 Anthropic。
更深層的原因是商業模式。
OpenAI 的核心敘事是"最強模型",收入主要來自 ChatGPT 訂閱,Anthropic 徹底不做多模態和世界模型,但它被越來越多的人認為是最強模型。Claude 的賣點不是跑分第一,而是"最適合 Agent 工作流的模型"——更可靠、更可控、更適合長時間自主運行。
這個定位意味著 Anthropic 的競爭力不僅來自模型,更來自模型周圍那套 Harness 的質量。每一層 Harness 的完善,都在加寬它的護城河。Harness 生態的繁榮直接等于 Anthropic 的商業利益。
這解釋了為什么 OpenAI 從 2023 年就開始嘗試建生態——Plugins、GPTs、GPT Store,然而都沒做起來,而 Anthropic 的 MCP 2024 年底才推出,晚了一年半,卻成了事實標準。
它背后根本原因是:OpenAI 建的是應用生態,Anthropic 建的是基礎設施生態。
OpenAI 的 GPT Store 是 App Store 的邏輯——我有最大的用戶基數,你來我這里開店。但當模型本身什么都能做的時候,應用就沒有存在必要。GPTs 沒有差異化壁壘,因為底層能力和 ChatGPT 本身是同一個東西。
而Anthropic 的 MCP 不是應用商店,是協議商店。它不邀請開發者來 Claude 上開店,而是定義一套連接標準,所有工具和所有模型都可以用。這是 HTTP 的邏輯,而不是 App Store 的邏輯。
而協議越開放,生態里控制力越強。現在,所有人都用 MCP,而 MCP 是 Anthropic 設計的,它不需要鎖定用戶,它鎖定的是開發者的心智和工具鏈。
在資本層面。Anthropic 和早期投資人 Menlo Ventures 成立了 $1 億的 Anthology Fund,一年投了 30 多家 harness 方向的創業公司。結構很聰明:Menlo 出錢,Anthropic 不參與基金經濟利益,但給每家被投公司 $25,000 的模型 credits,并開放首席產品官 Mike Krieger 和總裁 Daniela Amodei 參與 demo day。
Anthropic 一分錢不出,鎖定了 30 多家創業公司到 Claude 生態,同時獲取最前沿的需求信號。這是一個無成本期權。
不過,我們想過沒有:為什么在 Agentic AI 時代,Anthropic 的協議生態,比 OpenAI 的應用生態更重要?
因為 Agent 不是傳統意義上的"應用"。傳統 App 的交互接口是固定的、有限的——用戶叫車,App 按預設流程調 API、匹配司機、算路線。Agent 不一樣,它自己決定調什么工具、以什么順序、在什么時候。交互接口是無限的、動態的。而且 Agent 和 Agent 之間也需要協作——編排者調度專業 Agent,專業 Agent 調度子 Agent,這是分布式系統的協同問題。
當交互接口是固定的,你可以逐個對接;當交互接口是無限的,你只能定義標準。
TCP/IP 讓任意兩臺計算機通信,HTTP 讓任意客戶端訪問任意服務器,MCP 讓任意 Agent 調用任意工具。應用生態的基本單元是"產品",協議生態的基本單元是"連接"。在 Agentic 時代,連接的數量和質量決定一切。
所有 Harness 創業者都在翻跟斗。林俊旸如果真的去做訓練環境基礎設施,那個他親手在文章里定義為"真正的創業品類"的方向,他的產品最終大概率也要接入 Claude 生態;或者在中國建立起一個平行的生態。因為 Anthropic 定義了協議、建了 SDK、鋪了生態基金、占了開發者心智。
可能,只有中國 Agent 創業者有可能跳出 Anthropic 的手掌心,這是不可抗力。
文| 駱軼航和他的 Claude Cowork
點個“愛心”,再走 吧
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.