網易首頁 > 網易號 > 正文申請入駐

Harness、林俊旸、萬億美金賽道和 Anthropic 的手掌心

2026-03-29 12:59:13　來源: 硅星人

北京舉報

分享至

Agent 時代的 Infra，機會和想象力比“龍蝦”大得多。

2026 年 3 月，AI 行業里最熱的詞不是任何一個模型的名字，而是一個聽起來跟 AI 毫無關系的英文單詞：Harness。

它的本義是馬具。韁繩、籠頭、鞍具，那一整套套在馬身上的東西。

如果換作動詞，它的意思應該是"駕馭"。

你不會說 harness a calculator（駕馭一臺計算器），但你會說 harness the wind（駕馭風），harness a horse（駕馭馬）。用這個詞的人，不管有意還是無意，都在承認一件事：他面對的不是一個被動的工具，而是一種有力量、有自主性的存在。他不是在"使用"它，是在"駕馭"它。

這個詞正在成為 AI Agent 時代最核心的產業概念。

圍繞它，正在生長出一個萬億美金規模的基礎設施層。而這個基礎設施層的規則制定者，也呼之欲出。

Harness is the New Infra

Harness 在 AI 語境里有兩條演化線索。

第一條是修辭層的。"Harness AI"作為一個泛用表達，在科技行業流傳已久，意思無非是"駕馭 AI 的能力"。

第二條更重要，是技術層的。2025 年底，Anthropic 開始用"harness"描述圍繞 AI Agent 搭建的那套基礎設施——上下文管理、工具調用、記憶、護欄、編排。Claude Agent SDK 的官方定義就是"a general-purpose agent harness"。

2026 年初，HashiCorp 聯合創始人 Mitchell Hashimoto 把"AI Harness"作為一個正式概念提出，"Harness Engineering"作為一個新的工程實踐領域迅速擴散。

但真正讓這個詞值得被認真對待的，不是它的流行，而是它精確地描述了人和 AI 之間正在形成的一種新關系：共生式的不對稱協作。

人提供意圖、判斷和方向。AI 提供能力、速度和規模。

Harness 同時承認了能力的不對稱和權威的不對稱，而且這兩種不對稱是反向的——AI 的能力可能遠超駕馭者，但駕馭者擁有最終的方向決定權。

馬比人跑得快得多、力量大得多，但去哪兒，是人說了算。

人需要駕馭比自己強大的 AI。 這大概是 Anthropic 選擇這個詞時——不管有意還是無意——最精準的一層表達。

而 Harness 這個詞，確實也挺"Anthropic"（人類），有點兒以人為本的意思。

有人說： Harness is the New Datasets。

這句話的直覺很靈敏，但結論不準確。當基座模型趨同時，Harness 的質量確實成了決定 Agent 好壞的關鍵變量，就像數據質量能決定一款基座模型的生死一樣。

但 Datasets（數據集）和 Harness 的存在方式根本不同：Datasets 在技術架構中占據單一位置，即訓練階段的輸入；但 Harness 不是一個具體的層，而是一個棧，是層的組合。

上下文工程和記憶是存儲層，工具接入是網絡層，編排是容器層，護欄是安全層，評估是可觀測層，技能封裝是中間件。每一層都能長出獨立的公司、標準和商業模式。這跟云計算 Infra 的棧式結構完全同構。

從這個意義上說，Harness is the New Infra，它不是模型預訓練的 infra，而是建構 Agent 的 infra，讓 Agent 具備自主性，同時嚴格遵循人的指令、確保安全和遵守規則的 infra。

Harness 本身不是新的 Datasets，但 Harness 的良性運轉會為 Agent 生成好的 datasets，并建立數據飛輪。當一個 harness 積累了足夠多的用戶行為數據和領域知識，它就不只是外掛的系統設計了，它開始擁有數據的屬性：越用越好、越用越難替換。

由此可以推出一個幾乎可以當定義用的等式：

基座模型 + Harness = Agent。

基座模型提供原始能力——推理、生成、理解。但它是靜態的、被動的、無方向的。它什么都能做，所以它什么都不是。Harness 提供結構、方向和約束，把無限的可能性收束成有限的、有目的的行動。兩者結合的瞬間，AI 從一個被詢問的對象變成了一個去行動的主體。

同一匹馬，套上不同的裝具，能拉車、能載人、能耕田、能比賽。Harness 的設計決定了 Agent 的形態和用途。

林俊旸的 Pitch Deck

2026 年 3 月 26 日，Qwen 團隊前技術負責人林俊旸（Junyang Lin）在 X 上發了一篇長文，標題是 "From 'Reasoning' Thinking to 'Agentic' Thinking"。兩日內，70 萬閱讀，2800 個贊，677 次轉發。

三周前，3 月 4 日，他剛從阿里巴巴離職。三周后，他寫了一篇系統性的行業判斷文章。

文章的核心論點是：AI 正在從"想得更久"轉向"為了行動而想"。

Reasoning Thinking（推理思考）本質是靜態獨白——模型在封閉空間里生成越來越長的推理鏈，試圖用更多文本彌補缺乏與環境交互的不足。而 Agentic Thinking 是在與環境交互的過程中持續推進任務。訓練對象經歷了三級跳：從訓練模型，到訓練 Agent，到訓練系統。

這不是空談。他用 Qwen 自己的實戰教訓來佐證：合并 thinking（思考）和 instruct（指令）模式比想象中難得多。兩種行為的數據分布和優化目標根本性地互相拉扯——instruct 追求簡潔、快速、格式合規，thinking 追求花更多 token 探索替代路徑。Qwen3 嘗試合并后，又拆回了獨立線。

這個教訓指向一個更深的洞察：Instruct 是前 Agent 時代的 Harness 替代品。

Instruct 通過 SFT 和 RLHF 把行為規范"燒"進模型權重——這等于是把韁繩縫進了馬的肌肉里。它在一問一答的時代夠用。但到了 Agent 時代，模型要自主運行、調用工具、持續決策，行為空間爆炸式膨脹，不可能把所有約束都訓進權重里。控制的重心必須從模型內部轉移到模型外部。

Instruct 的能力邊界被 Agent 范式擊穿了，Harness 是必然演化。

林俊旸在文中四次提到"harness"，遞進關系非常清晰：

從"agent 運行的外部環境"，到"一個獨立的工程實踐——harness engineering"，再到"訓練對象的一部分——agent and the harness around it"。

他的文章從訓練側證明了一件事：Harness 不僅是 Agent 運行時的基礎設施，也是 Agent 訓練時的基礎設施。

在 Agentic RL 的閉環里，Agent 在 Harness 中運行，環境產生反饋信號，反饋驅動 RL 更新策略，策略改變 Agent 行為。拿掉 Harness，不是 Agent 變慢的問題，是訓練根本跑不起來的問題。

而且他明確提出：Agentic RL 的最大瓶頸不是算法、不是模型架構，而是環境質量和 rollout 基礎設施。制約 Agent 進化的卡點在 Infra 層。

感謝俊旸，替我補充了"Harness is the New Infra" 這個論證缺失的一半。

Harness 是 Agent 運行時不可或缺的基礎設施（infra），這是前文的一個斷言。而俊旸的這篇文章告訴我們：Harness 也是 Agent 訓練時的 Infra。在 Agentic RL 的閉環里，環境產生反饋信號，反饋驅動策略更新，策略改變 Agent 行為，Agent 行為又觸發新的環境反饋。

一個在訓練和推理兩端都不可或缺的系統層，才是真正意義上的 infra，也就是 Harness。

林俊旸在文章里說了一句意味深長的話："環境構建正在從副項目變成一個真正的創業品類"。

"環境構建"并不等同于 Harness，而是 Harness 的一個子集，但又是一個重要的子集。"環境"主要對應 Harness 架構中工具接入和評估反饋——特指 Agent 訓練時與之交互的那個世界：代碼執行沙箱、瀏覽器模擬器、測試用例集、API 模擬層。它的核心功能是產生反饋信號，讓 Agentic RL 有東西可以優化。它有點像是 Agent 訓練和搭建的容器、benchmark 和 Hugging Face。

環境是 Agent 訓練時的操場，Harness 是 Agent 跑起來時的全套裝備。 操場是裝備的一部分，但不是全部。

不過，當一個開源模型的前技術負責人開始為 Harness 的某一個子模塊單獨定義創業品類，這件事本身就是一個信號——它說明這個棧已經足夠復雜、足夠有價值，開始像真正的 Infra 棧一樣分層長出獨立的商業實體了。

而在一篇學術味很濃的長文里定義了一個創業賽道。如果你覺得這還不算是林俊旸創業的pitch deck，那你就別做 VC 了。

萬億美金的創業賽道

如果林俊旸真的去做 Agent 訓練環境基礎設施——那個他親手定義為"真正的創業品類"的方向——他面對的是 Harness 這塊蛋糕的哪層？這層蛋糕又有多大？

Harness 內部是一個完整的多層架構，可以拆成七個核心模塊：上下文工程、記憶系統、工具接入、技能封裝、護欄與權限、評估與反饋、編排與狀態管理。

除了工具接入層（MCP），每一層都有創業公司在跑。

上下文與記憶層有 Cognee（€750 萬融資）和 Interloom（$1650 萬種子輪，Sequoia 參投）。

工具接入層被 MCP 協議標準化了——月 SDK 下載量 9700 萬，Anthropic、OpenAI、Google、Microsoft、Amazon 全部接入了，沒有太多創業公司。

安全接入層冒出了 Runlayer（$1100 萬，Khosla 領投），護欄與合規有 Guardrails AI、Vigilant AI、Runtime、Alter。評估與可觀測性最熱，Arize AI 拿了 $7000 萬 C 輪，客戶包括 Uber 和 PepsiCo，Langfuse 成了開源社區標準。

編排層則呈現了"三強"格局：LangGraph、CrewAI（$1800 萬融資，60% 財富 500 強在用）和微軟 Agent Framework，其中兩家是創業公司。而 Skills 封裝層的創業公司多以垂直行業賽道的 Agent 產品呈現，它的標桿是 Harvey——法律 AI，$110 億估值，$10 億累計融資，ARR $1.9 億，以及 Abridge，醫療——AI，$53 億估值。

訓練環境層處于最早期，約 20 家種子期公司，Wing VC 預測到 2030 年整合為 3-5 家。

但不是每個模塊都是好賽道。

判斷賽道還壞，核心判斷標準是：這個模塊解決的是"模型能力問題"還是"系統設計問題"。

前者會被基座模型吞掉——上下文窗口從 128K 擴到 1M 再到更大，今天精巧的壓縮策略，可能明天就沒用了。

而系統設計層的模塊則有持久價值——比如工具接入，它是生態位問題；安全護欄是合規問題；評估是獨立性問題，這些不是模型變強就能消解的。

它們的退出路徑也截然不同。工具接入和技能封裝離模型太近，模型廠有極強動機收編——Anthropic 做 MCP 和 Skills，OpenAI 做 Plugins 和 GPTs，都是在吞這兩層。

在這兩個方向創業，天花板是被收購。護欄合規和評估可觀測性正好相反，它們天然需要第三方獨立性。銀行不會信任 Anthropic 自己的合規審計工具，就像你不會讓被審計方自己出審計報告。獨立性不是商業策略，是產品價值本身。 前者是好的收購標的，后者是好的 IPO 標的。

它們都屬于 Harness，Agent 的 Infra。那 Harness 賽道的總盤子有多大？

自下而上，按七個子賽道的估值空間加總，到 2030 年獨立創業公司的估值總和約 $5000-8000 億。其中技能封裝與垂直知識最大（$2500-3500 億），護欄與合規增速最快（CAGR 65.8%，從 2024 年 $7 億到 2034 年預測 $1099 億，Agent 越自主，韁繩的價格越貴），訓練環境最早期但確定性最高。

AI Agent 整體市場 2030 年預測 $500-1000 億收入，Harness 作為 Infra 層約占 40-50%，按 SaaS/Infra 的 10-15x PS 倍數折算，估值空間是可以的吻合。

近萬億美元的創業賽道。

如果把模型廠內嵌的 Harness 收入也算進來，整體 Harness 基礎設施層的估值空間在 $2.5-3.8 萬億。大約相當于今天整個云計算 Infra 層的市值總和。

那么回到林俊旸，他如果真的切入訓練環境與 RL 基礎設施這個 Harness 子賽道，它面對的是一個目前只有約 20 家種子期公司、但到 2030 年估值空間 $200-500 億的市場。Wing VC 預測這個賽道最終會整合為 3-5 家頭部。

以他 Qwen 前技術負責人的身份，如果在硅谷，種子輪估值可能在 $2-5 億之間。市場給的不是公司估值，是對人的定價。林俊旸已經不需要寫 BP了，那篇推文就足夠了。而如果在中國拿美元基金，估值$5000萬起底，$ 1億不無可能。人民幣？那再說吧。

Anthropic 的手掌心

現在需要回答一個真正重要的問題：Harness 這個萬億美金的基礎設施層，是誰在定義規則？

讓我們看看以下殘酷的事實：

MCP 是 Anthropic 推的標準協議。Claude Code 是 Anthropic 造的 harness 產品，年化收入 $25 億。Agent SDK 是 Anthropic 建的開發者入口。Skills 系統是 Anthropic 設計的。甚至"harness"這個詞在 AI Agent 語境里的流行，最大的推手就是 Anthropic。

更深層的原因是商業模式。

OpenAI 的核心敘事是"最強模型"，收入主要來自 ChatGPT 訂閱，Anthropic 徹底不做多模態和世界模型，但它被越來越多的人認為是最強模型。Claude 的賣點不是跑分第一，而是"最適合 Agent 工作流的模型"——更可靠、更可控、更適合長時間自主運行。

這個定位意味著 Anthropic 的競爭力不僅來自模型，更來自模型周圍那套 Harness 的質量。每一層 Harness 的完善，都在加寬它的護城河。Harness 生態的繁榮直接等于 Anthropic 的商業利益。

這解釋了為什么 OpenAI 從 2023 年就開始嘗試建生態——Plugins、GPTs、GPT Store，然而都沒做起來，而 Anthropic 的 MCP 2024 年底才推出，晚了一年半，卻成了事實標準。

它背后根本原因是：OpenAI 建的是應用生態，Anthropic 建的是基礎設施生態。

OpenAI 的 GPT Store 是 App Store 的邏輯——我有最大的用戶基數，你來我這里開店。但當模型本身什么都能做的時候，應用就沒有存在必要。GPTs 沒有差異化壁壘，因為底層能力和 ChatGPT 本身是同一個東西。

而Anthropic 的 MCP 不是應用商店，是協議商店。它不邀請開發者來 Claude 上開店，而是定義一套連接標準，所有工具和所有模型都可以用。這是 HTTP 的邏輯，而不是 App Store 的邏輯。

而協議越開放，生態里控制力越強。現在，所有人都用 MCP，而 MCP 是 Anthropic 設計的，它不需要鎖定用戶，它鎖定的是開發者的心智和工具鏈。

在資本層面。Anthropic 和早期投資人 Menlo Ventures 成立了 $1 億的 Anthology Fund，一年投了 30 多家 harness 方向的創業公司。結構很聰明：Menlo 出錢，Anthropic 不參與基金經濟利益，但給每家被投公司 $25,000 的模型 credits，并開放首席產品官 Mike Krieger 和總裁 Daniela Amodei 參與 demo day。

Anthropic 一分錢不出，鎖定了 30 多家創業公司到 Claude 生態，同時獲取最前沿的需求信號。這是一個無成本期權。

不過，我們想過沒有：為什么在 Agentic AI 時代，Anthropic 的協議生態，比 OpenAI 的應用生態更重要？

因為 Agent 不是傳統意義上的"應用"。傳統 App 的交互接口是固定的、有限的——用戶叫車，App 按預設流程調 API、匹配司機、算路線。Agent 不一樣，它自己決定調什么工具、以什么順序、在什么時候。交互接口是無限的、動態的。而且 Agent 和 Agent 之間也需要協作——編排者調度專業 Agent，專業 Agent 調度子 Agent，這是分布式系統的協同問題。

當交互接口是固定的，你可以逐個對接；當交互接口是無限的，你只能定義標準。

TCP/IP 讓任意兩臺計算機通信，HTTP 讓任意客戶端訪問任意服務器，MCP 讓任意 Agent 調用任意工具。應用生態的基本單元是"產品"，協議生態的基本單元是"連接"。在 Agentic 時代，連接的數量和質量決定一切。

所有 Harness 創業者都在翻跟斗。林俊旸如果真的去做訓練環境基礎設施，那個他親手在文章里定義為"真正的創業品類"的方向，他的產品最終大概率也要接入 Claude 生態；或者在中國建立起一個平行的生態。因為 Anthropic 定義了協議、建了 SDK、鋪了生態基金、占了開發者心智。

可能，只有中國 Agent 創業者有可能跳出 Anthropic 的手掌心，這是不可抗力。

文| 駱軼航和他的 Claude Cowork

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.