henry 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
別人家的“龍蝦”還在盯著屏幕玩電腦,理想已經把“龍蝦”帶上車了!
最近,理想發(fā)布了全新的流式視頻理解與具身智能統(tǒng)一的Agent框架——
StreamingClaw。
![]()
在保持與OpenClaw框架完全兼容的基礎上,StreamingClaw原生支持實時的多模態(tài)流式交互。
這意味著,系統(tǒng)在面對視覺輸入時,不再將其視為死板的離線視頻文件,而是像人類感知世界一樣,實時捕獲流數(shù)據(jù)(Stream)并進行即時推理。
比如,這只蝦不僅能在駕駛中盯著你,檢測可疑動作(哈欠、玩手機)并主動預警。
還能在你取車的時候,主動跟你打招呼。
與此同時,StreamingClaw還引入了自主多代理調度機制。
依托主-從代理的緊密協(xié)同,它不僅能自主完成復雜的任務規(guī)劃與邏輯決策,更深度集成了豐富的工具及技能庫,在現(xiàn)實場景中實現(xiàn)了指令驅動的具身智能。
在StreamingClaw的加持下,機器人與終端設備實現(xiàn)了極低延遲的“邊看、邊記、邊行動”:
比如,它可以實時上識別你手持的物品,幫你解題。
不難看出,在這些復雜場景中,StreamingClaw的核心硬實力在于實時推理與瞬時響應。
而支撐這只“理想龍蝦”在物理世界靈活行動的,正是一整套圍繞“流式架構”展開的系統(tǒng)設計。
從“離線處理”到“主動閉環(huán)”
不同于大模型等對延遲(相對)不敏感的場景,在具身智能、AI硬件及智能座艙等領域,系統(tǒng)往往需要在毫秒級完成感知—決策—執(zhí)行的閉環(huán):
- 感知(看):通過攝像頭捕獲環(huán)境;
- 決策(想):AI大腦規(guī)劃對策;
- 執(zhí)行(做):驅動硬件或指令,并根據(jù)動作后的新環(huán)境再次循環(huán)。
然而,現(xiàn)有的視頻Agent在處理實時感知(流式感知)時往往面臨著延遲較高的問題。
之所以這樣是因為,傳統(tǒng)方法通常將視頻視為完整文件處理。長視頻的計算量呈指數(shù)級爆炸,難以實時響應;
同時,模型難以持續(xù)追蹤長時程信息,導致決策草率、頻繁遺忘,甚至直接任務失敗。
針對這些問題,以往的研究嘗試通過視覺壓縮或Token精簡來緩解負載,但同時也導致了細節(jié)丟失,無法準確定位等問題。
更致命的是,傳統(tǒng)模型大多是被動觸發(fā):你不問,它不動,缺乏對環(huán)境風險的主動感知。
StreamingClaw通過“增量計算”改寫了這一邏輯。
它不再機械地重復處理歷史畫面,而是將環(huán)境的細微變化視為增量信號進行推理更新。
這意味著,它不僅能“看”得更準、記”得更久,還能在思考過程中自主調用工具,實現(xiàn)從感知到物理干預的真正閉環(huán)。
這就是所謂的流式推理,與處理現(xiàn)成文件的“離線模式”不同,其要求AI必須像觀看直播一樣,在數(shù)據(jù)不斷涌入的同時即時分析,不允許任何嚴重滯后。
接下來,我們具體來看StreamingClaw是怎么做到的。
具身智能的流式交互引擎
總體來看,StreamingClaw是一個高度協(xié)同的多代理(Multi-agent)架構。它通過一套標準化的流水線,打破了不同硬件之間的壁壘:
![]()
首先,無論是智能眼鏡、自動駕駛芯片還是具身機器人,所有多模態(tài)流式輸入都會通過時間戳對齊與共享流式緩存*進行標準化處理,確保AI擁有統(tǒng)一的“時間尺度”。
其次,核心大腦StreamingReasoning(主代理)負責實時感知與規(guī)劃;StreamingMemory與StreamingProactivity(從代理)則分別提供長效記憶支撐與主動交互決策。
最后,代理生成的決策指令會直接驅動工具箱與技能庫。
從簡單的視頻剪切到復雜的具身動作序列,執(zhí)行結果會即時反饋至代理,形成一套完整的“感知—決策—執(zhí)行”閉環(huán)。
這種架構讓StreamingClaw不僅能聽懂指令,更能通過自主規(guī)劃與工具調用,真正深入現(xiàn)實場景解決問題。
流式推理::StreamingReasoning
流式推理(StreamingReasoning)主要針對具有連續(xù)輸入輸出的流視頻理解場景。
其核心目標是在極低延遲的約束下,實現(xiàn)對現(xiàn)實世界的實時感知、理解與推理。
![]()
在實時流式推理方面,系統(tǒng)會將輸入的視頻流拆分為細粒度片段,并通過動態(tài)滑動窗口嚴格控制上下文范圍,從源頭上避免無效信息的堆積。
在此基礎上,結合經過剪枝優(yōu)化的流式KV-Cache機制,StreamingReasoning可以持續(xù)進行高效的增量解碼,使整體推理過程始終緊貼視頻流節(jié)奏運行,而不會出現(xiàn)延遲堆積。
在此之上,系統(tǒng)引入了自規(guī)劃調度能力,充當整個流程的“總指揮”。
它能夠動態(tài)解析用戶指令,并自主規(guī)劃任務路徑。在面對復雜任務時,系統(tǒng)會根據(jù)需要選擇調用層級化記憶進行檢索,或轉而觸發(fā)主動交互決策;
而在常規(guī)場景下,則保持直接、低延遲的流式多模態(tài)推理,使整體交互過程始終順暢自然。
流式存儲:StreamingMemory
StreamingMemory存儲真正的多模態(tài)向量,通過層級記憶演化(HME)機制,以應對復雜的流視頻理解任務。
![]()
具體來說,在記憶機制上,系統(tǒng)以視覺為核心,將多模態(tài)信息組織為可持續(xù)增長的增量式記憶節(jié)點,避免原始數(shù)據(jù)的簡單堆疊。
這些記憶進一步從碎片演化為更高層級的“行動”和“事件”,使檢索對象從畫面本身轉向可用于決策的結構化經驗。
在此基礎上,系統(tǒng)通過命令驅動的并行時間遍歷實現(xiàn)高效檢索,在長時序信息中快速定位關鍵內容,同時保證魯棒性。
同時,統(tǒng)一的接口設計打通跨代理記憶,使不同Agent既能共享關鍵經驗,又能進行差異化管理,從而支撐更高效的協(xié)同。
從代理:StreamingProactivity
StreamingProactivity面向未來事件預測、推理與主動交互設計,其目標既可以由用戶預先設定,也可以在流式過程中持續(xù)演化。
當請求被識別為主動交互時,主代理會將其轉化為持續(xù)在線的監(jiān)控任務,例如追蹤行為、判斷事件或監(jiān)控風險。
一旦滿足觸發(fā)條件,系統(tǒng)即刻生成通知或解釋性響應,形成“感知—推理—觸發(fā)—反饋”的閉環(huán),避免反復查詢。
![]()
這一機制主要覆蓋兩類場景,一類是時間感知交互,強調對狀態(tài)隨時間演化的持續(xù)跟蹤;
另一類是事件定位交互,聚焦關鍵事件在時間流中的精確識別,常見于異常檢測與自動標注等任務。
在實現(xiàn)上,系統(tǒng)分為免訓練適配與訓練適配兩種路徑。
![]()
免訓練適配無需額外訓練,通過將觸發(fā)條件結構化為可監(jiān)控節(jié)點,在流式過程中匹配視覺信號并即時生成響應;同時支持目標在線更新,形成持續(xù)演化的主動交互閉環(huán)。
訓練適配則將狀態(tài)變化建模為視覺語言信號,引入場景專用觸發(fā)Token,使感知與任務解耦,并在單次推理中完成多事件識別與響應生成。
該方案在復雜場景下具備更高精度、更強泛化能力,同時顯著降低并發(fā)任務下的推理開銷。
整體來看,StreamingProactivity實現(xiàn)了全天候在線的主動交互,使系統(tǒng)能夠持續(xù)感知變化并觸發(fā)響應。
可擴展的工具與技能:閉環(huán)的最后一公里
為了真正讓AI影響物理世界,StreamingClaw還提供了高效工具與技能接口,從而完成了“感知—決策—執(zhí)行”閉環(huán)的最后一個環(huán)節(jié)。
除了標準的工具組合外,研究還引入了專為視頻理解和流式交互定制的專業(yè)工具。
比如,Video Cut工具可以在關鍵片段中精準裁剪時間戳,將內容送入大型多模態(tài)模型進行“顯微級分析”,再輸出精簡文本結果。
![]()
總體而言,StreamingClaw面向流式視頻場景,基于多模態(tài)大模型實現(xiàn)感知、理解與語音輸出,但當前仍以“視覺+文本”為核心輸入范式,對音頻輸入、精細時序對齊及跨模態(tài)聯(lián)合推理的支持仍有限。
未來,系統(tǒng)將演進為統(tǒng)一的全模態(tài)代理框架,打通視頻、圖像、音頻與文本的輸入輸出,實現(xiàn)真正的感知-執(zhí)行閉環(huán);
同時強化長時程建模、空間理解與跨模態(tài)對齊能力,并持續(xù)優(yōu)化低延遲部署與記憶、工具調用機制,以支撐更真實世界的具身交互。
[1]https://jackyu6.github.io/StreamingClaw-Page/
[2]https://arxiv.org/pdf/2603.22120
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.