![]()
![]()
Feeling AI要補齊的,是世界模型最被低估的一塊拼圖——動態交互的模型層能力。
作者|周悅
編輯|王博
《上古卷軸5》發售已經超過十四年,但有一個細節一直卡在Feeling AI創始人戴勃腦海里。
玩家在游戲里已經是龍裔、戰友團隊長、盜賊公會會長,走南闖北成就了一番事業,回到雪漫城,城門口的守衛還是不認識你。
“按道理你已經是世界有名的人了,他的對話邏輯應該要有變化的。”他說。
更讓他出戲的,是戰斗里的NPC:“打多了,能發現規律,甚至可以利用規律,知道它會在哪個時刻過來,然后耍一道帥氣的鐮刀背刺。”
戴勃把這種落差叫做“缺乏活人感”。不久前發布的MemBrain(記憶)和CodeBrain(規劃),正是為了解決這個問題。
但這兩個項目并非刻意設計,而是在工程和產品化中催生的結果。
Feeling AI最初想做的是動態交互世界,用戶和AI共同身處一個持續變化的世界,每個角色有記憶、性格和獨立的行動邏輯。
在最初的嘗試中,大部分開發者和用戶都不排斥這個方向,“想法很好”,但彼時技術托不住產品效果。NPC能接話,但不能把前情自然帶到下一輪反饋;能生成幾步計劃,卻無法在變化的世界里連貫行動。
戴勃說,核心問題在角色的記憶和規劃能力上。現有方案不夠用,團隊索性自己動手,做出了負責記憶的MemBrain和負責規劃的CodeBrain。跑完Benchmark發現性能高出業界方案,在全球基準中都取得領先表現。“團隊一致覺得應該開源,因為總有更多人會碰到類似需求。”
“CodeBrain和MemBrain,就是為了活人感而生的。”戴勃告訴「甲子光年」。其背后更重要的目標,是為世界模型配上一個原生的Agentic大腦。
從玩家執念,到一頭扎進的底層技術,戴勃的履歷足夠支撐這種跨度。2014年他從上海交大ACM班畢業后進入香港中文大學讀博,開始深耕生成式AI方向的研究,從語言、圖像到動態視頻生成和3DGS,研究成果橫跨多種模態。
戴勃曾任職于新加坡南洋理工大學和上海人工智能實驗室(AI Lab),創辦的Feeling AI已完成兩輪超億元融資,是國內最早探索世界模型和3D動態交互的團隊之一。
![]()
Feeling AI創始人戴勃,圖片來源:受訪者
近期在接受「甲子光年」獨家專訪時,戴勃首次完整復盤了這條隱秘的路線:一個游戲里的老問題,如何催生產品、開源項目,并最終指向了他們對世界模型的判斷。
同時,戴勃還透露,Feeling AI即將發布并開源MemBrain1.5和CodeBrain。前者在多項指標超越SOTA,并提供了可直接體驗的可視化Demo;后者技術指標領先,且大幅降低使用成本,支持多語言、Monorepo感知和零框架耦合等功能,并將20個底層LSP操作整合為大模型所需的工具。
1.記憶的“中庸之道”
AI究竟該擁有怎樣的記憶?
戴勃的判斷簡單而直接:“完全不記得肯定不行,但什么都記得一字不差也很奇怪,人的記憶需要中庸。”
重要的事能保留下來,細節會隨時間模糊,舊經歷會自然融入新反應,這才接近真實的人的狀態,而不是一個什么都存、隨時精準檢索的數據庫。
目前,智能體記憶(Agent Memory)的技術路線尚未收斂,現有的解法都難以呈現這種“中庸”的活人感。
一派偏向圖結構,將知識拆解為實體、關系和事件,依靠圖算法檢索和推理。優點是結構嚴密,但很死板;另一派則更接近OpenClaw這樣的純文本(Markdown-first)路線,把記憶寫成語言模型最熟悉的文本格式。雖然親和語言模型,但將海量信息的判斷全權交由模型發揮,穩定性又無法保證。
為了實現“活人感”,MemBrain避開了這兩條老路,做了三處底層創新。
第一,打破線性流程。傳統記憶系統的調用順序是寫死的:檢索、總結、回答。但人的記憶是隨機的、跳躍的。“我說著說著突然想到了什么,然后說法又變了”,戴勃解釋說。為了模擬這種動態,MemBrain把記憶的抽取、整合、提取交給不同的子智能體(Sub-Agent)各司其職、自主協調,提升靈活性。
第二,讓語言模型真正參與推理。許多主流方案依賴圖結構存儲知識,但在檢索時,圖算法與大語言模型之間存在著難以逾越的范式差異——前者在圖節點上做復雜運算,后者則是線性的Next-token(下一個詞)預測。“圖算法在算的時候,語言模型只能站在旁邊看著,幫不上忙。”為了解決這個問題,MemBrain改用了與語言模型更親和的組織方式,讓模型直接參與記憶處理,而不是干等圖算法出結果再接收。
第三,嚴控時間戳。“昨天”“上周三”“3月24號”……在自然語言中,同一個時間點有無數種模糊的表達。如果不做統一的標準化處理,事件的發生順序極易陷入混亂,記憶的溯源更是無從談起。MemBrain將時間戳嚴格精確到秒,并引入自適應實體樹算法,優化實體、事件與關系在時間軸上的組織結構。
這套改法有一個共同的出發點:不把AI記憶做成一個更精準的檢索系統,而是讓它更接近人的記憶運作方式,有主見、有順序感、能自己判斷什么重要。
今年2月,Feeling AI正式開源了MemBrain 1.0。在LoCoMo和LongMemEval兩項主流測試基準上,MemBrain 1.0分別以93.25%和84.6%的準確率實現SOTA。而在考察隱性畫像捕捉能力的PersonaMem-v2測試基準上,MemBrain 1.0以51.50%的準確率超越現有方案。
但真正能驗證“活人感”的,是那些更逼近人類能力的測試。
以Hugging Face廣受關注的Knowme-Bench基準為例,該評測要求模型不能只做基礎的精確記憶抽取,而是必須基于龐雜的記憶內容,完成深層分析與復雜推理。
結果顯示,Membrain 1.0在Knowme-Bench基準測試高階認知任務中表現出了明顯優勢。特別是在難度登頂的Level III級別(涵蓋心身交互與專家級心理分析的T6、T7 兩個子任務)中,Membrain 1.0的成績比現有最高紀錄提升了300%以上。
「甲子光年」獨家獲悉,Feeling AI即將發布并開源MemBrain1.5。“除了各項指標超越了之前的SOTA,還做了一些可以讓用戶直接嘗試的Demo和方便開發者測試使用的可視化工具。”戴勃介紹。
MemBrain解決“記住什么”,CodeBrain處理“接下去怎么做”。
今年春節前,CodeBrain-1搭載GPT-5.3-Codex底座模型在衡量Agent真實工程能力全球權威基準Terminal-Bench 2.0榜單上沖到72.9%并躋身全球排行榜前列,成為榜單前10中唯一的中國團隊。
規劃能力在現有Agent系統里并不罕見,技術深水區在于,當任務復雜度呈指數級上升后,執行的成功率還能否穩得住。“如果規劃了三五次,成功率只有20%,你很難說這是個好的CodeBrain。”戴勃強調。
為此,CodeBrain在架構中引入了一層極重的校驗模塊(Verification),模型在生成規劃鏈之后,必須先對該計劃的可行性進行自我驗證與倒推,把復雜任務的執行成功率拉上來。
戴勃說,“CodeBrain一樣也會在幾天后開源,除了技術指標的領先,CodeBrain還大幅降低了開發者和付費用戶的使用成本。”預計開源的版本中還會支持多種供開發者靈活使用的功能,比如多語言支持、Monorepo感知和零框架耦合等,還直接將20個底層LSP操作整合為大模型實際需要的工具。
2.缺失的拼圖
但“活人感”不只是記憶和規劃的問題。
即使NPC記住了你、規劃出了下一步,如果它的動作還像機器人,轉身的角度生硬,出拳的節奏固定,走路沒有慣性,仍然沒有活人感。記憶和規劃解決的是“想什么”,動作本身才是活人感最直接的載體。
要理解這個問題,需要先看戴勃對世界模型的拆解。
在他看來,世界模型不是一個單一的模型,而是三層結構。最上面是邏輯層,處理記憶和規劃,解決“我想干什么”——MemBrain和CodeBrain屬于這層。最下面是表現層,負責3D環境、視頻生成、交互界面,把結果呈現出來。
![]()
Feeling AI動力學世界模型架構圖,圖片來源:Feeling AI公眾號
夾在中間的是動態層,負責把“想法”真正變成“行為和表現”。這正是他認為整個行業最缺的那塊拼圖。
他用“口渴喝水”來解釋三層的關系:想到要去喝水是邏輯層;伸手拿杯子是動態層;動作呈現在屏幕里是表現層。少了中間那層,邏輯和表現之間就是斷的。
業內關于世界模型的討論已經很多,各方側重點不同。有人專注靜態的3D環境表征,以李飛飛的World Labs為代表;有人傾向于在壓縮隱空間內做核心狀態預測,以楊立昆(Yann LeCun)的AMI團隊為代表。
“但我們覺得,中間還缺一個東西——動態。”戴勃說。
動態層的難點在于,現有的生成模型本質上還在做“下一幀預測”,把過去若干幀作為輸入,靠概率去猜下一幀。這個黑盒學到的是視覺表觀的相關性,而不是物理因果。一旦拉長推演時間或進行實時交互,誤差便會積累,出現動作漂移、接觸錯位等問題,越來越像在模仿運動,而不是真正掌握運動規律。
戴勃的解法,是先把圍繞以人為中心的“運動主體”和與人類運動息息相關的“交互客體”找到合適的結構表示,再讓模型去學它們之間如何相互作用。換句話說,把物理先驗作為模型的底層基礎,而不只是外部約束。
當模型具備了內在的物理約束,推理過程就不再是黑盒。“它不是一個black box,你知道它背后是什么,就不會擔心下一個時刻動態又不對了。”據戴勃透露,在這套世界模型架構下,團隊已經取得了一些里程碑式的進展。
通過這個全新架構的動力學世界模型,在3D原生的結構下通過原創的IKGT算法(Interactable Kinetics Grounded Transformer),實現對人類運動交互的生成與狀態預測。模型首次在CPU上跑出300FPS的響應速率,連續運行40分鐘也不會出現明顯的動作漂移,且模型通過實時推理達到了100%的狀態重置和糾偏,魯棒性極強。
3.四年四輪驗證
把物理先驗嵌進大模型,不能停留在理論層面。在MemBrain和CodeBrain出現前,戴勃和團隊在動力學這條路上已經走了四年,且每一輪都在主動拉高難度。
2022年,從水和木頭起步。用神經網絡預測粒子系統的動態時序交互,取代傳統圖形學的物理公式求解。結果顯示,無論將方形木塊換成圓形或者其他形狀,或是改變水量,同一個神經網絡都能正確預測,泛化性顯著。
2023年,他們主動把難度提高一個層級,驗證多層衣服的可能性。當時公開研究多停留在單層衣物,戴勃覺得這個難度不夠,直接處理外套內搭毛衣的接觸與摩擦。“我們覺得,不管一件還是幾件衣服,應該用同一套方法處理。”測試表明,無論是層數增加、拓撲結構改變,還是人體動作切換,模型都保持了穩定。
2024年,團隊嘗試了另一種難度維度的跨越,壓縮訓練數據。如果訓練數據只有一塊四方形布料的視頻,模型能否推演至由同材質、任意形狀的衣服,在不同人做不同動作時的動態變化?
結果是可行的。“從F=ma出發,因為布料和同種材質的衣服遵循同樣的動力學先驗,學會布料怎么動,自然就能泛化到更復雜的情況。”戴勃解釋,動力學先驗給了模型基礎,它就不需要那么多數據了。
2024到2025年間,從仿真系統延伸至真實自然環境。團隊從現實中重建花草樹木,讓模型學習它們受力后的動態。“只觀察過它在某種風力下的晃動,但學到了它的動力學模型。用手撥它,把花壓到很低,松開之后它會彈,會自己在那晃——這個運動軌跡是合理的。“戴勃形容觀察到的變化。
從流體、固體到柔性物體,從極少數據到真實場景,四輪下來,每輪比上一輪難,每輪都對了。“一次、兩次、三次、四次驗證了這一套技術路線,就非常信了。”戴勃說。即使在外界看來這條路屬于非共識,團隊也沒有換方向,“非共識有壓力,但也是機會。”
4.通往“綠洲”的現實路徑
“以終為始,求上得中。”戴勃用這句話解釋Feeling AI的底層邏輯,用工程和產品落地的硬性標準,反向倒逼模型能力的進化。
這條路不僅催生了MemBrain和CodeBrain,也讓他看清了另一件事,在底層能力沒到位之前,盲目的推進產品,精力只會消耗在無休止的打補丁上。
他打了個比方:在GPT-2的時代做應用,無論如何修補,能力天花板就擺在那里。與其勉強應付,不如先把模型推到GPT-3的水平,ChatGPT會自然生長出來。
“從產品導向去回答這個問題,本身就不夠AI Native(AI原生)。”戴勃說這是創業以來最有價值的經驗。
在他看來,算法出身的創業者總有一種慣性,相信算法是萬能的,“有點唯算法論的意思”。但持續“求真”和“求證”的過程讓他意識到,不是所有體驗都能靠產品設計修補,哪層的問題就在哪層解決。
“用戶體驗不會為模型的能力找借口,但會消耗用戶的熱愛。”Feeling AI的定位由此清晰,一家做世界模型的基模公司。
正如語言模型催生了OpenAI這類基模公司,戴勃相信世界模型在Scaling到一定階段之后,也會長出自己的原生應用。“但那是技術到位之后自然會發生的事,現在的重心應該放在技術本身。”
2023年,視頻生成最火熱時他沒有選擇沿著爆火的AnimateDiff繼續往前走,2024年世界模型還只是個陌生的概念時,他在講如何構建Real-Sim-Real閉環。
2026年,他認為:“現在終于有機會可以參與定義世界模型底層能力,這很AI Native。”
戰術隨之清晰,邏輯層離貼近現有大模型生態,成熟快,率先開源接受驗證;動力學世界模型體量大、門檻高,現階段重心在其規模化(Scaling)上。“我們現在要走的是從Transformer到GPT-3的那段路。”
數據是核心瓶頸。物理先驗雖然降低了門檻,但Scaling到一定規模,絕對數量依然龐大。
Feeling AI團隊自研從視頻里抽取運動數據的算法,以“合成數據保量、真實數據保質”。目標是2026年下半年推出完成第一階段Scaling的版本,并開放API,從而打通邏輯層、動態層和表現層。
戴勃把當前世界模型賽道比作“盲人摸象”,有人摸到鼻子,有人摸到腿,說的都沒錯,但都是局部。Feeling AI選擇從第一性原理出發,主動思考如何構建底層基礎設施:“動力學,或者說動態交互能力,一定是最核心的那塊拼圖。”
“如何融合這些局部找到最終答案,是整個行業長期的命題;而我們篤定從這個方向往里走,是因為覺得動力學最重要,也最被低估。”戴勃表示。
當談及世界模型與具身智能。戴勃觀察到,世界模型正趨向具身智能,相關仿真訓練和數據公司也在尋求合作。但他認為,完整的世界模型架構,更可能先在游戲等互動內容中完成閉環,“那里會是數字世界與真實世界相連接的第一個試驗場。”
采訪臨近尾聲,當被問及這套“人與AI共創、自然演進”的愿景是否像電影《頭號玩家》里的“綠洲”時,戴勃愣了一下,笑了:“這是創業最初的沖動,《頭號玩家》里的‘綠洲’就像是一個暗號。沒想到是你先說出來的。”
《上古卷軸5》里NPC那些套話,戴勃顯然記了很久。現在他做的事,是從底層解決“活人感”缺失的老問題。不是多塞幾句擬人臺詞,而是讓角色真正生活在有記憶、會演化、互相影響的動態世界里。
從一塊方形的布,到一朵受力回彈的花,再到實戰催生出來的MemBrain和CodeBrain,這條路他走了四年,還沒走完。
“這是一個比較長期的事情,”戴勃說,“但方向是對的。”
*參考材料:
1."Transformer with implicit edges for particle-based physics simulation." European conference on computer vision. Cham: Springer Nature Switzerland, 2022.
2."Towards multi-layered 3d garments animation." Proceedings of the IEEE/CVF international conference on computer vision. 2023.
3."Learning 3D Garment Animation from Trajectories of A Piece of Cloth." Advances in Neural Information Processing Systems 37 (2024): 41803-41825.
4."GausSim: Foreseeing Reality by Gaussian Simulator for Elastic Objects." In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 7841-7850. 2025.
(封面圖來源:AI生成)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.