網易首頁 > 網易號 > 正文申請入駐

獨家專訪Feeling AI創始人戴勃：我想讓世界模型更有“活人感”｜甲子光年

2026-04-02 17:12:22　來源: 甲子光年

北京舉報

分享至

Feeling AI要補齊的，是世界模型最被低估的一塊拼圖——動態交互的模型層能力。

作者｜周悅

編輯｜王博

《上古卷軸5》發售已經超過十四年，但有一個細節一直卡在Feeling AI創始人戴勃腦海里。

玩家在游戲里已經是龍裔、戰友團隊長、盜賊公會會長，走南闖北成就了一番事業，回到雪漫城，城門口的守衛還是不認識你。

“按道理你已經是世界有名的人了，他的對話邏輯應該要有變化的。”他說。

更讓他出戲的，是戰斗里的NPC：“打多了，能發現規律，甚至可以利用規律，知道它會在哪個時刻過來，然后耍一道帥氣的鐮刀背刺。”

戴勃把這種落差叫做“缺乏活人感”。不久前發布的MemBrain（記憶）和CodeBrain（規劃），正是為了解決這個問題。

但這兩個項目并非刻意設計，而是在工程和產品化中催生的結果。

Feeling AI最初想做的是動態交互世界，用戶和AI共同身處一個持續變化的世界，每個角色有記憶、性格和獨立的行動邏輯。

在最初的嘗試中，大部分開發者和用戶都不排斥這個方向，“想法很好”，但彼時技術托不住產品效果。NPC能接話，但不能把前情自然帶到下一輪反饋；能生成幾步計劃，卻無法在變化的世界里連貫行動。

戴勃說，核心問題在角色的記憶和規劃能力上。現有方案不夠用，團隊索性自己動手，做出了負責記憶的MemBrain和負責規劃的CodeBrain。跑完Benchmark發現性能高出業界方案，在全球基準中都取得領先表現。“團隊一致覺得應該開源，因為總有更多人會碰到類似需求。”

“CodeBrain和MemBrain，就是為了活人感而生的。”戴勃告訴「甲子光年」。其背后更重要的目標，是為世界模型配上一個原生的Agentic大腦。

從玩家執念，到一頭扎進的底層技術，戴勃的履歷足夠支撐這種跨度。2014年他從上海交大ACM班畢業后進入香港中文大學讀博，開始深耕生成式AI方向的研究，從語言、圖像到動態視頻生成和3DGS，研究成果橫跨多種模態。

戴勃曾任職于新加坡南洋理工大學和上海人工智能實驗室（AI Lab），創辦的Feeling AI已完成兩輪超億元融資，是國內最早探索世界模型和3D動態交互的團隊之一。

Feeling AI創始人戴勃，圖片來源：受訪者

近期在接受「甲子光年」獨家專訪時，戴勃首次完整復盤了這條隱秘的路線：一個游戲里的老問題，如何催生產品、開源項目，并最終指向了他們對世界模型的判斷。

同時，戴勃還透露，Feeling AI即將發布并開源MemBrain1.5和CodeBrain。前者在多項指標超越SOTA，并提供了可直接體驗的可視化Demo；后者技術指標領先，且大幅降低使用成本，支持多語言、Monorepo感知和零框架耦合等功能，并將20個底層LSP操作整合為大模型所需的工具。

1.記憶的“中庸之道”

AI究竟該擁有怎樣的記憶？

戴勃的判斷簡單而直接：“完全不記得肯定不行，但什么都記得一字不差也很奇怪，人的記憶需要中庸。”

重要的事能保留下來，細節會隨時間模糊，舊經歷會自然融入新反應，這才接近真實的人的狀態，而不是一個什么都存、隨時精準檢索的數據庫。

目前，智能體記憶（Agent Memory）的技術路線尚未收斂，現有的解法都難以呈現這種“中庸”的活人感。

一派偏向圖結構，將知識拆解為實體、關系和事件，依靠圖算法檢索和推理。優點是結構嚴密，但很死板；另一派則更接近OpenClaw這樣的純文本（Markdown-first）路線，把記憶寫成語言模型最熟悉的文本格式。雖然親和語言模型，但將海量信息的判斷全權交由模型發揮，穩定性又無法保證。

為了實現“活人感”，MemBrain避開了這兩條老路，做了三處底層創新。

第一，打破線性流程。傳統記憶系統的調用順序是寫死的：檢索、總結、回答。但人的記憶是隨機的、跳躍的。“我說著說著突然想到了什么，然后說法又變了”，戴勃解釋說。為了模擬這種動態，MemBrain把記憶的抽取、整合、提取交給不同的子智能體（Sub-Agent）各司其職、自主協調，提升靈活性。

第二，讓語言模型真正參與推理。許多主流方案依賴圖結構存儲知識，但在檢索時，圖算法與大語言模型之間存在著難以逾越的范式差異——前者在圖節點上做復雜運算，后者則是線性的Next-token（下一個詞）預測。“圖算法在算的時候，語言模型只能站在旁邊看著，幫不上忙。”為了解決這個問題，MemBrain改用了與語言模型更親和的組織方式，讓模型直接參與記憶處理，而不是干等圖算法出結果再接收。

第三，嚴控時間戳。“昨天”“上周三”“3月24號”……在自然語言中，同一個時間點有無數種模糊的表達。如果不做統一的標準化處理，事件的發生順序極易陷入混亂，記憶的溯源更是無從談起。MemBrain將時間戳嚴格精確到秒，并引入自適應實體樹算法，優化實體、事件與關系在時間軸上的組織結構。

這套改法有一個共同的出發點：不把AI記憶做成一個更精準的檢索系統，而是讓它更接近人的記憶運作方式，有主見、有順序感、能自己判斷什么重要。

今年2月，Feeling AI正式開源了MemBrain 1.0。在LoCoMo和LongMemEval兩項主流測試基準上，MemBrain 1.0分別以93.25%和84.6%的準確率實現SOTA。而在考察隱性畫像捕捉能力的PersonaMem-v2測試基準上，MemBrain 1.0以51.50%的準確率超越現有方案。

但真正能驗證“活人感”的，是那些更逼近人類能力的測試。

以Hugging Face廣受關注的Knowme-Bench基準為例，該評測要求模型不能只做基礎的精確記憶抽取，而是必須基于龐雜的記憶內容，完成深層分析與復雜推理。

結果顯示，Membrain 1.0在Knowme-Bench基準測試高階認知任務中表現出了明顯優勢。特別是在難度登頂的Level III級別（涵蓋心身交互與專家級心理分析的T6、T7 兩個子任務）中，Membrain 1.0的成績比現有最高紀錄提升了300%以上。

「甲子光年」獨家獲悉，Feeling AI即將發布并開源MemBrain1.5。“除了各項指標超越了之前的SOTA，還做了一些可以讓用戶直接嘗試的Demo和方便開發者測試使用的可視化工具。”戴勃介紹。

MemBrain解決“記住什么”，CodeBrain處理“接下去怎么做”。

今年春節前，CodeBrain-1搭載GPT-5.3-Codex底座模型在衡量Agent真實工程能力全球權威基準Terminal-Bench 2.0榜單上沖到72.9%并躋身全球排行榜前列，成為榜單前10中唯一的中國團隊。

規劃能力在現有Agent系統里并不罕見，技術深水區在于，當任務復雜度呈指數級上升后，執行的成功率還能否穩得住。“如果規劃了三五次，成功率只有20%，你很難說這是個好的CodeBrain。”戴勃強調。

為此，CodeBrain在架構中引入了一層極重的校驗模塊（Verification），模型在生成規劃鏈之后，必須先對該計劃的可行性進行自我驗證與倒推，把復雜任務的執行成功率拉上來。

戴勃說，“CodeBrain一樣也會在幾天后開源，除了技術指標的領先，CodeBrain還大幅降低了開發者和付費用戶的使用成本。”預計開源的版本中還會支持多種供開發者靈活使用的功能，比如多語言支持、Monorepo感知和零框架耦合等，還直接將20個底層LSP操作整合為大模型實際需要的工具。

2.缺失的拼圖

但“活人感”不只是記憶和規劃的問題。

即使NPC記住了你、規劃出了下一步，如果它的動作還像機器人，轉身的角度生硬，出拳的節奏固定，走路沒有慣性，仍然沒有活人感。記憶和規劃解決的是“想什么”，動作本身才是活人感最直接的載體。

要理解這個問題，需要先看戴勃對世界模型的拆解。

在他看來，世界模型不是一個單一的模型，而是三層結構。最上面是邏輯層，處理記憶和規劃，解決“我想干什么”——MemBrain和CodeBrain屬于這層。最下面是表現層，負責3D環境、視頻生成、交互界面，把結果呈現出來。

Feeling AI動力學世界模型架構圖，圖片來源：Feeling AI公眾號

夾在中間的是動態層，負責把“想法”真正變成“行為和表現”。這正是他認為整個行業最缺的那塊拼圖。

他用“口渴喝水”來解釋三層的關系：想到要去喝水是邏輯層；伸手拿杯子是動態層；動作呈現在屏幕里是表現層。少了中間那層，邏輯和表現之間就是斷的。

業內關于世界模型的討論已經很多，各方側重點不同。有人專注靜態的3D環境表征，以李飛飛的World Labs為代表；有人傾向于在壓縮隱空間內做核心狀態預測，以楊立昆（Yann LeCun）的AMI團隊為代表。

“但我們覺得，中間還缺一個東西——動態。”戴勃說。

動態層的難點在于，現有的生成模型本質上還在做“下一幀預測”，把過去若干幀作為輸入，靠概率去猜下一幀。這個黑盒學到的是視覺表觀的相關性，而不是物理因果。一旦拉長推演時間或進行實時交互，誤差便會積累，出現動作漂移、接觸錯位等問題，越來越像在模仿運動，而不是真正掌握運動規律。

戴勃的解法，是先把圍繞以人為中心的“運動主體”和與人類運動息息相關的“交互客體”找到合適的結構表示，再讓模型去學它們之間如何相互作用。換句話說，把物理先驗作為模型的底層基礎，而不只是外部約束。

當模型具備了內在的物理約束，推理過程就不再是黑盒。“它不是一個black box，你知道它背后是什么，就不會擔心下一個時刻動態又不對了。”據戴勃透露，在這套世界模型架構下，團隊已經取得了一些里程碑式的進展。

通過這個全新架構的動力學世界模型，在3D原生的結構下通過原創的IKGT算法（Interactable Kinetics Grounded Transformer），實現對人類運動交互的生成與狀態預測。模型首次在CPU上跑出300FPS的響應速率，連續運行40分鐘也不會出現明顯的動作漂移，且模型通過實時推理達到了100%的狀態重置和糾偏，魯棒性極強。

3.四年四輪驗證

把物理先驗嵌進大模型，不能停留在理論層面。在MemBrain和CodeBrain出現前，戴勃和團隊在動力學這條路上已經走了四年，且每一輪都在主動拉高難度。

2022年，從水和木頭起步。用神經網絡預測粒子系統的動態時序交互，取代傳統圖形學的物理公式求解。結果顯示，無論將方形木塊換成圓形或者其他形狀，或是改變水量，同一個神經網絡都能正確預測，泛化性顯著。

2023年，他們主動把難度提高一個層級，驗證多層衣服的可能性。當時公開研究多停留在單層衣物，戴勃覺得這個難度不夠，直接處理外套內搭毛衣的接觸與摩擦。“我們覺得，不管一件還是幾件衣服，應該用同一套方法處理。”測試表明，無論是層數增加、拓撲結構改變，還是人體動作切換，模型都保持了穩定。

2024年，團隊嘗試了另一種難度維度的跨越，壓縮訓練數據。如果訓練數據只有一塊四方形布料的視頻，模型能否推演至由同材質、任意形狀的衣服，在不同人做不同動作時的動態變化？

結果是可行的。“從F=ma出發，因為布料和同種材質的衣服遵循同樣的動力學先驗，學會布料怎么動，自然就能泛化到更復雜的情況。”戴勃解釋，動力學先驗給了模型基礎，它就不需要那么多數據了。

2024到2025年間，從仿真系統延伸至真實自然環境。團隊從現實中重建花草樹木，讓模型學習它們受力后的動態。“只觀察過它在某種風力下的晃動，但學到了它的動力學模型。用手撥它，把花壓到很低，松開之后它會彈，會自己在那晃——這個運動軌跡是合理的。“戴勃形容觀察到的變化。

從流體、固體到柔性物體，從極少數據到真實場景，四輪下來，每輪比上一輪難，每輪都對了。“一次、兩次、三次、四次驗證了這一套技術路線，就非常信了。”戴勃說。即使在外界看來這條路屬于非共識，團隊也沒有換方向，“非共識有壓力，但也是機會。”

4.通往“綠洲”的現實路徑

“以終為始，求上得中。”戴勃用這句話解釋Feeling AI的底層邏輯，用工程和產品落地的硬性標準，反向倒逼模型能力的進化。

這條路不僅催生了MemBrain和CodeBrain，也讓他看清了另一件事，在底層能力沒到位之前，盲目的推進產品，精力只會消耗在無休止的打補丁上。

他打了個比方：在GPT-2的時代做應用，無論如何修補，能力天花板就擺在那里。與其勉強應付，不如先把模型推到GPT-3的水平，ChatGPT會自然生長出來。

“從產品導向去回答這個問題，本身就不夠AI Native（AI原生）。”戴勃說這是創業以來最有價值的經驗。

在他看來，算法出身的創業者總有一種慣性，相信算法是萬能的，“有點唯算法論的意思”。但持續“求真”和“求證”的過程讓他意識到，不是所有體驗都能靠產品設計修補，哪層的問題就在哪層解決。

“用戶體驗不會為模型的能力找借口，但會消耗用戶的熱愛。”Feeling AI的定位由此清晰，一家做世界模型的基模公司。

正如語言模型催生了OpenAI這類基模公司，戴勃相信世界模型在Scaling到一定階段之后，也會長出自己的原生應用。“但那是技術到位之后自然會發生的事，現在的重心應該放在技術本身。”

2023年，視頻生成最火熱時他沒有選擇沿著爆火的AnimateDiff繼續往前走，2024年世界模型還只是個陌生的概念時，他在講如何構建Real-Sim-Real閉環。

2026年，他認為：“現在終于有機會可以參與定義世界模型底層能力，這很AI Native。”

戰術隨之清晰，邏輯層離貼近現有大模型生態，成熟快，率先開源接受驗證；動力學世界模型體量大、門檻高，現階段重心在其規模化（Scaling）上。“我們現在要走的是從Transformer到GPT-3的那段路。”

數據是核心瓶頸。物理先驗雖然降低了門檻，但Scaling到一定規模，絕對數量依然龐大。

Feeling AI團隊自研從視頻里抽取運動數據的算法，以“合成數據保量、真實數據保質”。目標是2026年下半年推出完成第一階段Scaling的版本，并開放API，從而打通邏輯層、動態層和表現層。

戴勃把當前世界模型賽道比作“盲人摸象”，有人摸到鼻子，有人摸到腿，說的都沒錯，但都是局部。Feeling AI選擇從第一性原理出發，主動思考如何構建底層基礎設施：“動力學，或者說動態交互能力，一定是最核心的那塊拼圖。”

“如何融合這些局部找到最終答案，是整個行業長期的命題；而我們篤定從這個方向往里走，是因為覺得動力學最重要，也最被低估。”戴勃表示。

當談及世界模型與具身智能。戴勃觀察到，世界模型正趨向具身智能，相關仿真訓練和數據公司也在尋求合作。但他認為，完整的世界模型架構，更可能先在游戲等互動內容中完成閉環，“那里會是數字世界與真實世界相連接的第一個試驗場。”

采訪臨近尾聲，當被問及這套“人與AI共創、自然演進”的愿景是否像電影《頭號玩家》里的“綠洲”時，戴勃愣了一下，笑了：“這是創業最初的沖動，《頭號玩家》里的‘綠洲’就像是一個暗號。沒想到是你先說出來的。”

《上古卷軸5》里NPC那些套話，戴勃顯然記了很久。現在他做的事，是從底層解決“活人感”缺失的老問題。不是多塞幾句擬人臺詞，而是讓角色真正生活在有記憶、會演化、互相影響的動態世界里。

從一塊方形的布，到一朵受力回彈的花，再到實戰催生出來的MemBrain和CodeBrain，這條路他走了四年，還沒走完。

“這是一個比較長期的事情，”戴勃說，“但方向是對的。”

*參考材料：

1."Transformer with implicit edges for particle-based physics simulation." European conference on computer vision. Cham: Springer Nature Switzerland, 2022.

2."Towards multi-layered 3d garments animation." Proceedings of the IEEE/CVF international conference on computer vision. 2023.

3."Learning 3D Garment Animation from Trajectories of A Piece of Cloth." Advances in Neural Information Processing Systems 37 (2024): 41803-41825.

4."GausSim: Foreseeing Reality by Gaussian Simulator for Elastic Objects." In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 7841-7850. 2025.

(封面圖來源：AI生成)

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.