<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      螞蟻深夜開源比肩Genie 3的世界模型,我也看到了具身智能的未來。

      0
      分享至

      AI圈最近是卷瘋了嗎,模型跟不要錢一樣kuku的往外發。

      今天凌晨的時候。

      螞蟻在毫無預兆的情況下,他們旗下的具身智能公司,靈波科技,開源了一個非常非常離譜的世界模型。

      LingBot-World。


      我其實本身是真的沒有當回事的,就是因為我對世界模型還比較關注,就隨手點進去看了眼。

      結果,我真的有點停不下來了,我在這個頁面里,花了半個小時的時候,幾乎看完了所有的案例。

      我是真的覺得有點離譜,幾乎可以對標Google Genie 3的質量,而且,開源。

      我直接放個case。

      一個1分鐘的,第一人稱探索的視角。

      我不知道你們是什么感覺,如果玩游戲很多的朋友,可能會說,這有啥稀奇的,不就是一個普通的游戲里面的那種廢棄小鎮場景嗎,不就是第一人稱在里面探索嗎。

      對,但是如果你知道,這一切的源頭,這個世界里面所有的一切,都是根據你的方向鍵,用視頻動態生成的。

      我相信你一定會有不一樣的感覺。

      這是一個完完全全的,一邊探索一邊生成的世界。

      這個視頻里面的一切,都是實時交互的,實時按鍵實時運動的。

      言出法隨,指哪打哪。

      我凌晨1點多,第一次看到這個demo,同時意識到,這是一個世界模型的時候,我其實是起了一些雞皮疙瘩的。

      還有這個,實時生成的巨物壓迫感,真的非常的真實了。

      最離譜的是這個。

      一個10分鐘的視頻,他們讓模型一個人就這么沿著古建筑群瞎逛,逛了整 整十分鐘,中間確實偶爾有一些變形,但是,到最后了,這個古建筑居然沒有崩掉,太離譜了。

      之前測過一個叫 Odyssey的世界模型產品。

      別說10分鐘了,1分鐘就直接崩成這樣了。


      而且毫無記憶能力,我只要一回頭,這個世界就變了樣,而且是每回頭一次,它就變一次。

      相當的嚇人。。。

      如果說要跟Sora、可靈這種視頻生成模型最大的區別是什么,我那覺得,一個是預先錄制的電影,另一個是可實時演算的模擬器。

      視頻生成模型,是他已經把整部電影拍完、剪好,加好特效,然后放給你看。

      畫面很精美,故事很完整,但你是純粹的觀眾,只能被動接受,無法改變任何事。

      而LingBot-World,你按W,它就往前生成世界,你按A,它就往左拓開空間。

      你輸一句“下雨了”,天空就真的變陰云密布,你說“來點煙花”,遠處城堡上空立刻炸開一朵。

      所有的一切,都是邊走邊算出來的,而不是提前渲染好放給你看。

      前者是敘事的終點,后者是世界的起點。

      太離譜了,要知道,這個模型,是跟之前Google Genie 3的路線一致,是可實時生成的世界模型。

      老粉可能還記得,我去年寫過。

      這篇文章到現在也是我覺得是我的一個很大的遺憾,它明明那么強,可是我沒有把它寫火讓更多的人看到,這是我的問題。

      我一直都非常關注這種可交互的實時生成的世界模型,但是坦率的講,Genie 3之后,幾乎再無同類,而且已經幾個月了,Genie 3到現在也不能體驗上。

      但今天,不僅有了,而且,還開源,甚至他們,把論文都發出來了。

      真的有點不敢相信這是我之前認知里那個螞蟻。。。

      項目網址在此: https://technology.robbyant.com/lingbot-world


      目前已經在github上開源了第一個版本,另外兩個版本等待放出。


      這三個版本我大概解釋一下。

      LingBot-World-Base (Cam) 代表Base系列里帶Camera Poses控制的版本。

      你在推理時會額外喂相機位姿或相機運動軌跡這類信號,所以它更擅長把鏡頭運動做得可控,適合你想明確指定推進鏡頭、環繞、俯仰、平移這類拍法的場景。

      表里寫的480P和720P也對應它當前提供的推理配置,這個版本目前已經放出權重和下載鏈接。

      LingBot-World-Base (Act) 代表Base系列里帶Actions控制的版本。

      這里的 Actions 更像“動作指令”或“行為控制”,讓你能用更結構化的方式去約束主體怎么動,往哪走,抬手,轉身之類。

      它的目標是把可控性從鏡頭擴展到行為層面,目前等待開源中。

      LingBot-World-Fast代表Fast系列,核心取向是低延遲與實時交互,一般會通過結構改造與加速手段,把推理做得更適合流式生成和邊交互邊出畫面。

      代價通常是質量上限會比 Base 略低一點點,優勢是響應更快更像實時世界模擬,延遲能低于1秒,能做到每秒16幀,目前等待開源中。

      模型參數量在28B左右,推理應該在14B。

      在看完了所有的case,以及論文以后。

      我給它總結了3個特點。

      分別是長時記憶很穩定、風格泛化性極強、很棒的動作代理。

      一. 長時記憶很穩定

      說實話,我們看世界模型,最核心的一個東西,看的一定是長時記憶。

      就跟我們用文本大模型一樣,他能不能記住前面的那么多的信息,這個事非常的重要。

      而在世界模型里,這個事,尤為重要,甚至就是第一位的。

      如果沒有長時記憶的模型,你可以想一想這個場景,你去廁所拉屎,打開了廁所門,進門,掀開馬桶蓋,一回頭,廁所門沒了,變成了一個不知道通往哪的過道,你再一回頭,馬桶也沒了,變成了一個小女孩就這么瞪著你。

      現在是凌晨3點20多,我寫下這段話的時候,我還忍不住回頭看了好幾次,我說實話,我真的突然有點慌。。。

      這就是沒有長時記憶的問題。

      可能在文字輸出的時候,他不記得之前的事了,可能影響還沒那么大。

      但是在一個可以互動的世界里,如果沒有了長時記憶,那就成了徹頭徹尾的恐怖片了,我們俗稱,鬼打墻。。。

      而 LingBot-World解決了這個問題。

      比如說這個case。

      可以看到,在這個過程中,在這個廊橋上,不管你怎么走,前看后看左看右看,那些建筑也絕對一直都在,甚至高墻和后面的建筑的遮擋關系,都會隨著你行走的距離而改變,當你扭頭看向別處的時候,回頭看,還在。

      這個長時記憶,就太牛逼了。

      還有這個。

      從看到這個開始,然后從肚皮下面穿越過去,在差不多的時候,你可以看到,你的視角是真的穿過了這個異獸的橫向面積,讓你感受到很真實。

      而沒有長時記憶的世界模型,可能在你穿的時候,直接就在它的肚皮下面穿了將近1分多鐘,甚至就在那鬼打墻了一直穿不過去,明顯時間尺度和距離尺度都不對。

      而Lingbot-World在這點上,就表現的非常好。

      二. 風格泛化性極強

      很多的世界模型,其實在風格上都比較固定。

      只能搞現實世界的,就是超寫實的那種,但是一旦涉及到非寫實的,一般效果就非常的差了。

      但是lingbot-World居然保持的相當好。

      比如這個例子。

      明顯能感覺到,雖然大劍還稍微有一點點不穩定,但是其他的地方,保持的非常好,已經媲美一些游戲的質感了。

      還有這個。

      在這種畫風下,整個世界模型沒有崩塌,這一點其實非常的難能可貴。

      核心其實在于LingBot-World在訓練的時候,真實視頻、游戲錄像、UE合成場景,全塞在一鍋里里面訓了,他們搞了大量游戲世界的數據,還有UE的合成數據。

      現實世界的視頻負責教它物理世界大概長啥樣,游戲世界負責教它人類在虛擬世界里是怎么玩的,然后合成世界則負責補齊那些現實很難系統采集的視角,比如各種極端運動軌跡、復雜相機路徑、極限視角。

      對模型來說,這三種東西在輸入上其實是統一的。

      就是都是一幀一幀的視頻,外加相機位置、動作指令、文本描述。

      它其實并不會像人類那樣心里有一條線,說哦這是真實的,哦這邊是游戲,它看到的只是不同分布的像素序列。

      這一點其實有點像機器人領域的域隨機化。

      就是很多具身公司,在做仿真訓練的時候,經常會把地面材質、光照、物體貼圖全打亂,讓機器人習慣各種詭異的組合,這樣下放到真實世界的成功率反而更高。

      Lingbot-World在這塊做的相當好。

      三. 很棒的動作代理

      世界模型如果只會自己滾動,不會被控制,那最多也就是一個超長、有記憶的屏保。

      真正好玩的是,當你把WASD和方向鍵綁上去,甚至把一個動作代理塞進去,在你操控的同時,里面的角色還可以自主行動和規劃。

      從而涌現出一些全新的事件和玩法,而不是那種單純的,步行模擬器,只會單純的走路和跑步而已。

      比如這個。

      你可以明顯的看到,這個布偶隨著方向的變化,而自主在房間里進行運動,在過程中還碰到了沙發,從而掉頭,避免了穿模。

      還有這個。

      并不是千篇一律的滑行,而是有急停、有變道,有自主運動。

      這一點也是完全不一樣的點,是我從來沒有見過的,很新,也很強。

      看了下論文,LingBot-World在動作這塊,主要干了兩條線的事。

      一條線是最直接的,你自己按鍵。

      你按 W,它往前生成,你按S,它往后拉,你長按A,它會幫你推演側身走一段路應該是什么樣子,這個看著好像理所當然,但其實背后代表著模型已經學會了一種還蠻重要的東西。

      動作不是單幀的,而是一個連續意圖。

      你按一下W,它不會只管下一幀往前挪一點點,而是會在內部自動幫你補出一整個往前走兩三步的節奏,把腿步伐、相機抖動、視差變化協同起來。

      否則你按W一下停一下,畫面只會抖成幀動畫。

      另一條線,是他們搞的那個AI玩自己世界的動作代理。

      你可以把它理解成給LingBot-World添了一個玩家。

      這個玩家看不到底層張量,它只看畫面和一些文字提示,然后決定“我要往哪走”“我要不要拐彎”“我要不要停下來多看一眼”。

      論文里是用一個微調的視覺語言模型來做這件事,看一幀圖,輸出接下來幾秒鐘的命令,讓 LingBot-World去執行。

      所以還真的挺有意思的,就真的像,我們在玩游戲的感覺。

      只不過這個游戲,我們是觀測者,我們決定向什么方向去,而AI,會在生成的空間,自主運動。

      這一點,確實是一個非常有意思的創新。

      LingBot-World很強,很有意思,讓我突然有了一種。

      24年春節2月16號的時候,同樣的深夜,同樣的凌晨,看到Sora的那一刻。

      世界模型,一直是一個全新的、未被探索、還有廣闊空間的領域。

      他不僅對游戲、對影視、對娛樂都有非常強的意義。

      而真正我覺得最核心的場景,其實是為了具身智能,一個優秀的、泛化能力強的世界模型,也能為具身的訓練,為他們對現實世界的理解和長程任務,提供低成本高保真的試錯空間。

      世界模型,也是AI真正由虛到實,進入我們現實空間中的必要條件之一。

      而螞蟻,居然是螞蟻。

      把這個進程,向前推了一大步。

      并且直接選擇開源,造福所有人。

      我很少會對一個技術demo感到興奮,而最近的興奮,坦誠的講,幾乎都來自世界模型。

      而LingBot-World讓我又有了當年最開始玩AI的那種感覺。

      世界模型成熟之后,來臨的,必然就是井噴式的、進入我們實體世界的、隨處可見的具身智能們。

      而那時。

      才是我心中,真正的AI時代。

      以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。

      >/ 作者:卡茲克

      >/ 投稿或爆料,請聯系郵箱:wzglyay@virxact.com

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      庫克:蘋果3月2日起“精彩一周”即將到來 多款新品發布

      庫克:蘋果3月2日起“精彩一周”即將到來 多款新品發布

      CNMO科技
      2026-02-26 23:02:09
      新婚女子手臂成亮點,“滿眼都是xxx”,難道新郎一點都不在乎?

      新婚女子手臂成亮點,“滿眼都是xxx”,難道新郎一點都不在乎?

      仙仙先生
      2026-01-30 09:35:22
      現場簽約!中方給出重磅見面禮,默茨輕飄飄2句話,斷了波音后路

      現場簽約!中方給出重磅見面禮,默茨輕飄飄2句話,斷了波音后路

      紀中百大事
      2026-02-26 19:59:58
      開工第一天,廣東人曬的不是利是,是成年人最真實的體面!

      開工第一天,廣東人曬的不是利是,是成年人最真實的體面!

      吃貨的分享
      2026-02-27 01:10:51
      男子地鐵連續3次猥褻同一女子,被抓后辯稱對方“像年輕時的妻子”,專門摸清了她的通勤時間和車廂,被判處有期徒刑8個月

      男子地鐵連續3次猥褻同一女子,被抓后辯稱對方“像年輕時的妻子”,專門摸清了她的通勤時間和車廂,被判處有期徒刑8個月

      大風新聞
      2026-02-26 16:45:03
      現場:M8 AGS輕型坦克在運輸途中 炮塔解鎖并旋轉 險些釀成事故

      現場:M8 AGS輕型坦克在運輸途中 炮塔解鎖并旋轉 險些釀成事故

      hawk26講武堂
      2026-02-26 13:13:33
      還是做好準備吧,一美元只能兌換5.5元人民幣時代,或許終會到來

      還是做好準備吧,一美元只能兌換5.5元人民幣時代,或許終會到來

      閱識
      2026-01-31 15:32:50
      75歲老人全新養老方式:不請保姆不去養老院,成本小老人舒心

      75歲老人全新養老方式:不請保姆不去養老院,成本小老人舒心

      孢木情感
      2026-02-21 12:15:25
      吉林一女子救下毒蛇,賴著不走12年,怪事不斷,至今無法解釋

      吉林一女子救下毒蛇,賴著不走12年,怪事不斷,至今無法解釋

      燦爛夏天
      2025-02-23 23:30:44
      廣東暴雨來了:華南雨季或提前趕到,南方大范圍潮濕持續

      廣東暴雨來了:華南雨季或提前趕到,南方大范圍潮濕持續

      中國氣象愛好者
      2026-02-26 22:48:24
      許家印侄子豪宅4400萬元起拍,最終5016萬元成交,其投資的廣州雅旭公司涉及781件司法案件

      許家印侄子豪宅4400萬元起拍,最終5016萬元成交,其投資的廣州雅旭公司涉及781件司法案件

      極目新聞
      2026-02-26 20:35:24
      顧客和商家熟悉后有啥后果?網友:對你口味了如指掌,比你還懂你

      顧客和商家熟悉后有啥后果?網友:對你口味了如指掌,比你還懂你

      解讀熱點事件
      2026-02-17 00:05:05
      丑聞曝光!前中國奧運冠軍爆料,恩師是披著人皮的狼,逼學員吃藥

      丑聞曝光!前中國奧運冠軍爆料,恩師是披著人皮的狼,逼學員吃藥

      北緯的咖啡豆
      2026-02-27 00:06:22
      你聽過最勁爆的瓜是啥?網友:被大八歲的補習班老師表白了

      你聽過最勁爆的瓜是啥?網友:被大八歲的補習班老師表白了

      帶你感受人間冷暖
      2025-11-26 00:10:06
      買斷工齡不用慌!2026下崗職工待遇與出路全說明

      買斷工齡不用慌!2026下崗職工待遇與出路全說明

      奇思妙想生活家
      2026-02-27 01:47:46
      中國男子在俄討薪遭毆打!別再迷信俄友好,去異國打工真不是天堂

      中國男子在俄討薪遭毆打!別再迷信俄友好,去異國打工真不是天堂

      老馬拉車莫少裝
      2026-02-27 00:56:33
      男子春節前將牛肉飯遺忘在辦公室,返工后發現其長出15厘米“黑色叢林”!

      男子春節前將牛肉飯遺忘在辦公室,返工后發現其長出15厘米“黑色叢林”!

      上觀新聞
      2026-02-26 17:19:08
      事實證明,61歲久居日本的丁克一族梁朝偉,早已選擇了另一種人生

      事實證明,61歲久居日本的丁克一族梁朝偉,早已選擇了另一種人生

      動物奇奇怪怪
      2026-02-27 01:12:02
      內蒙古一女童被繼父摟抱親吻,女童母親“只是一家人拍著玩”?

      內蒙古一女童被繼父摟抱親吻,女童母親“只是一家人拍著玩”?

      新民周刊
      2026-02-25 19:18:14
      2026年,你敢不敢用一年的時間重啟人生

      2026年,你敢不敢用一年的時間重啟人生

      洞見
      2026-01-06 21:17:51
      2026-02-27 03:11:00
      數字生命卡茲克 incentive-icons
      數字生命卡茲克
      反復橫跳于不同的AI領域,努力分享一些很酷的AI干貨
      464文章數 551關注度
      往期回顧 全部

      科技要聞

      單季營收681億凈利429億!英偉達再次炸裂

      頭條要聞

      美國政府對外交官下令:開始行動

      頭條要聞

      美國政府對外交官下令:開始行動

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂要聞

      向華強公開表態 財產留給兒媳婦郭碧婷

      財經要聞

      中國AI調用量超美國 4款大模型霸榜前5

      汽車要聞

      40歲的吉利,不惑于內外

      態度原創

      教育
      親子
      游戲
      藝術
      軍事航空

      教育要聞

      學習的真正對手,是精力分配失衡

      親子要聞

      帶孩子去公司是什么體驗?網友:童言無忌,倒是能添許多的快樂

      穿不起內衣的啥子國王,是怎么從妮姬表情包之王變成底層邏輯的?

      藝術要聞

      莫妮卡、麥當娜……這個法國女人拍遍了全世界的性感女神!

      軍事要聞

      美政府給新伊核協議設限內容遭披露

      無障礙瀏覽 進入關懷版