<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      在技術的快速變遷中,抓住那些“不變”的東西|對話兩位AI創(chuàng)業(yè)者

      0
      分享至

      編輯/文杰

      導語

      從Next Token到Next State。

      當生成式AI已經(jīng)能畫出以假亂真的圖像、寫出流暢的劇本、甚至生成連貫的視頻片段,下一個問題浮出水面:為什么我們還沒有看到一款真正屬于AI時代的互動娛樂產(chǎn)品?

      技術要素似乎都已就位,但它們更像是散落一地的零件,尚未被組裝成一臺能跑起來的機器。整個行業(yè)更像是處在“盲人摸象”的階段,每個人都摸到了大象的一部分,但完整的圖景還沒有人真正看清。

      最近405 游局請到的兩位嘉賓,恰好站在這頭大象的兩側(cè)。

      戴勃,F(xiàn)eeling AI(云梧智能)創(chuàng)始人,香港大學助理教授。他從2014年讀博起就扎在生成式AI領域,博士就讀于香港中文大學MMLab,師從林達華教授,谷歌學術引用超過一萬次,近三年連續(xù)入選全球前2%頂尖科學家。他最廣為人知的工作是AnimateDiff——這個開源視頻生成模型一度席卷整個Stable Diffusion社區(qū)。2024年,他拒絕了多家大廠的邀約,選擇創(chuàng)辦Feeling AI,目標是構建世界模型的基礎設施,讓虛擬世界擁有:“活人感”。成立半年內(nèi),公司完成兩輪超億元融資。

      胡修涵,捏Ta(看見概念)創(chuàng)始人。北大智能科學與經(jīng)濟學雙學位,哥倫比亞大學碩士,先后在Meta擔任短視頻技術架構負責人、在阿里巴巴成為數(shù)據(jù)技術事業(yè)部最年輕的P8專家、在特贊從零搭建收入過億的產(chǎn)品線。2022年底,Stable Diffusion發(fā)布僅四個月,他就判斷“內(nèi)容的樂高變了”,隨即離職創(chuàng)業(yè)。捏Ta如今注冊用戶超1200萬,日均互動時長超110分鐘。2026年3月剛完成超千萬美元的Pre-A+輪融資。

      兩人的淵源比商業(yè)敘事更早。他們是計算機競賽時期的老友,而將他們再次連接起來的,是AnimateDiff——戴勃做出這個模型后第一時間發(fā)給修涵看,修涵的反應是“我一直想要這個東西”。此后一個扎進世界模型的底層架構,一個在應用層構建AI原生的創(chuàng)作社區(qū),路線不同,但指向同一個終局。

      這場對話圍繞幾個核心問題展開:當內(nèi)容的基本單元從像素演進到概念,創(chuàng)作和消費的邊界會如何重新劃定?AI原生的應用為什么必須是“主動的”和“實時的”,而不能是預生成再分發(fā)?世界模型到底該怎么理解——戴勃將其拆解為想法層、動態(tài)層和靜態(tài)層的三層架構,而修涵更關注它能否成為一個有內(nèi)生動力的持續(xù)系統(tǒng)。他們還深入討論了一個容易被忽視的區(qū)分:creation(專業(yè)創(chuàng)造)與recreation(大眾再創(chuàng)造/消遣式創(chuàng)作)。真正大眾化的UGC行為,本質(zhì)上更接近后者——對過程質(zhì)量要求高,對結(jié)果質(zhì)量要求不高,享受的是搭建本身的心流。

      兩位創(chuàng)始人有一個共同的信念:最大的機會不是有人造出一個“綠洲”,而是有人提供造綠洲的積木。當用戶能用概念而非代碼去搭建世界、定義規(guī)則、創(chuàng)造角色,互動娛樂的形態(tài)將不再受限于今天的想象力,而只受限于技術力何時跟上。

      以下為 405 游局與戴勃和胡修涵的對話,游戲茶館經(jīng)授權整理文字版本,內(nèi)容有所編輯。

      01

      內(nèi)容的積木正在被重新定義

      “以前內(nèi)容的積木是像素,未來的積木是概念。當概念和提示詞直接綁定的時候,就是積木層面上最核心的變化?!?/strong>

      筱寧:你們倆都偏技術背景,為什么這次創(chuàng)業(yè)都選了偏娛樂、偏內(nèi)容的方向?

      修涵:我和戴勃一起搞過計算機競賽,畢業(yè)后一直做產(chǎn)品項目,在Facebook這樣產(chǎn)品文化優(yōu)先的公司里,做過很多設計AB testing、增長實驗的事情,逐漸習慣從工程化和產(chǎn)品化的角度去思考技術創(chuàng)新帶來的影響。每一代AI技術變化,我的第一反應都是怎么解決更確定的現(xiàn)實場景中的問題。

      戴勃:我比較簡單。小時候我媽給我買了一臺小霸王學習機,從此對互動內(nèi)容非常感興趣。讀博選方向時就想:能用自己做的技術去構建互動內(nèi)容,會是讓我自己很滿意的狀態(tài)。眼看著技術逐漸成熟,就覺得不妨自己親手去做,因為只有做了才能找到答案。

      筱寧:你們當時決定創(chuàng)業(yè)是看到了什么樣的信號?

      修涵:我一直關注的是內(nèi)容的原子性,怎么解構和重構,也在思考模型如何影響創(chuàng)作者的協(xié)作方式。當然,不是從底層原理的技術角度,而是從它怎么影響人的協(xié)作,怎么影響創(chuàng)作者去做內(nèi)容的工程角度。

      2022年7月看到Stable Diffusion的時候,甚至不需要等到大語言模型出現(xiàn),我就清晰地認識到內(nèi)容的樂高已經(jīng)變了過去可能是一幀圖、一個圖層,甚至精確到像素;而未來的“積木”很可能是概念——某種視覺層面的概念。這是積木層面的核心變遷。我們在這個過程中做了大量探索,也經(jīng)歷了 LoRA 等各種 building blocks 不斷演變的階段。

      我覺得最近像 Nano Banana 和 Seedance 2.0 這類突破,已經(jīng)在逐步逼近“用概念就能構建一個世界”的狀態(tài)。這是一個循序漸進的理解過程。

      筱寧:我們上次聊過,有些東西從頭到尾沒變,比如你最初對這件事的定義就是“GitHub + IP”。

      修涵:我們思考內(nèi)容原子的變化,歷史上大概有三到四代:第一代以純像素為核心;第二代出現(xiàn)了模板、圖層、3D模型;第三代是Figma那一代的組件化;第四代就是現(xiàn)在以概念為核心的原子結(jié)構。每一代都誕生了偉大的產(chǎn)品:第一、二代Photoshop,第三代Figma,第四代可能就在當下。

      越往深處看,這些積木越來越像代碼。而代碼的天然屬性決定了它可以實現(xiàn)GitHub式的協(xié)作。以前共創(chuàng)型的行為只有Wikipedia這種文字層面的協(xié)作,當它跨越到視覺層面,就出現(xiàn)了核心模式變化的機會。其中被最多復用的積木就是IP的要素。

      戴勃:我2014年讀博開始關注生成式AI,一路看著它走過來。2022年看到Stable Diffusion的成熟度之后,覺得技術到了一個臨界點。

      2023年我們做了一個視頻生成的工作叫AnimateDiff,做出來后我第一時間發(fā)給修涵看,他直接跟我說“一直想要這個東西”。我們開源出去后,大概兩三個月整個Stable Diffusion社區(qū)都被吸引了。Reddit上至今還有專門的分區(qū),甚至現(xiàn)在有了Seedance,還是有人在用AnimateDiff做各種內(nèi)容。

      這給我的啟發(fā)是:我好像也能掌握這種成熟的技術了。一開始我們傾向于通過合作的方式推進——我做技術,開源或合作。但23年下半年嘗試之后,整體感覺不夠快。AnimateDiff五月做完,七月發(fā)給修涵看,但真正產(chǎn)生熱度是在十月份,已經(jīng)過了三個月。你不親自做的話,進展會很慢。

      站在那個節(jié)點你會開始反問自己:這是運氣,是偶然還是必然?最好的方式就是直接去面對需求,這樣才知道技術該往哪里加速迭代。所以我們決定自己下場,把AI的基建做好。我們相信從這種基建能誕生更原生的應用,而這需要用戶在過程中一起進化想法。

      02

      AI原生應用的特點:

      主動、實時、在生成中消費

      “如果完全是預生成之后再分發(fā)的模式,我對它打敗抖音都沒什么信心。所以我非常支持‘在生成中消費’?!?/strong>

      筱寧:你們都說在做一種“新的東西”,具象一點說,從體驗層面你們期待的遠方是什么樣的?

      戴勃:我說不出具體形態(tài),但可以說出它應該具備的特點。生成式AI最大的特點是它的不確定性——在可控范圍內(nèi)的不確定性?!癆I”這個詞1956年誕生時就定義了它應該具備creativity:能不能進行educated guess?你有control,你是educated,但又有不確定性。

      這種不確定性意味著AI原生的應用一定要在推理時發(fā)生。不應該是離線產(chǎn)生內(nèi)容然后你去消費,而是在實時交互的過程中,模型配合人進行推理、產(chǎn)生內(nèi)容。

      第二個特點是從被動式變成主動式。不是等你來操作,而是它會主動給你反饋和刺激。所以新應用最大的兩個特點就是:主動無限實時。

      修涵:從商業(yè)和需求的角度也推導到了類似方向。用戶在社區(qū)里看到別人的內(nèi)容更像是一個廣告片,他真正消費的過程是他自己在生成的那一刻。

      往遠期推:長期的終極形態(tài),某種意義上就是人類的共同幻想——虛擬空間,或者西部世界式的體驗。但它會有一些傳統(tǒng)內(nèi)容難以覆蓋的角度,因此IP的作用會更強,因為每一次內(nèi)容都不固定,你需要一些不變的東西來幫助認知,一個系統(tǒng)如果全都在變,等于沒法用。覆蓋的長尾屬性會更強、個人屬性會更強,因為通用的高質(zhì)量已經(jīng)被解決得很好了,接下來的問題是“不通用的高質(zhì)量”如何產(chǎn)出。供需關系會導致經(jīng)濟利益分配也往這個方向移動,通用的高質(zhì)量會貶值。

      現(xiàn)在已經(jīng)能看到這種趨勢——很多平臺上AI生成的漂亮小姐姐跳舞視頻,雖然還有流量價值,但要帶貨已經(jīng)非常困難。這就是升值和貶值正在發(fā)生的過程。

      筱寧:你們反復提到IP這個詞。在AI時代,IP應該怎么理解?

      修涵:AI時代的IP可能不是我們現(xiàn)在理解的商業(yè)意義上的IP。知識產(chǎn)權這個概念本身是隨著印刷業(yè)誕生的,本質(zhì)上是印刷業(yè)技術推演出來的制度。AI在一定程度上完全打破了“單件內(nèi)容生產(chǎn)需要付出人類勞動”這個基礎假設。

      我比較相信的本質(zhì)是:IP就是對某類內(nèi)容的共識。不管它是一個形象的共識,還是某個故事環(huán)境的共識,大家對這個東西有一個共同的認知。有時候表現(xiàn)為MEME,有時候表現(xiàn)為某種梗。這些本質(zhì)上就是大家反復使用的“復讀機”,長期來看都是某種意義上的IP。

      03

      Creation與Recreation,

      UGC的真實邏輯與應用層的機會

      “要拆分清楚creation和recreation的區(qū)別。Recreation——消遣——是非常廣泛的UGC行為,對過程質(zhì)量要求很高,對結(jié)果質(zhì)量要求不高?!?/strong>

      筱寧:我們這一代人被PGC內(nèi)容服務得非常好。那我們真的有那么多UGC需求嗎?如果消費本質(zhì)依賴用戶自己參與生成過程,是不是拔高了對人的要求?

      戴勃:回到修涵說的,真正的消費過程發(fā)生在創(chuàng)作過程中,產(chǎn)出的內(nèi)容更像一個trailer。這個空間仍然存在,因為每個人都有表達的欲望。抖音通過相機記錄生活瞬間,就提供了UGC的途徑。

      第二個問題,creativity有兩方面:有沒有動機,有沒有能力。生成式AI提供了能力。而為什么我強調(diào)應用應該是主動式的?就是為了解決動機問題。你會有靈感,但創(chuàng)作的過程不易,比如很多作家會說創(chuàng)作其實很痛苦?;邮降膭?chuàng)作模式讓你從小的靈感開始,慢慢保持熱度。生成式AI恰恰能回答這個悖論。

      修涵:從另一個角度補充。這個播客的聽眾可能更多從游戲視角看問題,我們不否認游戲行業(yè)整體主導的是PGC。但如果從廣義的娛樂型游玩體驗來看,UGC無處不在。

      服務型體驗的特點是創(chuàng)作者要非常盡心盡力地為受眾做設計,要求很高,所以必然收束在一小群人中。但很多UGC本質(zhì)上是悅己的,帶有社交性,本質(zhì)是表達自我。從抖音的濾鏡玩法,到線下織毛衣、做拼豆、搭樂高,都是先享受那個心流過程,然后幻想自己能做出很好的東西去展示。炫耀是派生的,但有這個幻想空間很重要。

      沒聽說過誰去搞攝影是不希望自己拍出來的東西好的。但買了設備自娛自樂的人里,全部分享出來的可能也很少,但它依然構成了一種很強的娛樂行為。

      Recreation——初期不以純粹表達目的為核心的行為——對過程質(zhì)量要求很高,對結(jié)果質(zhì)量要求不高。有一個小圈子持續(xù)捧你,就很開心了。這符合長尾效應的內(nèi)容價值。而且內(nèi)容不存在絕對的UGC和絕對的PGC。你用一個抖音模板做完一個東西,模板很可能是PGC的,但最后的內(nèi)容是你的表達和模板共同構成的——誰的貢獻更大,有時候拆不清楚。AI其實提供了一個通用的高質(zhì)量基線保證。

      在此基礎上,任何娛樂方式長期都會有四個關鍵要件:第一,角色——你自己的代表、你的POV;第二,環(huán)境和世界;第三,規(guī)則——對應衍生的玩法規(guī)則;第四,交互方式。

      大家現(xiàn)在總想找到一種不變的交互方式來做穩(wěn)定的平臺推演,但這個點被Vibe Coding很大地挑戰(zhàn)了。不太容易變的是世界和規(guī)則。角色最先容易成立,但用完丟的可能性也大;環(huán)境和規(guī)則比較容易持續(xù)存在,可以打造一系列的動力系統(tǒng)。

      這些東西可以做“Creative Harness”——怎么讓AI變成一匹可以被馴服的烈馬?它不被關在籠子里,仍然有驚喜,但又被你拴著往一個方向奔馳,給大家?guī)順啡ぁ?/p>

      筱寧:如果視覺一致性攻克了,什么會被改寫?

      戴勃:關鍵是實時推理能力。在長時間推理穩(wěn)定性的基礎上,把單次推理的延時降到實時,你就不再是在用一個工具,而是在一個完整的世界模型里和agent一起交互。某種意義上就像是《頭號玩家》里的綠洲。

      筱寧:應用層的最大機會在哪?頭號玩家里的綠洲也是有人造了一個綠洲嘛。

      戴勃:最大的不是有個人造了綠洲,而是有人提供了造綠洲的積木。最終的綠洲是由一個個星球組成的,而每個星球是用戶自己創(chuàng)造的。因為有了積木的能力,他可以構建不同的世界觀和規(guī)則。像修涵說的,樂趣來自于構建的過程。構建完成之后——甚至不用完成——就可以有無數(shù)人過來接著參與、共同構建。出發(fā)點是有個人提供了空間和積木,讓你去搭。

      修涵:我補充一點,為什么長期來看這個需求存在?人對環(huán)境的感受和體驗,本質(zhì)上也是在給自己的腦子建設對世界的理解。你無法真實理解從未親身經(jīng)歷過的東西。所以本質(zhì)上是提供多重的人生。

      人的需求無非就是延長壽命、增加體驗時間、在單位時間內(nèi)增加更多體驗——通過提供更多人生體驗的基建方式,本身就是最大的機會。這些體驗沒辦法完全通過別人來給你構建好再提供給你——那在一定程度上是偽命題。

      戴勃:很多時候人在現(xiàn)實世界里被束縛的就是“我要做選擇,只能選其中一條路”。世界模型就應該能創(chuàng)造這種可能性。它本質(zhì)上和游戲是同一件事——“游”就是到處走走,“戲”就是這里碰一下那里碰一下去做交互。之前的游戲有一些部分是因為技術力的限制變成了當下的形態(tài),但這不是人的想象力的限制,而是技術力的限制。這一步應該被解放。

      修涵:我稍微反向debate一下?!坝螒蚴且粋€有約束的藝術”——從傳統(tǒng)有限游戲的角度,這非常成立,也是我特別尊重游戲行業(yè)的核心原因。我們很少說“用戶能直接做出游戲來”,因為我對狹義游戲的定義是非常尊重的。它是一種體驗策劃——就像人一輩子可能只經(jīng)歷一次的婚禮,它能形成現(xiàn)在的規(guī)范和要求是很精妙的,不是隨手拍個腦袋給你一個體驗就行了。

      但體驗單元是可以被拆解和工程化的。比如現(xiàn)在很多開放世界游戲,大家會說像個“縫合怪”,里面有很多玩法,甚至巴不得把看電影的體驗也縫進去。這就是一種以環(huán)境和世界為驅(qū)動、在里面縫很多種玩法的趨勢。

      但從把AI發(fā)揮好的角度來說,應該從小往上長,而不是從專業(yè)體驗往下拆小。因為從專業(yè)體驗往下拆會限制AI的發(fā)揮。我時常說“從游戲的視角來看,資產(chǎn)不重總讓人覺得沒法尊重”。這個視角會導致從游戲往UGC拆的時候總有一種說不清的味道。

      所以我們在想的是:從AI原生視角出發(fā),它最好被構造的小模塊是什么?不好被構造的部分先讓人來做。UGC的真實解法,很多還是從更原生的、從小往上長的邏輯中長出來的。

      04

      世界模型,

      從盲人摸象到三層架構

      “世界模型應該有一種活人感?;钊烁芯褪撬鼤??!?/strong>

      筱寧:如果我們想要實時性、推理能力、可控的創(chuàng)造性,今天距離實現(xiàn)差距在哪里?

      修涵:要素的實現(xiàn)已經(jīng)有了,只是沒有被很好地整體解壓縮出來,給大家?guī)砗芎玫捏w驗。并不是說你現(xiàn)在不能開始建角色、建面向AI的世界、建將來可以玩的規(guī)則——比如酒館類產(chǎn)品,就是在一定程度上建玩法規(guī)則為主;我們可能更多從角色到世界的角度去關注環(huán)境和視覺共識要素。只是如果模型的實時性、持續(xù)能力這些問題都很卡、成本很高,那建好的規(guī)則最終能覆蓋的體驗變革還是有限的。

      戴勃:現(xiàn)在的狀態(tài)給我的感覺是既很近又很遠。要素都具備了,但是一種大水漫灌式的具備——每個方向都有涉及,意味著你可以開始進行要素的組合。修涵說的沉淀世界觀和規(guī)則,這些沉淀不會因為技術的進化而從頭再來。

      但技術在深度、廣度和維度三個方面都有所欠缺。深度——比如酒館場景,劇情復雜度或演繹長度拉長后就開始出問題。廣度——各種類型中始終有擅長和不擅長的區(qū)分。維度——文字式的、語言為主的,要素更齊全;但更視覺化、更立體的世界模型方向還很缺乏。

      總體來說,大家可以拿這種“不是零”的狀態(tài)去組合,但真的要往終局走,起碼從技術上還是要靜下心來思考技術審美,然后以比較快的速度持續(xù)推進。

      筱寧:你們是怎么理解“世界模型”這個概念的?

      戴勃:現(xiàn)在講世界模型的人很多,用一個成語來形容最合適:盲人摸象。不同的人因為不同的應用場景和背景,摸到了大象的不同部分。

      我自己的理解很簡單:它就是一個類似于元宇宙的游戲,現(xiàn)實世界有的元素它都應該具備,我們把它拆成三層。

      第一層:邏輯/想法層——每個動態(tài)實體的想法:我為什么要進行這些活動?

      第二層:動態(tài)層——我有了想法之后,怎么把想法執(zhí)行出來。

      第三層:靜態(tài)/表現(xiàn)層——把動態(tài)的行動裝載到一個環(huán)境里呈現(xiàn)出來。不管這個環(huán)境是傳統(tǒng)游戲引擎構建的3D環(huán)境,還是AI構建的3D環(huán)境——比如李飛飛老師的World Lab,還是以谷歌Genie 3為代表的視頻類環(huán)境。

      不同的人根據(jù)場景,可能不需要把三層都做好。但一個真正的世界模型,就是你能不能把現(xiàn)實一一對應,它是活著的,動態(tài)實體都有自己的想法和規(guī)劃。

      修涵:我希望它至少是一個持續(xù)的、有自己內(nèi)生動力的系統(tǒng)。現(xiàn)在的問題是,你一個角色去到多個場景,中間是斷層的;或者它不主動,你不推就不動。而人的現(xiàn)實世界和線下體驗,很多都是靠世界環(huán)境本身幫你實現(xiàn)目的。只要能解決持續(xù)性和主動性的問題,我們之前對優(yōu)質(zhì)內(nèi)容的很多假設其實都可以改。

      筱寧:視覺模型訓練上,是不是面臨和語言模型很不一樣的挑戰(zhàn)?

      戴勃:語言模型的范式是next token prediction,世界模型強調(diào)的是next state prediction。其實語言模型也可以在語言domain里實現(xiàn)世界模型——你用文字維護世界的state。這也是為什么代碼能力很重要:它提供了一種恒定、穩(wěn)定、一致的方式來檢查模型的思考過程和邏輯準確性。如果是純自然語言描述,你會陷入“它到底是真不懂,還是沒說清楚”的困境。

      視覺內(nèi)容還需要一致性——但不是邏輯的一致性,而是符合物理直覺的一致性。我想強調(diào):從應用角度,我們要的不是“物理一致性”,而是“物理直覺一致性”。人不會去計算視覺內(nèi)容背后的物理規(guī)律是否一致,只要不違和,我們就覺得它符合物理直覺。

      筱寧:對做互動娛樂來說,視覺這塊需要攻克的難點在哪?

      戴勃:傳統(tǒng)的方式是用游戲引擎構建世界內(nèi)容。游戲引擎嵌入物理規(guī)律的方式比較“硬核”——傳統(tǒng)仿真學,把公式真的寫在里面進行計算。而神經(jīng)網(wǎng)絡只告訴它輸入和輸出,中間怎么從輸入到輸出完全是自己學的,沒有任何規(guī)律或公式的guidance,非?!败洝?。但這樣帶來的問題是它會走捷徑,你無法判斷它總結(jié)的規(guī)律跟你想要的規(guī)律是否一致。

      所以現(xiàn)在需要攻克的問題就是:如何把兩者的優(yōu)勢融合?既有“軟”的靈活性,又有“硬”的保證。只有這樣才能實現(xiàn)長時間視覺內(nèi)容上的一致性。

      從視覺內(nèi)容的結(jié)構上來說,模型應該知道自己在表達什么。不是“這個像素現(xiàn)在是什么顏色、下一刻應該連續(xù)變化”,而是知道“這個像素屬于一個人的手,下一刻是整個手在變化,然后投影到像素上應該怎么變化”。有了這種更符合現(xiàn)實結(jié)構的認知,就能從根本上解決幻覺問題,幻覺本質(zhì)上來自于模型不知道自己生成的像素是什么意思。

      筱寧:你們最近開源的模型著重解決記憶和規(guī)劃,為什么?

      戴勃:我們是三層同步演進的——想法層、動態(tài)層和靜態(tài)層。甚至中間的動態(tài)層,我們在構建動力學世界模型,剛好完成了模型架構的創(chuàng)新。打個比方——就好像Transformer架構已經(jīng)確定了,剩下的就是從GPT-1到GPT-2到GPT-3的過程。

      三層同步演進,每層有自己的技術成熟度和節(jié)奏。想法層因為智能體相關技術發(fā)展快、成熟好,節(jié)奏就快一些。動態(tài)層我們覺得非常重要,又是大家目前忽略的部分,它掩蓋在具身智能的浪潮里,但對互動娛樂同樣關鍵。

      筱寧:“動力學世界模型”怎么理解?

      戴勃:動態(tài)作為世界狀態(tài)的一部分需要遵循物理規(guī)律。人在現(xiàn)實中總結(jié)出來的動態(tài)物理規(guī)律統(tǒng)稱為動力學:人的運動學、衣服的動力學、流體動力學、空氣動力學等等。我們做的就是把動力學的物理先驗嵌入到Transformer架構上,使得next state prediction能非常穩(wěn)定。

      筱寧:為什么動態(tài)層在交互娛樂場景里特別重要?

      戴勃:一個靜態(tài)的環(huán)境談不上交互。沒有動態(tài)的空間、動態(tài)的載體,就談不上主動和交互。靜態(tài)的東西你只能單方面參與,它沒有反饋。只有動態(tài)才會給你反饋,你才會在反饋中產(chǎn)生新的可能性,不斷生長出更龐大的體驗和內(nèi)容。

      白話來講:世界模型應該有一種活人感?;钊烁芯褪撬鼤?,一動不動還挺嚇人的。

      筱寧:視頻天然就是動的。你特別把動態(tài)拿出來強調(diào),想說的是什么?

      戴勃:視頻確實是動的,但像素上的連續(xù)不代表背后的規(guī)律是一致的——所以才會出現(xiàn)錯誤累積和幻覺。要么用更多數(shù)據(jù)逼模型自己學會一套統(tǒng)一的物理規(guī)律,要么把人在現(xiàn)實中積累的物理規(guī)律當先驗嵌到模型里。兩種都可以。

      另外,視頻生成是把靜態(tài)環(huán)境的表現(xiàn)和動態(tài)用一個模型放在一起建模了。我認為應該分開。一個直觀的例子:我們坐在房間里,我揮了一下手,從合理的角度,只有人相關的狀態(tài)進行了更新,環(huán)境不應該跟著我一起刷新。就像游戲里角色往前走一步,整個環(huán)境重新生成一遍,這不合理。

      05

      高估與低估,

      創(chuàng)業(yè)者如何穿越技術周期

      “慢的時候公司其實挺難死的,快的時候公司很容易死。很多人有錯覺,覺得快的時候機會來了?!?/strong>

      筱寧:你們怎么區(qū)分一件事到底只是技術看起來很強,還是真的能長出新東西?

      戴勃:我們會從客觀的定性原理上去分析一個技術——拋開名詞,看它突破的那個點到底是什么。

      什么容易被高估?一是迭代速度,二是人的適應能力。人很難想象自己沒經(jīng)歷過的事情。即使是做這些技術的人也有局限——AnimateDiff做出來后,最后能用它做出很好內(nèi)容的人不一定是我們自己。所以我一直比較克制,不太想去定義世界模型原生的應用到底是什么。

      修涵:從技術視角容易高估應用落地的速度,低估用戶心智的變化成本。過去幾年最容易犯的錯誤是過于追求終局。底層成立條件如果不存在,就是過去“純產(chǎn)品經(jīng)理視角做AI產(chǎn)品”比較困難的核心原因——結(jié)果要么體驗不可持續(xù),新鮮勁一過就完了;要么單點的東西不夠驚喜。這兩層一直在對抗。

      筱寧:AI底層技術的發(fā)展速率一直在變——23年上半年很快,24年相對靜態(tài),最近半年又特別快。你更喜歡哪種時候?

      修涵:都各有挑戰(zhàn)。核心問題是:慢的時候思考公司在積累什么,快的時候知道那些積累怎么立刻和快速變化發(fā)生關系,這樣快的時候才不會慌亂。

      另一個悖論是:慢的時候公司其實挺難死的,快的時候公司很容易死。很多人有錯覺,覺得快的時候機會來了。

      筱寧:如果面對一個爆炸性的新技術,你們的第一反應是什么?

      戴勃:第一時間溯源:它從哪演化來的,有什么不同,為什么引起轟動。在我的視野范圍內(nèi),不太會有從天而降的新技術的感覺。重要的是兩層:第一,拋開噪聲,了解變化的實質(zhì);第二,反?。簽槭裁床皇俏易龀鲞@個變化的?長此以往才能變成引領者。

      修涵:我們的第一反應是趕緊實驗,看到底是什么水平,現(xiàn)在論文的cherry pick太多了。越過判斷之后,關注的是它是否改變用戶主鏈路的體驗。很多技術是錦上添花,主鏈路上能影響的事情不會那么多。一個核心標準:用戶愿不愿意回來再多消耗token。如果對用戶核心loop有更大的提升和變化,那它就是一個非常需要把握住的變化。

      筱寧:你們最近聊得挺多的,聊最多的話題是什么?

      戴勃:一個是技術進展還是太慢了。

      尤其是視覺內(nèi)容這一塊。雖然視頻生成模型進展得很好,但在關鍵維度上還是太慢了——它并不是完全為互動娛樂方向在推進,有其他牽引力量。第二個就是探討:哪些技術是熱鬧,哪些是真東西。我們更多是希望,既然技術正在盲人摸象的階段,而我們在應用場景上有一些共同的vision。

      筱寧:在這種環(huán)境里做應用方向的創(chuàng)業(yè),對創(chuàng)始人最重要的能力是什么?

      修涵:從自身角度出發(fā),我覺得我們靠韌性做事。我總覺得不同的方式都能做出階段性成果,有些人沖浪,有些人爬山。更關鍵的是對自己的認知要清楚,了解自己、了解團隊,不要強迫干自己不適合干的事。如果提出過高的預期,團隊就很難發(fā)揮出最強長項,做出超出其他人水平的成果。

      戴勃:拋開EGO,客觀看待技術演進,從第一性原理出發(fā)推演終局的架構和元素,然后結(jié)合團隊的擅長,選一條梯度下降最快的方向往前走。尤其要避免做技術帶來的EGO。

      筱寧:未來兩到三年,你們最想達成什么?

      修涵:我們在逐漸構造“共同搭世界”的工作體系,人和agent協(xié)作參與。接下來兩三年最核心的問題是:能否出現(xiàn)質(zhì)量上真正足夠高的體驗——在消費屬性上能和其他消費類型公平競爭的體驗?只要出現(xiàn)頭幾個這樣的模式,它的系統(tǒng)性效率就能做到更好,之后就很難剎住車了。

      所以我們本質(zhì)上在解決冷啟動的機制——定義的問題,或者說協(xié)議的問題。接下來可能圍繞海外做更多實驗,最終的爆發(fā)力會體現(xiàn)在這些組合之后帶來的涌現(xiàn)結(jié)果上。

      筱寧:最近一年,商業(yè)化會是壓力和挑戰(zhàn)嗎?

      修涵:既有好消息也有壞消息。好消息是:互動型玩法的付費意愿和付費率在全球范圍內(nèi)都比預估的更好。壞消息是:token的成本和新模型的價格并沒有變便宜,成本壓力會持續(xù)存在。所以我現(xiàn)在傾向于盡可能用最好的能力上限,但不要把自己玩死。收入會隨過程自然增長,可能比大家想的更自然。

      戴勃:兩三年內(nèi)我們會持續(xù)按照三層結(jié)構構建世界模型基模,在此基礎上探討原生應用——整個技術版圖想得挺清楚的。我們也會很關注agentic AI的發(fā)展——它一方面是世界模型想法層的組成部分,同時也是一種生產(chǎn)力。如果它真的能提升效率,很多事情的時間會來得更早。可能兩年之后會有點久,AI領域的兩年非常非常久。

      筱寧:你們是要自己做應用的,不會滿足于只做模型?

      戴勃:一定要把自己的認知在應用層打磨。遠離應用場景會讓技術迭代偏離;而且我們講的是像語言模型承載ChatGPT那樣、世界模型承載的原生應用——從模型到應用之間距離不會那么大。

      筱寧:這個應用形態(tài)會是工具還是內(nèi)容?

      戴勃:肯定不是工具,是一種互動娛樂的應用,也不是傳統(tǒng)意義的內(nèi)容——用戶一進來就同時在做內(nèi)容消費和內(nèi)容創(chuàng)作。

      筱寧:可以理解為是一個平臺嗎?

      戴勃:我覺得是平臺,但現(xiàn)在會比較謹慎地去描述它。就像ChatGPT——當模型成熟之后,它很快變成一種共識。所以我現(xiàn)在不太想用現(xiàn)有的詞匯去定義它。


      ? “發(fā)送“社群”加入游戲茶館行業(yè)交流群”

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      猝死的人越來越多?醫(yī)生再次強調(diào):寧可打打牌,也別做這6事

      猝死的人越來越多?醫(yī)生再次強調(diào):寧可打打牌,也別做這6事

      健康科普365
      2026-03-30 21:50:03
      貝嫂52歲生日首談與兒子兒媳決裂!好大兒:勿擾,在和親親老婆慶祝結(jié)婚4周年

      貝嫂52歲生日首談與兒子兒媳決裂!好大兒:勿擾,在和親親老婆慶祝結(jié)婚4周年

      英國報姐
      2026-04-17 21:09:55
      武漢警方通報:快遞站有“臥底”,站長被收買,7人被拘!

      武漢警方通報:快遞站有“臥底”,站長被收買,7人被拘!

      臺州交通廣播
      2026-04-17 06:50:14
      19歲中國女子與男友演“綁架案”騙父贖金,男友真實身份竟是國內(nèi)通緝犯

      19歲中國女子與男友演“綁架案”騙父贖金,男友真實身份竟是國內(nèi)通緝犯

      紅星新聞
      2026-04-17 12:12:21
      為何去少林寺訓練?文班:被他們的功夫折服了,也想做到那樣

      為何去少林寺訓練?文班:被他們的功夫折服了,也想做到那樣

      懂球帝
      2026-04-17 11:15:12
      中國強硬要求馬士基,立即撤出巴拿馬港口,否則別想“全身而退”

      中國強硬要求馬士基,立即撤出巴拿馬港口,否則別想“全身而退”

      諦聽骨語本尊
      2026-04-17 14:43:09
      王石被抓風波大結(jié)局,一切都反轉(zhuǎn)了!

      王石被抓風波大結(jié)局,一切都反轉(zhuǎn)了!

      財經(jīng)三分鐘pro
      2026-04-17 16:49:35
      后續(xù)!孕婦花198買水果被罵:已終止妊娠并準備離婚,老公崩潰了

      后續(xù)!孕婦花198買水果被罵:已終止妊娠并準備離婚,老公崩潰了

      不寫散文詩
      2026-04-16 16:18:47
      英媒縱論斯諾克世錦賽中國五虎:吳宜澤最大黑馬,丁俊暉最低評分

      英媒縱論斯諾克世錦賽中國五虎:吳宜澤最大黑馬,丁俊暉最低評分

      楊華評論
      2026-04-17 21:02:32
      在跑圈遇到“性感跑者”,會打亂你的跑步節(jié)奏嗎?

      在跑圈遇到“性感跑者”,會打亂你的跑步節(jié)奏嗎?

      馬拉松跑步健身
      2026-04-17 21:12:51
      鄭州市建設投資集團有限公司原黨委書記、董事長、總經(jīng)理秦廣遠被查

      鄭州市建設投資集團有限公司原黨委書記、董事長、總經(jīng)理秦廣遠被查

      界面新聞
      2026-04-17 15:26:37
      失業(yè)第183天,北京戶口的隱形代價,非京籍失業(yè)者的自救圍城

      失業(yè)第183天,北京戶口的隱形代價,非京籍失業(yè)者的自救圍城

      右耳遠聞
      2026-04-15 16:22:05
      38人遇難客機確系被俄擊落,中國巨額損失,普京大帝公開低頭

      38人遇難客機確系被俄擊落,中國巨額損失,普京大帝公開低頭

      月光作箋a
      2026-04-17 10:30:09
      漲價,再漲價,這個方向要起爆?。?!

      漲價,再漲價,這個方向要起爆!??!

      新浪財經(jīng)
      2026-04-17 04:40:19
      寧波市原副市長王仁洲接受調(diào)查

      寧波市原副市長王仁洲接受調(diào)查

      城市局
      2026-04-17 19:53:50
      A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

      A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

      另子維愛讀史
      2026-04-17 22:47:15
      場均14分17板2.3帽!馬刺重點考察,這是20歲的阿隆戈登,搶人吧

      場均14分17板2.3帽!馬刺重點考察,這是20歲的阿隆戈登,搶人吧

      籃球信息社
      2026-04-16 22:02:11
      英法都發(fā)出了邀請,“非常歡迎中方參與”

      英法都發(fā)出了邀請,“非常歡迎中方參與”

      觀察者網(wǎng)
      2026-04-17 18:57:04
      郭達現(xiàn)狀:住西安老小區(qū)養(yǎng)老,70歲老態(tài)盡顯,妻子身份不一般

      郭達現(xiàn)狀:住西安老小區(qū)養(yǎng)老,70歲老態(tài)盡顯,妻子身份不一般

      觀察鑒娛
      2026-04-17 10:55:38
      俄軍解放哈爾科夫濟比諾村,烏軍被曝用“督戰(zhàn)隊”阻止士兵逃跑

      俄軍解放哈爾科夫濟比諾村,烏軍被曝用“督戰(zhàn)隊”阻止士兵逃跑

      鐵錘妹妹是只貓
      2026-04-17 23:41:09
      2026-04-18 00:32:49
      游戲茶館 incentive-icons
      游戲茶館
      關注全球移動游戲產(chǎn)業(yè)
      11064文章數(shù) 20624關注度
      往期回顧 全部

      科技要聞

      7家頭部平臺被罰沒35.97億元

      頭條要聞

      特朗普:感謝伊朗開放霍爾木茲海峽

      頭條要聞

      特朗普:感謝伊朗開放霍爾木茲海峽

      體育要聞

      中超-泰山1-1海港 楊希處子球克雷桑任意球扳平

      娛樂要聞

      劉德華摯友潘宏彬離世 曾一起租房住

      財經(jīng)要聞

      "影子萬科"2.0:管理層如何吸血萬物云?

      汽車要聞

      又快又穩(wěn)的開掛動力! 阿維塔06T全系搭分布式電驅(qū)

      態(tài)度原創(chuàng)

      游戲
      教育
      時尚
      健康
      軍事航空

      IGN僅打出4分!2026黑馬大作徹底翻車

      教育要聞

      成長是共同的抵達,棠中怡心校園藝體節(jié)圓滿落幕

      今日熱點:許光漢否認和周子瑜戀情;郝熠然與誠實一口終止合作……

      干細胞抗衰4大誤區(qū),90%的人都中招

      軍事要聞

      美宣布黎以停火10天 以方稱不會撤軍

      無障礙瀏覽 進入關懷版