亞馬遜與埃因霍溫理工大學(xué)聯(lián)手：用"變化量"重新定義視頻AI

2026-04-16 20:16:37　來源: 科技行者

北京舉報

分享至

這項(xiàng)由亞馬遜和埃因霍溫理工大學(xué)聯(lián)合開展的研究，以預(yù)印本形式于2026年4月發(fā)表在arXiv平臺，論文編號為arXiv:2604.04913。感興趣的讀者可以通過該編號在arXiv檢索原文。

自動駕駛汽車在路口面對一個正在猶豫是否過馬路的行人時，它必須在零點(diǎn)幾秒內(nèi)預(yù)判這個行人接下來會往哪個方向走。這不是一道有唯一正確答案的題目，行人可能向左、向右、駐足，甚至折返。面對這種生來就充滿不確定性的未來，一個智能系統(tǒng)需要同時考慮多種可能性，才能做出真正安全的決策。這個看似簡單的場景，恰恰觸碰了當(dāng)代視頻人工智能最核心的難題：如何高效、真實(shí)地生成多種可能的未來？

現(xiàn)有的AI視頻預(yù)測系統(tǒng)大致分為兩個門派。一派叫"判別式"系統(tǒng)，它就像一個只能給出一個標(biāo)準(zhǔn)答案的老師，總是預(yù)測最可能發(fā)生的那一種未來。當(dāng)未來存在多種可能時，它會把所有可能性平均一下，給出一個模糊的、哪個都不完全符合的中間答案——就像問你"今天中午想吃什么"，它永遠(yuǎn)回答"米飯和面條的平均值"。另一派叫"生成式"系統(tǒng)，它能給出多種不同的預(yù)測，更接近真實(shí)世界的不確定性，但代價是計(jì)算量極其龐大，動輒需要數(shù)十億參數(shù)的巨型模型，還要反復(fù)運(yùn)行多次才能生成一個預(yù)測結(jié)果。

研究團(tuán)隊(duì)在審視這兩個門派時，敏銳地發(fā)現(xiàn)了一個關(guān)鍵問題：視頻里相鄰兩幀之間，絕大部分內(nèi)容其實(shí)沒有發(fā)生任何變化。天空還是那片天空，馬路還是那條馬路，背景里的建筑物一動不動。真正發(fā)生變化的，只是場景中極小的一部分。傳統(tǒng)的視頻AI卻對每一幀都完整地重新描述一遍，就像每次打電話給朋友，不管之前說過什么，都要從頭自我介紹一樣，既浪費(fèi)時間又低效。

正是帶著這個洞察，研究團(tuán)隊(duì)提出了兩個核心發(fā)明：一個叫DeltaTok的"變化量壓縮器"，以及一個建立在它之上的視頻世界模型DeltaWorld。整套系統(tǒng)的核心邏輯只有一句話——與其描述整個世界，不如只記錄世界發(fā)生了什么變化。

一、視頻預(yù)測的底層困境：為什么"平均答案"是個陷阱

為了真正理解這項(xiàng)研究解決的是什么問題，不妨把視頻預(yù)測的處境想象成一位天氣預(yù)報員。判別式預(yù)報員每次都說"明天氣溫22度"，即便實(shí)際情況是有50%概率是15度的暴風(fēng)雨、50%概率是29度的大晴天，他給出的22度預(yù)測在哪種情況下都是錯的。生成式預(yù)報員能同時給出"可能暴風(fēng)雨"和"可能大晴天"兩套預(yù)報，這才是對不確定未來負(fù)責(zé)任的態(tài)度。

判別式世界模型的數(shù)學(xué)原理印證了這一點(diǎn)。當(dāng)一個模型被要求預(yù)測不確定的未來，而訓(xùn)練目標(biāo)又要求它給出盡可能接近真實(shí)情況的單一答案時，數(shù)學(xué)上的最優(yōu)解會讓它自動收斂到所有可能未來的平均值。這個平均值看起來"不算太錯"，卻對真正的決策毫無用處——它既不是任何一種真實(shí)的未來，也無法幫助自動駕駛系統(tǒng)區(qū)分行人會向左還是向右。

生成式模型能解決這個問題，但它帶來了另一重麻煩。以目前最先進(jìn)的生成式視頻模型Cosmos為例，它有40億到120億個參數(shù)，需要另一個70億參數(shù)的解碼器配合，光是生成20個候選未來就要消耗6萬到6.4萬萬億次浮點(diǎn)運(yùn)算（TFLOPs）。這個計(jì)算量相當(dāng)于同時運(yùn)行成百上千臺普通家用電腦。更麻煩的是，這類模型通常需要多次迭代去噪才能生成一個預(yù)測，每次預(yù)測都是一趟漫長的旅途。

研究團(tuán)隊(duì)設(shè)定的目標(biāo)因此變得清晰：打造一個生成式系統(tǒng)，讓它既能提供多種可能的未來預(yù)測，又把計(jì)算成本壓縮到前所未有的低水平。

二、視覺基礎(chǔ)模型的特征空間：為什么不在像素上"繡花"

在進(jìn)入核心技術(shù)之前，研究團(tuán)隊(duì)先做了一個關(guān)鍵的路線選擇：不在像素層面預(yù)測未來，而是在"視覺基礎(chǔ)模型"的特征空間里工作。

所謂視覺基礎(chǔ)模型，可以理解為一個見過海量圖片、學(xué)會了用抽象概念理解世界的AI眼睛。它看到一張街道圖片，不會記住每個像素的顏色值，而是理解"這里有輛車"、"那里有棵樹"、"地面是濕的"。這種理解方式更接近人類大腦的工作方式，也更適合支撐下游的決策任務(wù)。

研究團(tuán)隊(duì)選擇的具體工具是DINOv3，一種自監(jiān)督訓(xùn)練的視覺基礎(chǔ)模型。在這個模型眼里，每一幀圖像不是一堆像素，而是一個由語義特征組成的網(wǎng)格，每個小方格對應(yīng)圖像的一個局部區(qū)域，攜帶著豐富的語義信息。

在這個特征空間里工作有兩個明顯優(yōu)勢。第一，不需要渲染樹葉的紋理或者建筑墻面的磚縫——這些對決策沒有幫助的細(xì)節(jié)被自然過濾掉了，系統(tǒng)只需要關(guān)注對未來行動真正重要的語義內(nèi)容。第二，研究人員發(fā)現(xiàn)，在這個特征空間里預(yù)測未來，比在像素空間里預(yù)測要容易得多，因此可以使用參數(shù)量少得多的輕量級模型。他們的基礎(chǔ)架構(gòu)來自DINO-world，一個此前已證明"在特征空間預(yù)測未來"這條路線有效的判別式系統(tǒng)，而這篇論文的核心工作，就是把它改造成生成式系統(tǒng)，并大幅提升效率。

三、三步進(jìn)化：從單一答案到多元未來的蛻變之路

研究團(tuán)隊(duì)用一套精心設(shè)計(jì)的遞進(jìn)實(shí)驗(yàn)，展示了他們?nèi)绾我徊讲桨岩粋€判別式系統(tǒng)改造成高效的生成式系統(tǒng)。每一步都有清晰的改變和量化的效果，讀者可以跟著這條進(jìn)化路徑，理解每個技術(shù)決策背后的邏輯。

第一步，把判別式系統(tǒng)改造成生成式系統(tǒng)。研究團(tuán)隊(duì)引入了一種叫做"最優(yōu)多假設(shè)訓(xùn)練"（Best-of-Many，簡稱BoM）的訓(xùn)練方法。具體來說，每次訓(xùn)練時，系統(tǒng)不再預(yù)測單一答案，而是同時生成K個不同的預(yù)測，每個預(yù)測源自一個不同的隨機(jī)噪聲輸入——就像同時發(fā)出K個偵探去調(diào)查同一個案件，每個偵探的思路略有不同，得出的結(jié)論也各異。訓(xùn)練時只讓最接近真實(shí)情況的那個預(yù)測"受到獎勵"，其余的不受懲罰也不被優(yōu)化。這個機(jī)制隨著時間推移，會讓不同的隨機(jī)輸入自然地學(xué)會生成不同風(fēng)格的未來，而不是都朝著同一個方向靠攏。

這一步的效果立竿見影。在語義分割的指標(biāo)（mIoU，數(shù)值越高代表預(yù)測越準(zhǔn)確）上，預(yù)測出的最優(yōu)結(jié)果明顯好于判別式基線。然而，均值指標(biāo)卻大幅下降——許多預(yù)測樣本退化成了整幀畫面只有一種語義類別的荒謬結(jié)果，就像偵探失去了推理能力，隨便猜了一個答案。更糟糕的是，生成16個候選預(yù)測就讓訓(xùn)練時間增加了約5倍，計(jì)算代價高得驚人。

第二步，引入幀壓縮。問題的根源在于，每生成一個候選預(yù)測，系統(tǒng)就必須輸出整幀圖像對應(yīng)的全部特征網(wǎng)格（在256×256的圖像尺寸下，這是256個特征向量）。研究團(tuán)隊(duì)的解決思路是：用一個專門訓(xùn)練的編碼器，把一整幀的特征網(wǎng)格壓縮成單一的一個"幀令牌"（frame token），再用一個解碼器把它還原回來。這樣，系統(tǒng)就不再需要為每個候選預(yù)測輸出256個向量，而是只輸出1個向量，計(jì)算量暴降。

這一步確實(shí)大幅提升了效率，訓(xùn)練時間降到了判別式基線的40%，內(nèi)存占用降到了20%。均值指標(biāo)也有所回升，因?yàn)榻獯a器在還原特征網(wǎng)格時具有一定的"整形"能力，阻止了那些退化成單一色塊的荒謬預(yù)測。然而，把整幀圖像的所有信息塞進(jìn)單一一個向量，容量終究是有限的，預(yù)測精度仍然明顯低于判別式基線。這個瓶頸有一個清晰的內(nèi)在邏輯：一個幀令牌需要記住整個場景的所有細(xì)節(jié)，自然無法精確捕捉幀與幀之間細(xì)微的變化。

第三步，引入變化量壓縮，誕生DeltaWorld。這一步是整篇論文最核心的創(chuàng)新。研究團(tuán)隊(duì)的頓悟是：既然相鄰兩幀之間大部分內(nèi)容都沒變，為什么要每次都把整幀畫面重新壓縮一遍？只壓縮"變化了什么"不就夠了嗎？

這正是DeltaTok（變化量壓縮器）的設(shè)計(jì)理念。它的編碼器同時接收前一幀和當(dāng)前幀的特征網(wǎng)格，只產(chǎn)出一個"變化量令牌"（delta token），記錄的是"從前一幀到當(dāng)前幀，場景發(fā)生了哪些變化"。解碼器在還原當(dāng)前幀時，以前一幀的特征為基礎(chǔ)，只需讀取這個變化量令牌，就能推算出當(dāng)前幀應(yīng)有的特征。

這個設(shè)計(jì)的妙處在于，變化量信息比整幀信息要簡單得多，單一向量能更準(zhǔn)確地表達(dá)它。當(dāng)場景幾乎靜止時，變化量接近零，令牌攜帶的信息極少，解碼器只需輕微調(diào)整前一幀就能得到當(dāng)前幀。當(dāng)場景發(fā)生大幅變化時，令牌攜帶更多信息，指導(dǎo)解碼器做更大的變換。整個過程有一個天然的"默認(rèn)行為"——如果模型什么都不預(yù)測，就等于預(yù)測"沒有變化"，而"沒有變化"意味著直接延續(xù)前一幀，這本身就是一個合理的預(yù)測。這個默認(rèn)行為幫助系統(tǒng)避免了之前出現(xiàn)的退化預(yù)測問題。

從數(shù)據(jù)上看，引入變化量壓縮后，最優(yōu)預(yù)測和均值預(yù)測都大幅提升。在Cityscapes（城市街道數(shù)據(jù)集）的中期預(yù)測指標(biāo)上，均值從42.7躍升至48.7，最優(yōu)從35.5躍升至45.5。尤其值得注意的是，均值指標(biāo)幾乎完全恢復(fù)到了原始判別式系統(tǒng)的水平，這意味著生成的多個候選未來整體上都是合理的、真實(shí)可信的，而不是隨機(jī)的噪音。

四、DeltaTok的技術(shù)內(nèi)核：一個向量如何承載兩幀之差

DeltaTok的具體實(shí)現(xiàn)，在技術(shù)上采用了基于視覺Transformer（ViT）的自動編碼器架構(gòu)，但對細(xì)節(jié)有針對性的優(yōu)化。編碼器接收前一幀特征網(wǎng)格和當(dāng)前幀特征網(wǎng)格，外加一個可學(xué)習(xí)的"初始化嵌入向量"，通過多層注意力機(jī)制，把兩幀的信息提煉成單一的變化量向量。編碼器在處理時，會給每個輸入令牌額外附加一個標(biāo)記，告訴系統(tǒng)"這是上一幀的信息"還是"這是當(dāng)前幀的信息"，幫助模型明確區(qū)分兩幀內(nèi)容。

解碼器則相反：接收前一幀特征網(wǎng)格和變化量令牌，輸出重建的當(dāng)前幀特征網(wǎng)格。為了讓系統(tǒng)在初始化時表現(xiàn)穩(wěn)定，研究團(tuán)隊(duì)使用了一種叫做"層縮放"（Layer Scale）的技術(shù)，讓解碼器在訓(xùn)練最初階段近似一個恒等映射，也就是默認(rèn)輸出"不變化"，再逐漸學(xué)習(xí)如何做出有意義的調(diào)整。

DeltaTok單獨(dú)訓(xùn)練，目標(biāo)是最小化重建誤差——也就是讓還原出的當(dāng)前幀特征網(wǎng)格盡可能接近真實(shí)的特征網(wǎng)格。訓(xùn)練完成后，DeltaTok的參數(shù)被凍結(jié)，作為一個固定的組件嵌入到DeltaWorld中。

訓(xùn)練時使用的幀對，來自與預(yù)測器訓(xùn)練相同的時間采樣策略：相鄰兩幀的時間間隔在1/25秒到1/3秒之間隨機(jī)采樣。這意味著變化量令牌既需要處理幾乎靜止的場景（幀間隔極短），也需要處理變化較大的場景（幀間隔較長），由此獲得了較強(qiáng)的泛化能力。

五、DeltaWorld的完整架構(gòu)：一條流水線，多種未來

把DeltaTok和最優(yōu)多假設(shè)訓(xùn)練組合在一起，就得到了完整的DeltaWorld系統(tǒng)。

在處理一段視頻時，DeltaWorld首先用DINOv3對每一幀提取特征網(wǎng)格，再用DeltaTok編碼器把相鄰幀之間的變化量壓縮成單一向量，形成一條時間序列：每個時間步只對應(yīng)一個變化量向量，而不是整個特征網(wǎng)格。這條序列從3D（空間×?xí)r間）的龐大張量，被壓縮成了1D（純時間）的緊湊序列。以512×512像素的輸入為例，原本每幀需要1024個特征向量，現(xiàn)在只需1個，壓縮比高達(dá)1024倍。

有一個小細(xì)節(jié)需要處理：第一幀沒有"前一幀"，所以系統(tǒng)在序列開頭插入一幀全黑圖像作為占位符，第一個變化量令牌因此實(shí)際上編碼的是"從空白到第一幀"的變化，相當(dāng)于直接編碼了第一幀的絕對內(nèi)容。

預(yù)測器是一個基于Transformer的序列模型，接收過去所有時間步的變化量向量序列，以及K個不同的隨機(jī)噪聲查詢向量，一次性輸出K個候選的下一時間步變化量向量。訓(xùn)練時，只有與真實(shí)變化量最接近的那個候選預(yù)測會被用于計(jì)算損失并反向傳播更新參數(shù)。

在推理階段，不同的隨機(jī)噪聲查詢自然地產(chǎn)生不同的預(yù)測結(jié)果，就像K位擁有相同信息但思維方式略有不同的偵探，會給出K種不同的案件重建方案。把這K個變化量向量分別傳入DeltaTok解碼器，再結(jié)合前一幀的特征，就能還原出K個候選的未來幀特征網(wǎng)格，最終通過任務(wù)頭（如語義分割頭或深度估計(jì)頭）得到K套可視化的未來預(yù)測。

整個推理過程只需一次前向傳播，不需要反復(fù)迭代去噪，也不需要額外的自回歸生成步驟。對于中期預(yù)測（約0.6秒后的未來），系統(tǒng)采用自回歸展開：把預(yù)測出的變化量向量追加到上下文序列中，再預(yù)測下一步，重復(fù)三次，得到三步后的未來特征。

六、樣本數(shù)量的魔力：越多候選，越接近真實(shí)

研究團(tuán)隊(duì)對"最優(yōu)多假設(shè)訓(xùn)練"中的超參數(shù)K（訓(xùn)練時同時生成的候選數(shù)量）做了系統(tǒng)性的消融實(shí)驗(yàn)，結(jié)果揭示了一個非常有趣的規(guī)律。

訓(xùn)練時使用的候選數(shù)K越多，"最優(yōu)預(yù)測"的得分就越高，而且這種提升沒有出現(xiàn)明顯的飽和跡象——哪怕K增大到1024，最優(yōu)預(yù)測指標(biāo)還在穩(wěn)步提升。這意味著系統(tǒng)一直在學(xué)習(xí)生成更精確、更具體的未來預(yù)測，并沒有遇到能力上限。直觀理解是：K越大，系統(tǒng)需要在訓(xùn)練中覆蓋更廣泛的未來可能性，被迫學(xué)會生成更多樣化的預(yù)測，每種預(yù)測因此也變得更加精準(zhǔn)和有特色。

與此同時，"均值預(yù)測"（把K個候選的特征平均后做出預(yù)測）的得分隨K增大而略微下降，但在K超過64之后趨于穩(wěn)定。這表明更多的多樣性并不會把均值預(yù)測推向荒謬——系統(tǒng)生成的那些多元未來，整體上依然是合理可信的，不會出現(xiàn)一個預(yù)測停車場、一個預(yù)測火星表面這樣南轅北轍的情況。

最終在主實(shí)驗(yàn)中，研究團(tuán)隊(duì)選擇K=256進(jìn)行訓(xùn)練，推理時從20個樣本中選取最優(yōu)，在精度和效率之間取得了合適的平衡。

七、與巨型模型的正面對比：以一當(dāng)千

在最終的性能評測中，研究團(tuán)隊(duì)在三個專業(yè)數(shù)據(jù)集上對DeltaWorld與現(xiàn)有系統(tǒng)進(jìn)行了對比。評測覆蓋語義分割（在VSPW通用視頻數(shù)據(jù)集和Cityscapes城市駕駛數(shù)據(jù)集上測量mIoU指標(biāo)）和深度估計(jì)（在KITTI駕駛數(shù)據(jù)集上測量RMSE指標(biāo)），分別評估短期（約0.2秒后）和中期（約0.6秒后）預(yù)測能力。

對比的對象包括：DINO-world（判別式系統(tǒng)，只能給出單一預(yù)測），Cosmos-4B和Cosmos-12B（生成式系統(tǒng)，分別有40億和120億參數(shù)，另配70億參數(shù)解碼器），以及兩個極端基線——"復(fù)制最后一幀"（把最近觀測幀當(dāng)成預(yù)測結(jié)果）和"完美預(yù)測"（直接使用真實(shí)未來幀）。

計(jì)算量的差距是最直觀的：DeltaWorld生成20個候選預(yù)測只需3.1萬GFLOPs，而Cosmos生成同樣數(shù)量需要6萬到6.4萬萬億次運(yùn)算，差距超過2000倍。參數(shù)量上，DeltaWorld約0.3億參數(shù)，Cosmos則在40億到120億之間，差距超過35倍。

然而更令人印象深刻的是預(yù)測精度。在所有評測指標(biāo)上，DeltaWorld的"最優(yōu)預(yù)測"（從20個候選中選最好的）全面超越Cosmos，包括最大的那個Cosmos-12B變體。在中期Cityscapes分割指標(biāo)上，DeltaWorld最優(yōu)預(yù)測達(dá)到55.4，Cosmos-12B最優(yōu)預(yù)測只有53.3；在短期Cityscapes上，DeltaWorld達(dá)到65.8，Cosmos-12B達(dá)到55.3，差距相當(dāng)顯著。在均值指標(biāo)上，DeltaWorld也在絕大多數(shù)指標(biāo)上領(lǐng)先或持平，說明它生成的多種未來整體上都是真實(shí)可信的，而不只是偶爾碰運(yùn)氣碰出一個好預(yù)測。

與判別式的DINO-world相比，DeltaWorld的均值預(yù)測在Cityscapes上略優(yōu)，在VSPW和KITTI上略遜，這是可以接受的——畢竟判別式系統(tǒng)把全部精力集中在生成一個最好的預(yù)測，而DeltaWorld同時維護(hù)著多種可能性。而DeltaWorld的"最優(yōu)預(yù)測"則全面超越DINO-world，證明在真正需要多元預(yù)測的場景下，DeltaWorld能覆蓋到判別式系統(tǒng)永遠(yuǎn)無法觸達(dá)的可能未來。

另一個有意義的觀察是：DeltaWorld的最優(yōu)預(yù)測和均值預(yù)測之間的差距，明顯大于Cosmos。這說明DeltaWorld生成的多種未來之間有更實(shí)質(zhì)性的差異，而Cosmos的多種預(yù)測往往大同小異，多樣性其實(shí)相當(dāng)有限。

八、變化量令牌的普適性：不只限于DeltaWorld

研究團(tuán)隊(duì)還驗(yàn)證了變化量令牌這一思路在其他架構(gòu)中的可遷移性，結(jié)果頗有說服力。

在判別式的DINO-world中，把原本每幀256個特征向量替換成單一變化量令牌，性能幾乎持平（VSPW下降0.2，Cityscapes提升1.5），而訓(xùn)練時間降至50%，內(nèi)存占用降至20%。這說明變化量令牌并非DeltaWorld的"專屬魔法"，對于任何在VFM特征空間工作的視頻預(yù)測系統(tǒng)都有潛在價值。

研究團(tuán)隊(duì)還在另一個完全不同的系統(tǒng)DINO-Foresight上做了驗(yàn)證。這個系統(tǒng)使用的是多層DINOv2特征經(jīng)PCA降維后的高維特征，分辨率是448×896，原本需要10240個令牌來表達(dá)一段上下文序列。引入變化量壓縮后，令牌數(shù)量降至5個（每幀1個），而預(yù)測精度卻沒有明顯下降——語義分割指標(biāo)從71.8/59.8提升至72.1/60.0，深度估計(jì)指標(biāo)基本持平。從10240個令牌到5個令牌，壓縮比超過2000倍，而精度沒有損失，這個結(jié)果相當(dāng)有力地支持了變化量令牌作為視頻表示通用工具的價值。

九、局限與未來：誠實(shí)面對仍在路上的挑戰(zhàn)

研究團(tuán)隊(duì)在論文中坦率地討論了兩個值得關(guān)注的局限性。

第一是概率分布建模的不完整性。最優(yōu)多假設(shè)訓(xùn)練讓系統(tǒng)能夠生成多種不同的預(yù)測，但它缺乏一個明確的概率框架來告訴我們"每種未來發(fā)生的概率是多少"。不同于擴(kuò)散模型（通過反復(fù)去噪來嚴(yán)格逼近目標(biāo)概率分布），BoM只保證某些預(yù)測更接近真實(shí)，但不對整體概率分布做出保證。這意味著系統(tǒng)生成的多種未來，其相對可能性無法直接從預(yù)測結(jié)果中讀出。從另一個角度看，不同的隨機(jī)噪聲查詢產(chǎn)生不同的未來這一現(xiàn)象，暗示著噪聲向量可能隱含了某種"行動指令"的語義，未來或許可以在此基礎(chǔ)上構(gòu)建明確的行動條件生成系統(tǒng)。

第二是誤差累積問題。由于變化量令牌編碼的是相對變化，還原絕對特征需要按時間步依次解碼，前一步的誤差會傳遞并疊加到后續(xù)步驟。在多步自回歸展開時，這種誤差傳播可能導(dǎo)致預(yù)測特征隨著時間步增加而逐漸偏離真實(shí)情況。研究團(tuán)隊(duì)提出了一種潛在的緩解策略：讓編碼器不使用真實(shí)的前一幀特征，而是使用解碼器自身重建的前一幀特征作為輸入，從而讓系統(tǒng)適應(yīng)自己產(chǎn)生的誤差分布，而非只能處理無誤差的真實(shí)輸入。

說到底，這項(xiàng)研究用一個出人意料的簡單原理——只記錄變化，而不重復(fù)描述全貌——撬動了視頻AI領(lǐng)域長期存在的計(jì)算效率與多樣性預(yù)測兩難困境。把每幀視頻壓縮成一個變化量向量，不只是一個工程上的聰明優(yōu)化，更折射出一種對視頻數(shù)據(jù)本質(zhì)的深刻理解：時間上相鄰的兩幀之間，絕大多數(shù)信息是冗余的，真正攜帶"發(fā)生了什么"的信息，往往是微小的增量。

這套思路可能對未來的視頻理解、視頻生成、機(jī)器人導(dǎo)航和自動駕駛都有參考價值。當(dāng)AI系統(tǒng)能夠以極低的計(jì)算代價生成多種可信的未來預(yù)測時，它才能真正勝任那些需要應(yīng)對不確定性的決策場景——而不是每次都給出一個"平均答案"，在任何真實(shí)的未來面前都顯得格格不入。

Q&A

Q1：DeltaTok和普通的視頻壓縮有什么本質(zhì)區(qū)別？

A：普通視頻壓縮（比如H.264）雖然也利用幀間差異減少數(shù)據(jù)量，但它工作在像素層面，目的是重建人眼可見的畫面。DeltaTok則工作在視覺基礎(chǔ)模型的語義特征空間，壓縮的不是像素差異，而是語義層面的變化，比如"場景中出現(xiàn)了新的行人"或者"車輛向右移動了"。更重要的是，DeltaTok把整幀的變化量壓縮成單一一個向量，而不是逐像素記錄運(yùn)動信息。這讓它天然適合處理遮擋、新物體出現(xiàn)等傳統(tǒng)光流方法難以應(yīng)對的情況。

Q2：DeltaWorld生成的多種未來預(yù)測，怎么判斷哪個更可靠？

A：DeltaWorld本身不直接給出每種預(yù)測的置信度或概率。論文也坦承這是當(dāng)前方法的一個局限——最優(yōu)多假設(shè)訓(xùn)練沒有明確的概率分布建模機(jī)制。在實(shí)際使用中，研究團(tuán)隊(duì)通過計(jì)算每個預(yù)測與真實(shí)結(jié)果在特征空間的距離來評估"最優(yōu)預(yù)測"，但這需要知道真實(shí)未來，只能用于事后評估。在真實(shí)部署場景中，可以結(jié)合下游任務(wù)的置信度或多個預(yù)測的一致性程度來判斷可靠性，但這方面的研究尚待進(jìn)一步探索。

Q3：DeltaWorld能用于自動駕駛的實(shí)時預(yù)測嗎？

A：從計(jì)算量來看，DeltaWorld已經(jīng)比現(xiàn)有生成式系統(tǒng)高效2000倍以上，生成20個候選未來只需3.1萬GFLOPs，這在現(xiàn)代GPU上是完全可行的推理負(fù)擔(dān)。但論文目前的評測是在學(xué)術(shù)數(shù)據(jù)集上進(jìn)行的，針對的是語義分割和深度估計(jì)等感知任務(wù)，而非端到端的駕駛決策。真正落地到自動駕駛系統(tǒng)還需要解決實(shí)時性優(yōu)化、與規(guī)劃模塊的接口設(shè)計(jì)、以及在極端場景下的魯棒性等工程問題。研究團(tuán)隊(duì)也提到，這套框架為未來擴(kuò)展預(yù)測器規(guī)模、延長上下文窗口和增加展開步驟打下了基礎(chǔ)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.