<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      亞馬遜與埃因霍溫理工大學(xué)聯(lián)手:用"變化量"重新定義視頻AI

      0
      分享至


      這項(xiàng)由亞馬遜和埃因霍溫理工大學(xué)聯(lián)合開展的研究,以預(yù)印本形式于2026年4月發(fā)表在arXiv平臺,論文編號為arXiv:2604.04913。感興趣的讀者可以通過該編號在arXiv檢索原文。

      自動駕駛汽車在路口面對一個正在猶豫是否過馬路的行人時,它必須在零點(diǎn)幾秒內(nèi)預(yù)判這個行人接下來會往哪個方向走。這不是一道有唯一正確答案的題目,行人可能向左、向右、駐足,甚至折返。面對這種生來就充滿不確定性的未來,一個智能系統(tǒng)需要同時考慮多種可能性,才能做出真正安全的決策。這個看似簡單的場景,恰恰觸碰了當(dāng)代視頻人工智能最核心的難題:如何高效、真實(shí)地生成多種可能的未來?

      現(xiàn)有的AI視頻預(yù)測系統(tǒng)大致分為兩個門派。一派叫"判別式"系統(tǒng),它就像一個只能給出一個標(biāo)準(zhǔn)答案的老師,總是預(yù)測最可能發(fā)生的那一種未來。當(dāng)未來存在多種可能時,它會把所有可能性平均一下,給出一個模糊的、哪個都不完全符合的中間答案——就像問你"今天中午想吃什么",它永遠(yuǎn)回答"米飯和面條的平均值"。另一派叫"生成式"系統(tǒng),它能給出多種不同的預(yù)測,更接近真實(shí)世界的不確定性,但代價是計(jì)算量極其龐大,動輒需要數(shù)十億參數(shù)的巨型模型,還要反復(fù)運(yùn)行多次才能生成一個預(yù)測結(jié)果。

      研究團(tuán)隊(duì)在審視這兩個門派時,敏銳地發(fā)現(xiàn)了一個關(guān)鍵問題:視頻里相鄰兩幀之間,絕大部分內(nèi)容其實(shí)沒有發(fā)生任何變化。天空還是那片天空,馬路還是那條馬路,背景里的建筑物一動不動。真正發(fā)生變化的,只是場景中極小的一部分。傳統(tǒng)的視頻AI卻對每一幀都完整地重新描述一遍,就像每次打電話給朋友,不管之前說過什么,都要從頭自我介紹一樣,既浪費(fèi)時間又低效。

      正是帶著這個洞察,研究團(tuán)隊(duì)提出了兩個核心發(fā)明:一個叫DeltaTok的"變化量壓縮器",以及一個建立在它之上的視頻世界模型DeltaWorld。整套系統(tǒng)的核心邏輯只有一句話——與其描述整個世界,不如只記錄世界發(fā)生了什么變化。

      一、視頻預(yù)測的底層困境:為什么"平均答案"是個陷阱

      為了真正理解這項(xiàng)研究解決的是什么問題,不妨把視頻預(yù)測的處境想象成一位天氣預(yù)報員。判別式預(yù)報員每次都說"明天氣溫22度",即便實(shí)際情況是有50%概率是15度的暴風(fēng)雨、50%概率是29度的大晴天,他給出的22度預(yù)測在哪種情況下都是錯的。生成式預(yù)報員能同時給出"可能暴風(fēng)雨"和"可能大晴天"兩套預(yù)報,這才是對不確定未來負(fù)責(zé)任的態(tài)度。

      判別式世界模型的數(shù)學(xué)原理印證了這一點(diǎn)。當(dāng)一個模型被要求預(yù)測不確定的未來,而訓(xùn)練目標(biāo)又要求它給出盡可能接近真實(shí)情況的單一答案時,數(shù)學(xué)上的最優(yōu)解會讓它自動收斂到所有可能未來的平均值。這個平均值看起來"不算太錯",卻對真正的決策毫無用處——它既不是任何一種真實(shí)的未來,也無法幫助自動駕駛系統(tǒng)區(qū)分行人會向左還是向右。

      生成式模型能解決這個問題,但它帶來了另一重麻煩。以目前最先進(jìn)的生成式視頻模型Cosmos為例,它有40億到120億個參數(shù),需要另一個70億參數(shù)的解碼器配合,光是生成20個候選未來就要消耗6萬到6.4萬萬億次浮點(diǎn)運(yùn)算(TFLOPs)。這個計(jì)算量相當(dāng)于同時運(yùn)行成百上千臺普通家用電腦。更麻煩的是,這類模型通常需要多次迭代去噪才能生成一個預(yù)測,每次預(yù)測都是一趟漫長的旅途。

      研究團(tuán)隊(duì)設(shè)定的目標(biāo)因此變得清晰:打造一個生成式系統(tǒng),讓它既能提供多種可能的未來預(yù)測,又把計(jì)算成本壓縮到前所未有的低水平。

      二、視覺基礎(chǔ)模型的特征空間:為什么不在像素上"繡花"

      在進(jìn)入核心技術(shù)之前,研究團(tuán)隊(duì)先做了一個關(guān)鍵的路線選擇:不在像素層面預(yù)測未來,而是在"視覺基礎(chǔ)模型"的特征空間里工作。

      所謂視覺基礎(chǔ)模型,可以理解為一個見過海量圖片、學(xué)會了用抽象概念理解世界的AI眼睛。它看到一張街道圖片,不會記住每個像素的顏色值,而是理解"這里有輛車"、"那里有棵樹"、"地面是濕的"。這種理解方式更接近人類大腦的工作方式,也更適合支撐下游的決策任務(wù)。

      研究團(tuán)隊(duì)選擇的具體工具是DINOv3,一種自監(jiān)督訓(xùn)練的視覺基礎(chǔ)模型。在這個模型眼里,每一幀圖像不是一堆像素,而是一個由語義特征組成的網(wǎng)格,每個小方格對應(yīng)圖像的一個局部區(qū)域,攜帶著豐富的語義信息。

      在這個特征空間里工作有兩個明顯優(yōu)勢。第一,不需要渲染樹葉的紋理或者建筑墻面的磚縫——這些對決策沒有幫助的細(xì)節(jié)被自然過濾掉了,系統(tǒng)只需要關(guān)注對未來行動真正重要的語義內(nèi)容。第二,研究人員發(fā)現(xiàn),在這個特征空間里預(yù)測未來,比在像素空間里預(yù)測要容易得多,因此可以使用參數(shù)量少得多的輕量級模型。他們的基礎(chǔ)架構(gòu)來自DINO-world,一個此前已證明"在特征空間預(yù)測未來"這條路線有效的判別式系統(tǒng),而這篇論文的核心工作,就是把它改造成生成式系統(tǒng),并大幅提升效率。

      三、三步進(jìn)化:從單一答案到多元未來的蛻變之路

      研究團(tuán)隊(duì)用一套精心設(shè)計(jì)的遞進(jìn)實(shí)驗(yàn),展示了他們?nèi)绾我徊讲桨岩粋€判別式系統(tǒng)改造成高效的生成式系統(tǒng)。每一步都有清晰的改變和量化的效果,讀者可以跟著這條進(jìn)化路徑,理解每個技術(shù)決策背后的邏輯。

      第一步,把判別式系統(tǒng)改造成生成式系統(tǒng)。研究團(tuán)隊(duì)引入了一種叫做"最優(yōu)多假設(shè)訓(xùn)練"(Best-of-Many,簡稱BoM)的訓(xùn)練方法。具體來說,每次訓(xùn)練時,系統(tǒng)不再預(yù)測單一答案,而是同時生成K個不同的預(yù)測,每個預(yù)測源自一個不同的隨機(jī)噪聲輸入——就像同時發(fā)出K個偵探去調(diào)查同一個案件,每個偵探的思路略有不同,得出的結(jié)論也各異。訓(xùn)練時只讓最接近真實(shí)情況的那個預(yù)測"受到獎勵",其余的不受懲罰也不被優(yōu)化。這個機(jī)制隨著時間推移,會讓不同的隨機(jī)輸入自然地學(xué)會生成不同風(fēng)格的未來,而不是都朝著同一個方向靠攏。

      這一步的效果立竿見影。在語義分割的指標(biāo)(mIoU,數(shù)值越高代表預(yù)測越準(zhǔn)確)上,預(yù)測出的最優(yōu)結(jié)果明顯好于判別式基線。然而,均值指標(biāo)卻大幅下降——許多預(yù)測樣本退化成了整幀畫面只有一種語義類別的荒謬結(jié)果,就像偵探失去了推理能力,隨便猜了一個答案。更糟糕的是,生成16個候選預(yù)測就讓訓(xùn)練時間增加了約5倍,計(jì)算代價高得驚人。

      第二步,引入幀壓縮。問題的根源在于,每生成一個候選預(yù)測,系統(tǒng)就必須輸出整幀圖像對應(yīng)的全部特征網(wǎng)格(在256×256的圖像尺寸下,這是256個特征向量)。研究團(tuán)隊(duì)的解決思路是:用一個專門訓(xùn)練的編碼器,把一整幀的特征網(wǎng)格壓縮成單一的一個"幀令牌"(frame token),再用一個解碼器把它還原回來。這樣,系統(tǒng)就不再需要為每個候選預(yù)測輸出256個向量,而是只輸出1個向量,計(jì)算量暴降。

      這一步確實(shí)大幅提升了效率,訓(xùn)練時間降到了判別式基線的40%,內(nèi)存占用降到了20%。均值指標(biāo)也有所回升,因?yàn)榻獯a器在還原特征網(wǎng)格時具有一定的"整形"能力,阻止了那些退化成單一色塊的荒謬預(yù)測。然而,把整幀圖像的所有信息塞進(jìn)單一一個向量,容量終究是有限的,預(yù)測精度仍然明顯低于判別式基線。這個瓶頸有一個清晰的內(nèi)在邏輯:一個幀令牌需要記住整個場景的所有細(xì)節(jié),自然無法精確捕捉幀與幀之間細(xì)微的變化。

      第三步,引入變化量壓縮,誕生DeltaWorld。這一步是整篇論文最核心的創(chuàng)新。研究團(tuán)隊(duì)的頓悟是:既然相鄰兩幀之間大部分內(nèi)容都沒變,為什么要每次都把整幀畫面重新壓縮一遍?只壓縮"變化了什么"不就夠了嗎?

      這正是DeltaTok(變化量壓縮器)的設(shè)計(jì)理念。它的編碼器同時接收前一幀和當(dāng)前幀的特征網(wǎng)格,只產(chǎn)出一個"變化量令牌"(delta token),記錄的是"從前一幀到當(dāng)前幀,場景發(fā)生了哪些變化"。解碼器在還原當(dāng)前幀時,以前一幀的特征為基礎(chǔ),只需讀取這個變化量令牌,就能推算出當(dāng)前幀應(yīng)有的特征。

      這個設(shè)計(jì)的妙處在于,變化量信息比整幀信息要簡單得多,單一向量能更準(zhǔn)確地表達(dá)它。當(dāng)場景幾乎靜止時,變化量接近零,令牌攜帶的信息極少,解碼器只需輕微調(diào)整前一幀就能得到當(dāng)前幀。當(dāng)場景發(fā)生大幅變化時,令牌攜帶更多信息,指導(dǎo)解碼器做更大的變換。整個過程有一個天然的"默認(rèn)行為"——如果模型什么都不預(yù)測,就等于預(yù)測"沒有變化",而"沒有變化"意味著直接延續(xù)前一幀,這本身就是一個合理的預(yù)測。這個默認(rèn)行為幫助系統(tǒng)避免了之前出現(xiàn)的退化預(yù)測問題。

      從數(shù)據(jù)上看,引入變化量壓縮后,最優(yōu)預(yù)測和均值預(yù)測都大幅提升。在Cityscapes(城市街道數(shù)據(jù)集)的中期預(yù)測指標(biāo)上,均值從42.7躍升至48.7,最優(yōu)從35.5躍升至45.5。尤其值得注意的是,均值指標(biāo)幾乎完全恢復(fù)到了原始判別式系統(tǒng)的水平,這意味著生成的多個候選未來整體上都是合理的、真實(shí)可信的,而不是隨機(jī)的噪音。

      四、DeltaTok的技術(shù)內(nèi)核:一個向量如何承載兩幀之差

      DeltaTok的具體實(shí)現(xiàn),在技術(shù)上采用了基于視覺Transformer(ViT)的自動編碼器架構(gòu),但對細(xì)節(jié)有針對性的優(yōu)化。編碼器接收前一幀特征網(wǎng)格和當(dāng)前幀特征網(wǎng)格,外加一個可學(xué)習(xí)的"初始化嵌入向量",通過多層注意力機(jī)制,把兩幀的信息提煉成單一的變化量向量。編碼器在處理時,會給每個輸入令牌額外附加一個標(biāo)記,告訴系統(tǒng)"這是上一幀的信息"還是"這是當(dāng)前幀的信息",幫助模型明確區(qū)分兩幀內(nèi)容。

      解碼器則相反:接收前一幀特征網(wǎng)格和變化量令牌,輸出重建的當(dāng)前幀特征網(wǎng)格。為了讓系統(tǒng)在初始化時表現(xiàn)穩(wěn)定,研究團(tuán)隊(duì)使用了一種叫做"層縮放"(Layer Scale)的技術(shù),讓解碼器在訓(xùn)練最初階段近似一個恒等映射,也就是默認(rèn)輸出"不變化",再逐漸學(xué)習(xí)如何做出有意義的調(diào)整。

      DeltaTok單獨(dú)訓(xùn)練,目標(biāo)是最小化重建誤差——也就是讓還原出的當(dāng)前幀特征網(wǎng)格盡可能接近真實(shí)的特征網(wǎng)格。訓(xùn)練完成后,DeltaTok的參數(shù)被凍結(jié),作為一個固定的組件嵌入到DeltaWorld中。

      訓(xùn)練時使用的幀對,來自與預(yù)測器訓(xùn)練相同的時間采樣策略:相鄰兩幀的時間間隔在1/25秒到1/3秒之間隨機(jī)采樣。這意味著變化量令牌既需要處理幾乎靜止的場景(幀間隔極短),也需要處理變化較大的場景(幀間隔較長),由此獲得了較強(qiáng)的泛化能力。

      五、DeltaWorld的完整架構(gòu):一條流水線,多種未來

      把DeltaTok和最優(yōu)多假設(shè)訓(xùn)練組合在一起,就得到了完整的DeltaWorld系統(tǒng)。

      在處理一段視頻時,DeltaWorld首先用DINOv3對每一幀提取特征網(wǎng)格,再用DeltaTok編碼器把相鄰幀之間的變化量壓縮成單一向量,形成一條時間序列:每個時間步只對應(yīng)一個變化量向量,而不是整個特征網(wǎng)格。這條序列從3D(空間×?xí)r間)的龐大張量,被壓縮成了1D(純時間)的緊湊序列。以512×512像素的輸入為例,原本每幀需要1024個特征向量,現(xiàn)在只需1個,壓縮比高達(dá)1024倍。

      有一個小細(xì)節(jié)需要處理:第一幀沒有"前一幀",所以系統(tǒng)在序列開頭插入一幀全黑圖像作為占位符,第一個變化量令牌因此實(shí)際上編碼的是"從空白到第一幀"的變化,相當(dāng)于直接編碼了第一幀的絕對內(nèi)容。

      預(yù)測器是一個基于Transformer的序列模型,接收過去所有時間步的變化量向量序列,以及K個不同的隨機(jī)噪聲查詢向量,一次性輸出K個候選的下一時間步變化量向量。訓(xùn)練時,只有與真實(shí)變化量最接近的那個候選預(yù)測會被用于計(jì)算損失并反向傳播更新參數(shù)。

      在推理階段,不同的隨機(jī)噪聲查詢自然地產(chǎn)生不同的預(yù)測結(jié)果,就像K位擁有相同信息但思維方式略有不同的偵探,會給出K種不同的案件重建方案。把這K個變化量向量分別傳入DeltaTok解碼器,再結(jié)合前一幀的特征,就能還原出K個候選的未來幀特征網(wǎng)格,最終通過任務(wù)頭(如語義分割頭或深度估計(jì)頭)得到K套可視化的未來預(yù)測。

      整個推理過程只需一次前向傳播,不需要反復(fù)迭代去噪,也不需要額外的自回歸生成步驟。對于中期預(yù)測(約0.6秒后的未來),系統(tǒng)采用自回歸展開:把預(yù)測出的變化量向量追加到上下文序列中,再預(yù)測下一步,重復(fù)三次,得到三步后的未來特征。

      六、樣本數(shù)量的魔力:越多候選,越接近真實(shí)

      研究團(tuán)隊(duì)對"最優(yōu)多假設(shè)訓(xùn)練"中的超參數(shù)K(訓(xùn)練時同時生成的候選數(shù)量)做了系統(tǒng)性的消融實(shí)驗(yàn),結(jié)果揭示了一個非常有趣的規(guī)律。

      訓(xùn)練時使用的候選數(shù)K越多,"最優(yōu)預(yù)測"的得分就越高,而且這種提升沒有出現(xiàn)明顯的飽和跡象——哪怕K增大到1024,最優(yōu)預(yù)測指標(biāo)還在穩(wěn)步提升。這意味著系統(tǒng)一直在學(xué)習(xí)生成更精確、更具體的未來預(yù)測,并沒有遇到能力上限。直觀理解是:K越大,系統(tǒng)需要在訓(xùn)練中覆蓋更廣泛的未來可能性,被迫學(xué)會生成更多樣化的預(yù)測,每種預(yù)測因此也變得更加精準(zhǔn)和有特色。

      與此同時,"均值預(yù)測"(把K個候選的特征平均后做出預(yù)測)的得分隨K增大而略微下降,但在K超過64之后趨于穩(wěn)定。這表明更多的多樣性并不會把均值預(yù)測推向荒謬——系統(tǒng)生成的那些多元未來,整體上依然是合理可信的,不會出現(xiàn)一個預(yù)測停車場、一個預(yù)測火星表面這樣南轅北轍的情況。

      最終在主實(shí)驗(yàn)中,研究團(tuán)隊(duì)選擇K=256進(jìn)行訓(xùn)練,推理時從20個樣本中選取最優(yōu),在精度和效率之間取得了合適的平衡。

      七、與巨型模型的正面對比:以一當(dāng)千

      在最終的性能評測中,研究團(tuán)隊(duì)在三個專業(yè)數(shù)據(jù)集上對DeltaWorld與現(xiàn)有系統(tǒng)進(jìn)行了對比。評測覆蓋語義分割(在VSPW通用視頻數(shù)據(jù)集和Cityscapes城市駕駛數(shù)據(jù)集上測量mIoU指標(biāo))和深度估計(jì)(在KITTI駕駛數(shù)據(jù)集上測量RMSE指標(biāo)),分別評估短期(約0.2秒后)和中期(約0.6秒后)預(yù)測能力。

      對比的對象包括:DINO-world(判別式系統(tǒng),只能給出單一預(yù)測),Cosmos-4B和Cosmos-12B(生成式系統(tǒng),分別有40億和120億參數(shù),另配70億參數(shù)解碼器),以及兩個極端基線——"復(fù)制最后一幀"(把最近觀測幀當(dāng)成預(yù)測結(jié)果)和"完美預(yù)測"(直接使用真實(shí)未來幀)。

      計(jì)算量的差距是最直觀的:DeltaWorld生成20個候選預(yù)測只需3.1萬GFLOPs,而Cosmos生成同樣數(shù)量需要6萬到6.4萬萬億次運(yùn)算,差距超過2000倍。參數(shù)量上,DeltaWorld約0.3億參數(shù),Cosmos則在40億到120億之間,差距超過35倍。

      然而更令人印象深刻的是預(yù)測精度。在所有評測指標(biāo)上,DeltaWorld的"最優(yōu)預(yù)測"(從20個候選中選最好的)全面超越Cosmos,包括最大的那個Cosmos-12B變體。在中期Cityscapes分割指標(biāo)上,DeltaWorld最優(yōu)預(yù)測達(dá)到55.4,Cosmos-12B最優(yōu)預(yù)測只有53.3;在短期Cityscapes上,DeltaWorld達(dá)到65.8,Cosmos-12B達(dá)到55.3,差距相當(dāng)顯著。在均值指標(biāo)上,DeltaWorld也在絕大多數(shù)指標(biāo)上領(lǐng)先或持平,說明它生成的多種未來整體上都是真實(shí)可信的,而不只是偶爾碰運(yùn)氣碰出一個好預(yù)測。

      與判別式的DINO-world相比,DeltaWorld的均值預(yù)測在Cityscapes上略優(yōu),在VSPW和KITTI上略遜,這是可以接受的——畢竟判別式系統(tǒng)把全部精力集中在生成一個最好的預(yù)測,而DeltaWorld同時維護(hù)著多種可能性。而DeltaWorld的"最優(yōu)預(yù)測"則全面超越DINO-world,證明在真正需要多元預(yù)測的場景下,DeltaWorld能覆蓋到判別式系統(tǒng)永遠(yuǎn)無法觸達(dá)的可能未來。

      另一個有意義的觀察是:DeltaWorld的最優(yōu)預(yù)測和均值預(yù)測之間的差距,明顯大于Cosmos。這說明DeltaWorld生成的多種未來之間有更實(shí)質(zhì)性的差異,而Cosmos的多種預(yù)測往往大同小異,多樣性其實(shí)相當(dāng)有限。

      八、變化量令牌的普適性:不只限于DeltaWorld

      研究團(tuán)隊(duì)還驗(yàn)證了變化量令牌這一思路在其他架構(gòu)中的可遷移性,結(jié)果頗有說服力。

      在判別式的DINO-world中,把原本每幀256個特征向量替換成單一變化量令牌,性能幾乎持平(VSPW下降0.2,Cityscapes提升1.5),而訓(xùn)練時間降至50%,內(nèi)存占用降至20%。這說明變化量令牌并非DeltaWorld的"專屬魔法",對于任何在VFM特征空間工作的視頻預(yù)測系統(tǒng)都有潛在價值。

      研究團(tuán)隊(duì)還在另一個完全不同的系統(tǒng)DINO-Foresight上做了驗(yàn)證。這個系統(tǒng)使用的是多層DINOv2特征經(jīng)PCA降維后的高維特征,分辨率是448×896,原本需要10240個令牌來表達(dá)一段上下文序列。引入變化量壓縮后,令牌數(shù)量降至5個(每幀1個),而預(yù)測精度卻沒有明顯下降——語義分割指標(biāo)從71.8/59.8提升至72.1/60.0,深度估計(jì)指標(biāo)基本持平。從10240個令牌到5個令牌,壓縮比超過2000倍,而精度沒有損失,這個結(jié)果相當(dāng)有力地支持了變化量令牌作為視頻表示通用工具的價值。

      九、局限與未來:誠實(shí)面對仍在路上的挑戰(zhàn)

      研究團(tuán)隊(duì)在論文中坦率地討論了兩個值得關(guān)注的局限性。

      第一是概率分布建模的不完整性。最優(yōu)多假設(shè)訓(xùn)練讓系統(tǒng)能夠生成多種不同的預(yù)測,但它缺乏一個明確的概率框架來告訴我們"每種未來發(fā)生的概率是多少"。不同于擴(kuò)散模型(通過反復(fù)去噪來嚴(yán)格逼近目標(biāo)概率分布),BoM只保證某些預(yù)測更接近真實(shí),但不對整體概率分布做出保證。這意味著系統(tǒng)生成的多種未來,其相對可能性無法直接從預(yù)測結(jié)果中讀出。從另一個角度看,不同的隨機(jī)噪聲查詢產(chǎn)生不同的未來這一現(xiàn)象,暗示著噪聲向量可能隱含了某種"行動指令"的語義,未來或許可以在此基礎(chǔ)上構(gòu)建明確的行動條件生成系統(tǒng)。

      第二是誤差累積問題。由于變化量令牌編碼的是相對變化,還原絕對特征需要按時間步依次解碼,前一步的誤差會傳遞并疊加到后續(xù)步驟。在多步自回歸展開時,這種誤差傳播可能導(dǎo)致預(yù)測特征隨著時間步增加而逐漸偏離真實(shí)情況。研究團(tuán)隊(duì)提出了一種潛在的緩解策略:讓編碼器不使用真實(shí)的前一幀特征,而是使用解碼器自身重建的前一幀特征作為輸入,從而讓系統(tǒng)適應(yīng)自己產(chǎn)生的誤差分布,而非只能處理無誤差的真實(shí)輸入。

      說到底,這項(xiàng)研究用一個出人意料的簡單原理——只記錄變化,而不重復(fù)描述全貌——撬動了視頻AI領(lǐng)域長期存在的計(jì)算效率與多樣性預(yù)測兩難困境。把每幀視頻壓縮成一個變化量向量,不只是一個工程上的聰明優(yōu)化,更折射出一種對視頻數(shù)據(jù)本質(zhì)的深刻理解:時間上相鄰的兩幀之間,絕大多數(shù)信息是冗余的,真正攜帶"發(fā)生了什么"的信息,往往是微小的增量。

      這套思路可能對未來的視頻理解、視頻生成、機(jī)器人導(dǎo)航和自動駕駛都有參考價值。當(dāng)AI系統(tǒng)能夠以極低的計(jì)算代價生成多種可信的未來預(yù)測時,它才能真正勝任那些需要應(yīng)對不確定性的決策場景——而不是每次都給出一個"平均答案",在任何真實(shí)的未來面前都顯得格格不入。

      Q&A

      Q1:DeltaTok和普通的視頻壓縮有什么本質(zhì)區(qū)別?

      A:普通視頻壓縮(比如H.264)雖然也利用幀間差異減少數(shù)據(jù)量,但它工作在像素層面,目的是重建人眼可見的畫面。DeltaTok則工作在視覺基礎(chǔ)模型的語義特征空間,壓縮的不是像素差異,而是語義層面的變化,比如"場景中出現(xiàn)了新的行人"或者"車輛向右移動了"。更重要的是,DeltaTok把整幀的變化量壓縮成單一一個向量,而不是逐像素記錄運(yùn)動信息。這讓它天然適合處理遮擋、新物體出現(xiàn)等傳統(tǒng)光流方法難以應(yīng)對的情況。

      Q2:DeltaWorld生成的多種未來預(yù)測,怎么判斷哪個更可靠?

      A:DeltaWorld本身不直接給出每種預(yù)測的置信度或概率。論文也坦承這是當(dāng)前方法的一個局限——最優(yōu)多假設(shè)訓(xùn)練沒有明確的概率分布建模機(jī)制。在實(shí)際使用中,研究團(tuán)隊(duì)通過計(jì)算每個預(yù)測與真實(shí)結(jié)果在特征空間的距離來評估"最優(yōu)預(yù)測",但這需要知道真實(shí)未來,只能用于事后評估。在真實(shí)部署場景中,可以結(jié)合下游任務(wù)的置信度或多個預(yù)測的一致性程度來判斷可靠性,但這方面的研究尚待進(jìn)一步探索。

      Q3:DeltaWorld能用于自動駕駛的實(shí)時預(yù)測嗎?

      A:從計(jì)算量來看,DeltaWorld已經(jīng)比現(xiàn)有生成式系統(tǒng)高效2000倍以上,生成20個候選未來只需3.1萬GFLOPs,這在現(xiàn)代GPU上是完全可行的推理負(fù)擔(dān)。但論文目前的評測是在學(xué)術(shù)數(shù)據(jù)集上進(jìn)行的,針對的是語義分割和深度估計(jì)等感知任務(wù),而非端到端的駕駛決策。真正落地到自動駕駛系統(tǒng)還需要解決實(shí)時性優(yōu)化、與規(guī)劃模塊的接口設(shè)計(jì)、以及在極端場景下的魯棒性等工程問題。研究團(tuán)隊(duì)也提到,這套框架為未來擴(kuò)展預(yù)測器規(guī)模、延長上下文窗口和增加展開步驟打下了基礎(chǔ)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      古力娜扎:真空上陣是放飛自我還是資本博弈?

      古力娜扎:真空上陣是放飛自我還是資本博弈?

      娛樂領(lǐng)航家
      2026-04-02 21:00:03
      天津,昨天晚上起了把火

      天津,昨天晚上起了把火

      靠山屯閑話
      2026-04-19 07:51:24
      20分鐘全華班!剛丟1球!中超問誰能做到!申花司機(jī)也敢玩大的

      20分鐘全華班!剛丟1球!中超問誰能做到!申花司機(jī)也敢玩大的

      80后體育大蜀黍
      2026-04-19 16:31:53
      肝癌介入手術(shù)很成功,出院前護(hù)士一碗粥,喝下去食道穿孔沒救回來

      肝癌介入手術(shù)很成功,出院前護(hù)士一碗粥,喝下去食道穿孔沒救回來

      周哥一影視
      2026-04-19 12:01:21
      她是知名歌唱家,卻嫁大30歲二婚老頭,如今丈夫老態(tài)盡顯,她圖啥

      她是知名歌唱家,卻嫁大30歲二婚老頭,如今丈夫老態(tài)盡顯,她圖啥

      洲洲影視娛評
      2026-04-19 16:48:08
      全球公認(rèn)最懶國家,當(dāng)?shù)厝藞?jiān)決反對獨(dú)立,每天好吃懶做全靠援助

      全球公認(rèn)最懶國家,當(dāng)?shù)厝藞?jiān)決反對獨(dú)立,每天好吃懶做全靠援助

      心中的麥田
      2026-04-17 18:03:56
      一個害國害民的歷史罪人,老百姓還把他當(dāng)成英雄崇拜

      一個害國害民的歷史罪人,老百姓還把他當(dāng)成英雄崇拜

      小豫講故事
      2026-04-19 06:00:10
      雅閣、飛度的老家沒了!廣本黃埔工廠6月關(guān)門,一個時代宣告結(jié)束

      雅閣、飛度的老家沒了!廣本黃埔工廠6月關(guān)門,一個時代宣告結(jié)束

      周哥一影視
      2026-04-19 17:03:00
      大S生前好友賈永婕說:玥兒夢見了媽媽,大S告訴她“媽媽安好”!

      大S生前好友賈永婕說:玥兒夢見了媽媽,大S告訴她“媽媽安好”!

      八卦王者
      2026-04-19 11:19:31
      10億都救不了一命!京東副總裁蔡磊,生命進(jìn)入倒計(jì)時

      10億都救不了一命!京東副總裁蔡磊,生命進(jìn)入倒計(jì)時

      聽風(fēng)喃
      2026-04-06 11:16:04
      734名美軍火線辭職,白宮陷入徹底恐慌,對伊封鎖淪為笑柄

      734名美軍火線辭職,白宮陷入徹底恐慌,對伊封鎖淪為笑柄

      凡知
      2026-04-19 16:30:29
      何潤東談張凌赫被評價“粉底液將軍”:不一樣的戲種、類型,是完全不能比較的;稱自己翻紅后接到很多工作邀約,還沒時間看《逐玉》

      何潤東談張凌赫被評價“粉底液將軍”:不一樣的戲種、類型,是完全不能比較的;稱自己翻紅后接到很多工作邀約,還沒時間看《逐玉》

      魯中晨報
      2026-04-17 09:24:06
      直接給島內(nèi)孩子們看!這應(yīng)該是鄭麗文從大陸帶回最珍貴禮物!

      直接給島內(nèi)孩子們看!這應(yīng)該是鄭麗文從大陸帶回最珍貴禮物!

      阿龍聊軍事
      2026-04-18 21:26:21
      人民日報:已投放500萬輛!新國標(biāo)電動車為何突然反轉(zhuǎn),有3大原因

      人民日報:已投放500萬輛!新國標(biāo)電動車為何突然反轉(zhuǎn),有3大原因

      電動車的那些事兒
      2026-04-18 07:37:58
      荷蘭站比賽結(jié)束,張雪機(jī)車目前在WSBK制造商積分榜排名第三

      荷蘭站比賽結(jié)束,張雪機(jī)車目前在WSBK制造商積分榜排名第三

      貝殼財經(jīng)
      2026-04-19 21:36:51
      真給力!5月1日起,65歲老人坐公交全省都免費(fèi) 福建老人幸福感拉滿

      真給力!5月1日起,65歲老人坐公交全省都免費(fèi) 福建老人幸福感拉滿

      今日搞笑分享
      2026-04-19 16:37:15
      正式退出,全紅嬋無緣亞運(yùn)會?跳水隊(duì)官宣選拔條件,全紅嬋獲資格

      正式退出,全紅嬋無緣亞運(yùn)會?跳水隊(duì)官宣選拔條件,全紅嬋獲資格

      懂球社
      2026-04-19 20:23:38
      張凌赫“超級寶貝”爆火:江浙滬育兒的含金量,還在上升

      張凌赫“超級寶貝”爆火:江浙滬育兒的含金量,還在上升

      一口娛樂
      2026-04-18 12:46:17
      五一放假通知來了!中小學(xué)生同時迎來一個好消息

      五一放假通知來了!中小學(xué)生同時迎來一個好消息

      老特有話說
      2026-04-18 18:42:39
      韓國一美女因晨跑健身“走紅”,身材緊致太吸睛,網(wǎng)友:太漂亮了

      韓國一美女因晨跑健身“走紅”,身材緊致太吸睛,網(wǎng)友:太漂亮了

      馬拉松跑步健身
      2026-04-19 06:30:13
      2026-04-19 22:43:01
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      8048文章數(shù) 562關(guān)注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀(jì)錄!300臺機(jī)器人狂飆半馬

      頭條要聞

      男子直播看得"心癢癢"貸款幾十萬賭石:不敢告訴老婆

      頭條要聞

      男子直播看得"心癢癢"貸款幾十萬賭石:不敢告訴老婆

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      張?zhí)鞇墼u論區(qū)淪陷!被曝卷入小三風(fēng)波

      財經(jīng)要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態(tài)度原創(chuàng)

      游戲
      教育
      本地
      數(shù)碼
      公開課

      《識質(zhì)存在》宣傳圖被P 里昂亂入造就無敵組合

      教育要聞

      學(xué)生扎堆選物化生,致湖南某重高現(xiàn)56人班額?高中選科要規(guī)避盲區(qū)

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級偵探添亂

      數(shù)碼要聞

      大力出奇跡!Intel終于拿出對付3D緩存的絕招:288MB bLLC大平層緩存暴力碾壓AMD

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版