<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      Sora·創(chuàng)世紀(jì)·大統(tǒng)一模型

      0
      分享至

      Sora的野心:世界模擬器

      現(xiàn)實(shí)世界(物理世界)存在大統(tǒng)一理論嗎?

      這是愛因斯坦一輩子都在追尋的目標(biāo)。

      無數(shù)人類天才窮盡一生才合伙建立殘缺的大統(tǒng)一理論(GUT):它只統(tǒng)一了強(qiáng)相互作用、弱相互作用和電磁力,引力至今無法統(tǒng)一到模型之中。

      同理,AI世界存在大統(tǒng)一模型嗎?

      這也是很多AI工程師也在追求的目標(biāo)。

      此次OpenAI發(fā)布Sora,官方對(duì)它的定義就是:世界模擬器。

      并且認(rèn)為它是構(gòu)建物理世界通用模擬器的一個(gè)可能方法。


      那么,AI世界也會(huì)存在“基本粒子”嗎?

      為什么Sora發(fā)布會(huì)引發(fā)對(duì)AGI的思考和爭(zhēng)議。

      人類的大統(tǒng)一理論與AI大統(tǒng)一模型如何比照參考?

      物理引擎和數(shù)學(xué)原理又將扮演什么角色?

      隨著Sora的DEMO推出,人類似乎觸手可及“AI創(chuàng)世紀(jì)”!

      1

      AI語言大模型(LLM)的“基本粒子”

      人類的終極目標(biāo)之一,

      就是尋找物理世界的“基本粒子”。

      只有找到“基本粒子”,才有可能理解這個(gè)宇宙。

      AI世界則不一樣,人類現(xiàn)在是創(chuàng)世者,我們?cè)O(shè)定“基本粒子”。只有制造出“基本粒子”,才能去生成一個(gè)新世界。

      回到AI人工智能的“奇點(diǎn)大爆炸”時(shí)代,ChatGPT作為第一個(gè)真正意義的人工通用智能,它的工作原理是什么:

      ChatGPT借助Embedding將人類語言“編碼”成AI能夠計(jì)算的“語言顆粒”,也就是Token化,將自然語言轉(zhuǎn)換為高維向量空間中的數(shù)值,通過自注意力機(jī)制權(quán)衡不同語言元素的相對(duì)重要,最終“解碼”回自然語言。

      大語言模型處理和生成文本的過程步驟:

      1.文本Tokenization ? 2. Embedding映射 ? 3. 加入位置編碼 ? 4. 通過自注意力機(jī)制處理 ? 5. 利用前饋網(wǎng)絡(luò)進(jìn)一步處理 ? 6. 生成預(yù)測(cè)并“解碼

      具體步驟如下:

      ①文本Tokenization:

      將原始文本分解為更小的單元(Tokens)。

      "Hello, world!" ? ["Hello", ",", "world", "!"]

      ②Embedding映射:

      將每個(gè)Token轉(zhuǎn)換為高維空間中的向量。

      ["Hello", ",", "world", "!"]

      ? [向量Hello, 向量,, 向量world, 向量!]

      ③加入位置編碼:

      為每個(gè)向量加上位置信息,保留序列中詞的順序。

      [向量Hello, 向量,, 向量world, 向量!] ? [向量Hello_pos, 向量,_pos, 向量world_pos, 向量!_pos]

      ④通過自注意力機(jī)制處理:

      模型計(jì)算每個(gè)詞對(duì)序列中其他詞的“注意力”,從而調(diào)整每個(gè)詞的表示,使其包含更豐富的上下文信息。

      [向量Hello_pos, 向量,_pos, 向量world_pos, 向量!_pos] ? [向量Hello_context, 向量,_context, 向量world_context, 向量!_context]

      ⑤利用前饋網(wǎng)絡(luò)進(jìn)一步處理:

      對(duì)每個(gè)詞的向量進(jìn)行進(jìn)一步的非線性變換,以學(xué)習(xí)更復(fù)雜的表示。

      [向量Hello_context, 向量,_context, 向量world_context, 向量!_context] ? [向量Hello_final, 向量,_final, 向量world_final, 向量!_final]

      ⑥生成預(yù)測(cè)并“解碼”:

      基于最終的向量表示,模型生成下一個(gè)詞的預(yù)測(cè),并將其轉(zhuǎn)換回人類可讀的文本。

      [向量Hello_final, 向量,_final, 向量world_final, 向量!_final] ? 預(yù)測(cè)下一個(gè)Token ? "Language"】

      從以上步驟可以看出,ChatGPT技術(shù)原理的起點(diǎn)是將“自然語言”Token化,也就是給大語言模型提供了一個(gè)可計(jì)算可理解的“基本粒子”,然后用這些“基本粒子”去組合文本語言新世界。

      不僅僅是ChatGPT,其它語言大模型基本上都將“Token”視為基本粒子,在文本大模型這個(gè)領(lǐng)域,創(chuàng)世粒子已經(jīng)“塵埃落定”。

      2

      Sora中的基本粒子“spacetime patches”

      與ChatGPT的技術(shù)原理很相似,Sora模型技術(shù)棧也是先將視頻數(shù)據(jù)“基本粒子”化。

      A、文字語言基本粒子“Token化

      B、視頻數(shù)據(jù)基本粒子“ spacetime patches化”


      與ChatGPT采用Token Embedding方法以實(shí)現(xiàn)文本數(shù)據(jù)相似,Sora模型將視頻數(shù)據(jù)壓縮至一個(gè)低維的潛空間(Latent Space),再將這些壓縮后的數(shù)據(jù)細(xì)分為時(shí)空碎片(Spacetime Latent Patches)。

      視頻大模型的工程師一直都在創(chuàng)造基本粒子,但并不是每個(gè)基本粒子都能成為“創(chuàng)世粒子”。

      能夠得到眾生認(rèn)可的“創(chuàng)世粒子”應(yīng)該具有以下特點(diǎn):

      1、能夠高效繼承原生世界的信息;

      2、可以自由組合創(chuàng)造(生成)新世界。

      這次Sora模型的視頻數(shù)據(jù)“時(shí)空碎片”(spacetime patches)已經(jīng)被證實(shí)是一種高效且可擴(kuò)展的數(shù)據(jù)塊,它能夠捕捉和表征各類視頻數(shù)據(jù)的關(guān)鍵信息。成為AI時(shí)空數(shù)據(jù)建模的基石,和Token一樣時(shí)空碎片spacetime patches成為AI時(shí)空建模的關(guān)鍵,成為視頻大模型的“基本粒子”。

      Sora模型處理和生成視頻的過程步驟:

      1.視頻數(shù)據(jù)輸入 ? 2. 壓縮到低維潛變量空間(Latent Space) ? 3. 拆解為時(shí)空碎片(Spacetime Patches) ? 4. AI時(shí)空建模


      通過這一系列步驟,視頻數(shù)據(jù)被轉(zhuǎn)換成時(shí)空碎片spacetime patches,這為深入理解視頻內(nèi)容提供一種統(tǒng)一方法。

      AI創(chuàng)世紀(jì)的一些基本粒子好像慢慢被創(chuàng)造出來了:

      語言大模型的基本粒子創(chuàng)造出來了:Token;

      視頻大模型的基本粒子也創(chuàng)造出來了:spacetime patches。

      3

      Sora 的技術(shù)原理猜想

      Sora模型官方只出了一個(gè)技術(shù)報(bào)告,并沒有公布具體技術(shù)細(xì)節(jié)。

      看來創(chuàng)世者也不是無私的,OpenAI從原生世界的開源技術(shù)和公開論文中獲取靈感,但卻不愿意公開自己的技術(shù)。

      以上我們對(duì)Sora進(jìn)行了一個(gè)總體的總結(jié),現(xiàn)在來解構(gòu)一下它的產(chǎn)品脈絡(luò),以下內(nèi)容是對(duì)Sora模型的技術(shù)猜想:

      步驟1:

      壓縮原始視頻,提取特征信息

      在Sora模型的訓(xùn)練初期,第一步是將原始視頻數(shù)據(jù)轉(zhuǎn)化為低維度潛空間(Latent Space)中的特征。這個(gè)過程可以視為一個(gè)高維數(shù)據(jù)壓縮和特征提煉的數(shù)學(xué)操作。

      現(xiàn)存的4K或高清視頻擁有極高分辨率,需要一個(gè)“壓縮”步驟,旨在從原始視頻中提取特征信息,簡(jiǎn)化描述:


      OpenAI參考了Latent Diffusion的研究成果——將原圖像數(shù)據(jù)轉(zhuǎn)換成潛空間特征,降低處理數(shù)據(jù)量,且能有保留核心信息。

      經(jīng)過壓縮后的數(shù)據(jù)存在以下特征:

      1.有損壓縮與重建

      通過在潛在空間中進(jìn)行擴(kuò)散和逆擴(kuò)散過程,模型能夠在有損的基礎(chǔ)上重建出與原始數(shù)據(jù)相似但又新穎的樣本。

      2.效率與靈活性

      低維潛在空間中進(jìn)行操作使得模型更加高效,同時(shí)提供了更大的創(chuàng)造性靈活性。也就是說,雖然數(shù)據(jù)經(jīng)過壓縮,在Latent Diffusion技術(shù)加持下對(duì)大模型訓(xùn)練影響不大。

      步驟2:

      將壓縮視頻拆解成時(shí)空碎片(spacetime patches)

      視頻數(shù)據(jù)被壓縮到潛空間,再拆解成基本單位,也就是時(shí)空碎片Spacetime Patches。

      Patch的原始的意義是一個(gè)獨(dú)立的圖像塊,在圖像訓(xùn)練的Vision Transformer (ViT)的原始論文中,研究者提出以處理大型圖像的訓(xùn)練方法——方法的思想在于將大圖像分割為等面積的圖像塊,也就是Patch,將每個(gè)圖像塊視為序列化數(shù)據(jù)的一部分,在這一序列化過程中,每個(gè)圖像塊的位置信息也被編碼進(jìn)去,這就是圖片生成的基本原理。但如果要生成視頻的話,則要將對(duì)應(yīng)位置圖像塊的時(shí)間幀編碼進(jìn)去,形成時(shí)空?qǐng)D像塊,簡(jiǎn)稱時(shí)空碎片(Spacetime Patches),這些時(shí)空碎片不僅攜帶空間信息,還包含時(shí)間序列上的變化信息。


      1、圖像生成

      訓(xùn)練時(shí)由面到點(diǎn)(平面),生成時(shí)由點(diǎn)到面;

      2、視頻生成

      訓(xùn)練時(shí)由立體到點(diǎn)(立本),生成時(shí)再由點(diǎn)到立體。


      數(shù)學(xué)上可以將視頻視為一個(gè)由時(shí)空碎片(Spacetime Patches)組成的復(fù)雜矩陣。

      假設(shè)視頻V是一個(gè)連續(xù)的時(shí)空信號(hào),可以表示為一個(gè)四維張量V∈RT×H×W×C,其中T代表時(shí)間維度上的幀數(shù),H和W分別代表每幀圖像的高度和寬度,而C是位置信息。當(dāng)然這里還包括一些技術(shù)細(xì)節(jié):

      例如不同視頻尺寸捕捉信息參考Navit的“Pack”的技術(shù),編碼器VAE的改進(jìn)支持各種視頻格式。

      視頻數(shù)據(jù)被拆解為一系列可管理的基本單位時(shí)空碎片(Spacetime Patches),下一步就是要將這些時(shí)空碎片輸入到到模型中進(jìn)行訓(xùn)練。

      步驟3

      “字幕重排技術(shù)”對(duì)時(shí)空向量的準(zhǔn)確描述

      在將時(shí)空碎片輸入到到模型訓(xùn)練之前,OpenAI公司還引入了“字幕重排技術(shù)”。

      Betker, James, et al. "Improving image generation with better captions." Computer Science. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8

      這是一種全新的工程能力,OpenAI將DALL·E 3引入的字幕重排技術(shù)應(yīng)用于視頻的訓(xùn)練。

      DALL·E 3也是OpenAI的產(chǎn)品,使用起來駕輕就熟。


      字幕重排技術(shù)”工程上非常重要,它在訓(xùn)練視頻和生成視頻兩個(gè)環(huán)節(jié)上都有極大作用。

      正向訓(xùn)練:

      訓(xùn)練一個(gè)字幕模型,然后使用它訓(xùn)練視頻產(chǎn)生文本字幕。高度描述性的視頻字幕可以提高文本的準(zhǔn)確性以及視頻的整體訓(xùn)練質(zhì)量。

      逆向生成:

      利用GPT大語言模型將用戶簡(jiǎn)短提示擴(kuò)展為詳細(xì)字幕,提高視頻生成的細(xì)節(jié)度和質(zhì)量。使Sora能夠根據(jù)用戶提示生成高質(zhì)量、內(nèi)容豐富的視頻。

      從工程上來講這里使用到了OpenAI的三大模型的技術(shù)能力:

      語言大模型GPT4.0?圖片大模型DALL·E 3?視頻大模型Sora

      這個(gè)環(huán)節(jié)技術(shù)突破不大,但工程影響甚巨,OpenAI手握三大模型(文+圖+視頻),其它公司想要突破這樣的工程棧并不容易。

      步驟4:

      擴(kuò)散模型Diffusion Transformer對(duì)潛空間數(shù)據(jù)進(jìn)行處理

      潛變量的向量信息已經(jīng)準(zhǔn)備好了,現(xiàn)在進(jìn)入到處理數(shù)據(jù)和生成視頻環(huán)節(jié)。

      OpenAI采用了Diffusion Transformer(DiT)架構(gòu),這是基于伯克利學(xué)者在論文"Scalable diffusion models with transformers"中提出的工作。

      該架構(gòu)有效地結(jié)合了擴(kuò)散模型和Transformer技術(shù),構(gòu)建了一個(gè)強(qiáng)大的信息提取器,專門用于處理和生成視頻內(nèi)容。

      整體架構(gòu)如下:


      No.1

      潛變量與Patch的處理

      將輸入視頻表示為一系列潛在變量,這些潛在變量進(jìn)一步被分解成多個(gè)Patch。

      每個(gè)Patch由多個(gè)DiT塊串聯(lián)處理,增強(qiáng)了模型對(duì)視頻內(nèi)容的理解和重構(gòu)能力。

      No.2

      DiT塊的優(yōu)化設(shè)計(jì)

      對(duì)標(biāo)準(zhǔn)Transformer架構(gòu)進(jìn)行了修改,引入了自適應(yīng)層歸一化(Adaptive Layer Normalization)、交叉注意力(Cross Attention)和額外的輸入Token進(jìn)行調(diào)節(jié),以優(yōu)化性能。實(shí)驗(yàn)表明,自適應(yīng)層歸一化在提高模型效果方面表現(xiàn)最佳。

      這里最內(nèi)核的兩大核心技術(shù)是擴(kuò)散模型Diffusion和Transformer框架!

      擴(kuò)散模型的數(shù)學(xué)原理:

      高斯噪聲的逐步添加與去噪過程:

      ● 通過連續(xù)添加高斯噪聲破壞訓(xùn)練數(shù)據(jù)的結(jié)構(gòu),使信息熵增加,逐漸掩蓋原始結(jié)構(gòu)信息。學(xué)習(xí)逆轉(zhuǎn)加噪過程,即去噪,從而恢復(fù)數(shù)據(jù)。

      ● 這一過程可以通過訓(xùn)練概率分布q(xt∣xt-1)來實(shí)現(xiàn),其中x0,...,xT是逐步加噪的潛變量序列。



      Transformer模型的數(shù)學(xué)原理


      深入探索Diffusion Transformer(DiT)架構(gòu)時(shí),理解Transformer的數(shù)學(xué)原理很重要。Transformer模型依賴于自注意力機(jī)制和多頭注意力機(jī)制,以實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)的高效處理和深層次理解。

      ● 自注意力(Self-Attention)機(jī)制

      自注意力機(jī)制允許模型在處理一個(gè)序列的每個(gè)元素時(shí),考慮到序列中的所有其他元素,其數(shù)學(xué)表示為:


      其中Q,K,V分別代表查詢(Query)、鍵(Key)和值(Value),dk是鍵的維度。這個(gè)機(jī)制通過計(jì)算輸入元素之間的權(quán)重分布,使模型能夠捕捉序列內(nèi)部的復(fù)雜關(guān)系。

      ● 多頭注意力(Multi-Head Attention)機(jī)制

      多頭注意力機(jī)制是對(duì)自注意力的擴(kuò)展,它并行地執(zhí)行多次自注意力操作,每次使用不同的權(quán)重集,然后將所有頭的輸出合并:


      以上機(jī)制中W是可學(xué)習(xí)的權(quán)重矩陣,?是頭的數(shù)量允許模型同時(shí)從不同的表示子空間中學(xué)習(xí)信息,提高了其理解和表達(dá)能力。

      關(guān)于TRANSFORMER的技術(shù)細(xì)節(jié),量子學(xué)派在有過詳細(xì)的介紹和學(xué)習(xí)!

      擴(kuò)散模型與Transformer的結(jié)合:

      DiT通過引入Transformer架構(gòu),實(shí)現(xiàn)了對(duì)視頻內(nèi)容的深層分析與理解。多層多頭注意力和歸一化帶來了降維和壓縮,擴(kuò)散方式下的信息提取過程更加高效。

      ● 此過程與大型語言模型(LLM)的重整化原理相似,通過參數(shù)化潛變量的概率分布,并使用KL散度來計(jì)算分布之間的差異,從而優(yōu)化模型性能。

      通過這種方式,Sora不僅可以準(zhǔn)確地提取和理解視頻內(nèi)容的深層信息,還能根據(jù)用戶的簡(jiǎn)短提示生成高質(zhì)量、內(nèi)容豐富的視頻。

      這一創(chuàng)新的方法為視頻生成領(lǐng)域帶來了新的可能性,展示了數(shù)學(xué)原理和AI技術(shù)結(jié)合的強(qiáng)大力量。

      步驟5

      與Sora產(chǎn)品交互,用戶逆向生成世界

      Sora能夠精確理解用戶的意圖,并將這些意圖擴(kuò)展成完整故事,這為視頻生成提供了藍(lán)圖。

      以下是擴(kuò)展過程詳解:

      接收用戶提示

      Sora首先收集用戶的簡(jiǎn)短提示,這可能是一個(gè)場(chǎng)景描述、情感表達(dá)或者任何想要在視頻元素。

      提示擴(kuò)展

      利用GPT模型,Sora將這些簡(jiǎn)短的提示轉(zhuǎn)換成詳細(xì)的字幕。這個(gè)過程涉及到復(fù)雜的自然語言理解和生成,確保擴(kuò)展后的字幕不僅忠實(shí)于原始提示,還補(bǔ)充大量的細(xì)節(jié),如背景信息、角色動(dòng)作、情感色彩等,使得提示變得生動(dòng)且具體。


      Sora模擬時(shí)尚女士走在東京街頭,效果極其逼真

      生成視頻內(nèi)容

      有了這些字幕作為指導(dǎo),Sora接著將字幕轉(zhuǎn)化為視覺內(nèi)容。這個(gè)過程包括選擇場(chǎng)景、角色設(shè)計(jì)、動(dòng)作編排和情感表達(dá),確保生成視頻與字幕保持一致。

      優(yōu)化與調(diào)整

      在視頻生成的過程中,Sora還會(huì)優(yōu)化和調(diào)整確保視頻的質(zhì)量達(dá)到最高。這可能包括對(duì)視頻細(xì)節(jié)的微調(diào)、色彩的校正、以及確保視頻流暢性和視覺吸引力。

      以上是對(duì)Sora技術(shù)原理的猜想,Sora模型可以生成高質(zhì)量和視頻,用OpenAI工程師的話來表述:構(gòu)建物理世界通用模擬器。

      4

      工程師的“創(chuàng)世紀(jì)”:鏡像世界

      工程師們眼中的Sora可不是為了給你生成一部電影,而是在虛擬環(huán)境中重現(xiàn)物理現(xiàn)實(shí),提供不違反“物理規(guī)律”的鏡像世界。

      那到底該如何創(chuàng)世呢?這可是大神們的工作。

      宇宙存在許多規(guī)則,例如能量守恒定律、熱力學(xué)定律、萬有引力牛頓定律等。

      萬事萬物不能違背這些規(guī)則,蘋果不能飛向月球,人類在陽光下有影子。那這些規(guī)律是如何形成的呢?存在兩種可能:

      1、混沌第一性原理:定律是在宇宙的發(fā)展過程中形成的;

      2、定律第一性原理:宇宙從按照這些定律才發(fā)展到現(xiàn)在。

      以上是兩種“創(chuàng)世”規(guī)則,也決定著“鏡像世界”的兩種方法。

      技術(shù)上現(xiàn)在有兩種方式可以實(shí)現(xiàn)這樣的世界模型:

      基于物理運(yùn)動(dòng)的模擬(Sora)

      物理規(guī)律學(xué)習(xí):Sora通過分析大規(guī)模視頻數(shù)據(jù),使用機(jī)器學(xué)習(xí)算法提煉出物理互動(dòng)的模式,如蘋果落地而非懸浮,遵循牛頓的萬有引力定律。

      基于數(shù)學(xué)規(guī)則的模擬(虛幻引擎)

      數(shù)學(xué)建模:虛幻引擎通過手工編碼物理世界的數(shù)學(xué)模型(如光照模型、動(dòng)力學(xué)方程),來精確“渲染”物理現(xiàn)象和互動(dòng)。

      很明顯,基于物理運(yùn)動(dòng)的模擬(Sora)認(rèn)可的是“混沌第一性原理”,在混亂中學(xué)習(xí)。基于數(shù)學(xué)規(guī)則的模擬(虛幻引擎)認(rèn)可的是“定律第一性原理”,存在更高設(shè)計(jì)者。

      以上兩者都存在爭(zhēng)議,那么這兩者可以結(jié)合嗎?

      5

      創(chuàng)世背后,可能的“數(shù)學(xué)漏洞”

      Sora是否是“世界模型器”,數(shù)學(xué)家有自己的看法。

      在很多科學(xué)家眼中,宇宙的本質(zhì)是數(shù)學(xué)。

      如果Sora能以模擬方式最終逼近數(shù)學(xué)本質(zhì),那它也可能被視為“創(chuàng)世紀(jì)”。

      Sora模型中用到了很多數(shù)學(xué)原理,舉例如下:

      1.流形分布

      定理:

      自然數(shù)據(jù)集表現(xiàn)為低維流形上的概率分布。

      2.數(shù)據(jù)流形的

      維數(shù)降低:

      數(shù)據(jù)樣本點(diǎn)集在高維原始數(shù)據(jù)空間中實(shí)際上局限于低維流形。

      3.物理系統(tǒng)

      的適定性

      物理的幾何連續(xù)可以通過偏微分方程的解的正則性和唯一性來體現(xiàn),自然界的物理過程在大多數(shù)情況下是連續(xù)和可預(yù)測(cè)的。

      4.概率分布

      的變換:

      通過傳輸變換,例如最優(yōu)傳輸變換和熱擴(kuò)散過程,將數(shù)據(jù)概率分布轉(zhuǎn)換為計(jì)算機(jī)易于生成的高斯分布。

      滑動(dòng)查看

      但從Sora模型生成的視頻來看,仍然存在明顯“數(shù)學(xué)漏洞”。

      1

      因果性的區(qū)分

      Transformer模型訓(xùn)練過程中的統(tǒng)計(jì)方法無法精確捕捉數(shù)學(xué)積分

      2

      局部合理性與整體合理性

      要求模型能夠整合更高層次數(shù)學(xué)理論,以實(shí)現(xiàn)整體的一致性(例如蠟燭被吹滅)。

      3

      臨界態(tài)的識(shí)別和模擬

      無法通過幾何方法的最優(yōu)傳輸理論來精確探測(cè)數(shù)據(jù)流形的邊界(從量變到質(zhì)變)。

      Sora模型展示了通過深度學(xué)習(xí)模擬復(fù)雜物理世界的潛力,但也存在明顯“數(shù)學(xué)漏洞”,如果能真正模擬物理世界,需要更高層次的數(shù)學(xué)理論并且探索新的模型結(jié)構(gòu)。

      6

      AI世界存在大統(tǒng)一模型嗎?

      很明顯,OpenAI試圖建立AI大統(tǒng)一模型。

      它通過GPT-4.0、DALL·E 3Sora等模型的開發(fā),試圖在語言、圖像和視頻等不同模態(tài)之間建立橋梁,完成大統(tǒng)一。

      但很多人并不買賬,深度學(xué)習(xí)三巨頭的Yann LeCun提出的非生成式V-JEPA模型試圖通過結(jié)合視覺感知和物理推理來構(gòu)建更為精確的世界模型。


      AI大統(tǒng)一模型并非沒有可能,一種新的方向已經(jīng)出現(xiàn):

      將不同模態(tài)的數(shù)據(jù)轉(zhuǎn)化為一種或多種統(tǒng)一的基本粒子形式,以便使用同一套算法框架進(jìn)行處理和分析。

      文字語言的Token基本粒子化,視頻數(shù)據(jù)的Spacetime Patches基本粒子化讓人看到了希望。

      Sora模型其實(shí)已經(jīng)讓兩種基本粒子TokenSpacetime Patches在進(jìn)行交互,最后能統(tǒng)一成一種基本粒子嗎?也不是不可能。

      除了數(shù)據(jù)“基本粒子”化,同時(shí)也看到了四大理論逐漸成形:

      1、基于Transformer架構(gòu)的交互關(guān)系:

      利用自注意力機(jī)制(Self-Attention Mechanism)使得模型能夠捕獲長(zhǎng)距離依賴,為跨模態(tài)數(shù)據(jù)的序列對(duì)齊和時(shí)間依賴性建模提供數(shù)學(xué)框架。

      2、Diffusion模型的逐步細(xì)化過程

      Diffusion模型通過漸進(jìn)式去噪進(jìn)行連續(xù)隨機(jī)的離散化表達(dá),嵌入了隨機(jī)微分方程展現(xiàn)了模型在處理不同數(shù)據(jù)類型時(shí)的靈活性和多樣性。

      3、生成對(duì)抗網(wǎng)絡(luò)(GAN)的創(chuàng)新應(yīng)用:

      生成器生成逼真的數(shù)據(jù)樣本,而判別器則努力區(qū)分真實(shí)數(shù)據(jù)和生成數(shù)據(jù),推動(dòng)模型在生成質(zhì)量、多樣性以及對(duì)復(fù)雜數(shù)據(jù)分布的捕捉能力方面的進(jìn)步。

      4、模態(tài)轉(zhuǎn)換的編解碼器:

      通過映射和逆映射的數(shù)學(xué)操作,實(shí)現(xiàn)了從具體數(shù)據(jù)到統(tǒng)一表示空間的轉(zhuǎn)換。

      物理世界的大統(tǒng)一理論是統(tǒng)一四種力,以上是AI世界的四種重要理論。

      AI世界會(huì)存在大統(tǒng)一模型嗎?

      如果是,那現(xiàn)實(shí)物理世界是不是同樣如此。

      如果AI世界不存在大統(tǒng)一模型。

      那么這么多年來科學(xué)家尋找的大統(tǒng)一理論是不是鏡花水月?

      也許,人類只有去創(chuàng)造一個(gè)世界,才能理解創(chuàng)世者。

      AI背后,藏著一個(gè)創(chuàng)世夢(mèng)想

      一直以來,人類在探索宇宙起源,叩問創(chuàng)世者。

      但今天,自己有力量可以成為創(chuàng)世者了。

      千年回顧,這是不是人類文明史劃時(shí)代時(shí)刻?

      這一年來,目睹了Token化的大統(tǒng)一設(shè)計(jì),見證了Transformer架構(gòu)開疆拓土、理解了Diffusion模型底層意義、即將體驗(yàn)Spacetime Patches的革命創(chuàng)新。

      這一年來,各種大模型紛至沓來,天才創(chuàng)意層出不窮。產(chǎn)品迭代驚心動(dòng)魄,一年之間可謂覆地翻天。

      可對(duì)于人類天才來說,這些還不夠,他們要建立一個(gè)“世界模型”,創(chuàng)造一個(gè)數(shù)字宇宙。同時(shí)還希望這個(gè)世界完全遵循F = ma、E=MC2這樣的物理規(guī)律。

      如果真能做到,那它和現(xiàn)實(shí)世界有何區(qū)別。

      再想一想,現(xiàn)實(shí)世界有沒有可能也是一種模擬?

      如果是,你是興奮,還是擔(dān)憂?

      Sora將,你準(zhǔn)備好了嗎?

      入群暗號(hào):Sora

      一起討論Sora下的機(jī)遇

      一起尋找更多AIGC的機(jī)會(huì)

      一起了解人工智能時(shí)代的新規(guī)劃

      可掃碼添加量子妹3.0

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      小米YU9曝光:車長(zhǎng)超5.2米+純電續(xù)航超300KM

      小米YU9曝光:車長(zhǎng)超5.2米+純電續(xù)航超300KM

      高科技愛好者
      2025-12-22 23:15:32
      一場(chǎng)針對(duì)普通人的金融大收割,正在卷土重來!

      一場(chǎng)針對(duì)普通人的金融大收割,正在卷土重來!

      米宅
      2025-12-22 07:24:40
      龐家后人對(duì)《新華社》報(bào)道的聲明:不公正、不理解、不接受

      龐家后人對(duì)《新華社》報(bào)道的聲明:不公正、不理解、不接受

      每日一見
      2025-12-21 14:31:46
      上海這群居民傻眼:預(yù)言竟成真了……還有更離譜的

      上海這群居民傻眼:預(yù)言竟成真了……還有更離譜的

      看看新聞Knews
      2025-12-23 13:12:09
      白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

      白人女性與黑人女性的體味差異,網(wǎng)友真實(shí)分享引發(fā)熱議

      特約前排觀眾
      2025-12-22 00:20:06
      全紅嬋大變樣!留長(zhǎng)發(fā)做美甲,回歸還能跳水嗎?看陳芋汐就知道了

      全紅嬋大變樣!留長(zhǎng)發(fā)做美甲,回歸還能跳水嗎?看陳芋汐就知道了

      曹說體育
      2025-12-23 16:07:11
      上金所:近期貴金屬價(jià)格波動(dòng)劇烈,繼續(xù)加強(qiáng)市場(chǎng)風(fēng)險(xiǎn)控制工作

      上金所:近期貴金屬價(jià)格波動(dòng)劇烈,繼續(xù)加強(qiáng)市場(chǎng)風(fēng)險(xiǎn)控制工作

      界面新聞
      2025-12-23 17:11:22
      當(dāng)“普世價(jià)值”被質(zhì)疑時(shí),真正爭(zhēng)論的是什么

      當(dāng)“普世價(jià)值”被質(zhì)疑時(shí),真正爭(zhēng)論的是什么

      蟬鳴
      2025-12-15 19:30:08
      最高院:大額現(xiàn)金借貸,有借條和取現(xiàn)證明的,法院一定能支持嗎?

      最高院:大額現(xiàn)金借貸,有借條和取現(xiàn)證明的,法院一定能支持嗎?

      周軍律師聊案子
      2025-12-23 09:47:06
      重磅:烏克蘭突襲俄羅斯利佩茨克空軍基地!摧毀兩架戰(zhàn)機(jī)

      重磅:烏克蘭突襲俄羅斯利佩茨克空軍基地!摧毀兩架戰(zhàn)機(jī)

      項(xiàng)鵬飛
      2025-12-22 20:16:26
      瘋傳網(wǎng)絡(luò)!美司法部發(fā)布“愛潑斯坦獄中自殺” 視頻,被指畫面系偽造后火速刪除

      瘋傳網(wǎng)絡(luò)!美司法部發(fā)布“愛潑斯坦獄中自殺” 視頻,被指畫面系偽造后火速刪除

      環(huán)球網(wǎng)資訊
      2025-12-23 11:31:06
      國(guó)家全面出擊!2026年元旦起,存取現(xiàn)金將統(tǒng)一按“新規(guī)”執(zhí)行!

      國(guó)家全面出擊!2026年元旦起,存取現(xiàn)金將統(tǒng)一按“新規(guī)”執(zhí)行!

      今朝牛馬
      2025-12-22 22:24:33
      新加坡總統(tǒng):中國(guó)不要自給自足,海南封關(guān)將會(huì)砸了新加坡的鐵飯碗

      新加坡總統(tǒng):中國(guó)不要自給自足,海南封關(guān)將會(huì)砸了新加坡的鐵飯碗

      墨印齋
      2025-12-23 15:18:02
      《江南春》的買家終于被扒出來了

      《江南春》的買家終于被扒出來了

      大張的自留地
      2025-12-21 13:52:31
      戰(zhàn)友聚會(huì)AA制每人交3500元,因兒子高燒39度會(huì)沒去成,次日民警上門

      戰(zhàn)友聚會(huì)AA制每人交3500元,因兒子高燒39度會(huì)沒去成,次日民警上門

      罪案洞察者
      2025-12-16 14:42:51
      關(guān)曉彤曬餃子火了,網(wǎng)友吵翻了,這碗家常飯藏著多少門道

      關(guān)曉彤曬餃子火了,網(wǎng)友吵翻了,這碗家常飯藏著多少門道

      觀察鑒娛
      2025-12-23 08:51:43
      2026年元旦起駕照年齡限制調(diào)整!超這個(gè)歲數(shù)不能開,你還能開幾年

      2026年元旦起駕照年齡限制調(diào)整!超這個(gè)歲數(shù)不能開,你還能開幾年

      復(fù)轉(zhuǎn)這些年
      2025-12-22 16:42:10
      黑龍江團(tuán)省委副書記夏天任省委統(tǒng)戰(zhàn)部副部長(zhǎng)、工商聯(lián)黨組書記

      黑龍江團(tuán)省委副書記夏天任省委統(tǒng)戰(zhàn)部副部長(zhǎng)、工商聯(lián)黨組書記

      澎湃新聞
      2025-12-23 17:00:26
      同行都看不下去了,醫(yī)生集體聲援小洛熙,事件持續(xù)升級(jí),荒唐手術(shù)

      同行都看不下去了,醫(yī)生集體聲援小洛熙,事件持續(xù)升級(jí),荒唐手術(shù)

      你食不食油餅
      2025-12-23 13:35:45
      港獨(dú)害人害己:黃之鋒父親賤賣房產(chǎn)舉家飛國(guó)外,不會(huì)被世界原諒!

      港獨(dú)害人害己:黃之鋒父親賤賣房產(chǎn)舉家飛國(guó)外,不會(huì)被世界原諒!

      溫辭韞
      2025-12-23 10:09:43
      2025-12-23 17:59:00
      量子學(xué)派
      量子學(xué)派
      少數(shù)派的訂制課程
      350文章數(shù) 9940關(guān)注度
      往期回顧 全部

      科技要聞

      慘烈90分鐘!快手驚魂:遭遇最強(qiáng)黑產(chǎn)攻擊

      頭條要聞

      26歲女生做團(tuán)播作息顛倒月入26塊:那些大哥就是想睡我

      頭條要聞

      26歲女生做團(tuán)播作息顛倒月入26塊:那些大哥就是想睡我

      體育要聞

      楊瀚森連續(xù)5場(chǎng)DNP!開拓者遭活塞雙殺

      娛樂要聞

      朱孝天回應(yīng)阿信感謝,自曝沒再收到邀約

      財(cái)經(jīng)要聞

      祥源系百億產(chǎn)品爆雷 浙金中心18人被拘

      汽車要聞

      四款新車集中發(fā)布 星途正式走進(jìn)3.0時(shí)代

      態(tài)度原創(chuàng)

      教育
      旅游
      家居
      公開課
      軍事航空

      教育要聞

      分享一個(gè)最近教學(xué)中的小幸福

      旅游要聞

      湖南常德野生動(dòng)物世界:用自然課堂播撒生態(tài)環(huán)保理念

      家居要聞

      通透明亮 大氣輕奢風(fēng)

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      中方回應(yīng)烏克蘭或?qū)⒅撇弥袊?guó)公民

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 丰满少妇被猛烈进入无码| 老子午夜精品无码不卡| 人人澡人人妻人人爽人人蜜桃| 久久天天躁狠狠躁夜夜躁2014| 精品2020婷婷激情五月| 久久www免费人成一看片| 人妻无码人妻| 色婷婷AV一区二区三区软件| 亚洲第一无码AV无码专区| 强行从后面挺进人妻| 欧美人与性动交ccoo| 精品综合精品产品| 日韩肏屄| 亚洲无码丝袜熟女| 精品国产AV无码一区二区三区| 国产精品免费久久久久影院| 一色屋精品视频在线观看| 丰满人妻一区二区三区视频54| 熟女av在线| 国内视频自拍| 久久国产精品夜色| 色噜噜狠狠色综合日日| 国产精品成人一区二区不卡 | 一本色道久久88加勒比中文字幕| 久久精品国产亚洲av忘忧草18 | 天海翼一区| 久久99精品国产99久久6尤物| 亚洲欧洲av| 欧美国产综合欧美视频| 中文字幕热久久久久久久| 国产人妻另类综合专区| 国产九九在线视频| av高清无码在线观看| 四虎影院176| www欧美在线观看| 国产后入又长又硬| 成人午夜国产内射主播| 久操国产| 午夜精品久久久久久久99| 制服丝袜亚洲在线| 99在线小视频|