<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      楊立昆路線的新勝利:VL-JEPA來了,拋棄預測下一個詞,不靠生成,照樣SOTA

      0
      分享至

      算泥社區是集 “AI 大模型開發服務 + 算法 + 算力” 于一體的開源生態社區,歡迎關注!

      人工智能研究中,Yann LeCun(楊立昆)有一個獨特且經常引起爭議的觀點。

      他認為僅靠以語言為中心、基于預測下一個詞的規?;P停瑹o法通向真正具備常識、因果理解和規劃能力的通用智能;它們缺乏對物理世界的內在表征與世界模型,無法自主學習和可靠推理,因此最多是強大的工具,而不是通往 AGI 的終極路徑。


      在他的《通往自主機器智能的道路》的重要立場論文中,他提出了實現人工智能的替代框架。


      他還提出了一種預測世界模型的新架構: 聯合嵌入預測架構 (Joint Embedding Predictive Architecture,JEPA)。

      Yann LeCun已經離開了Meta,他的學術成果仍然在Meta發揮余熱。

      剛剛,Meta FAIR、香港科技大學、索邦大學、紐約大學聯合發布了一個基于JEPA的視覺-語言模型VL-JEPA。


      VL-JEPA架構徹底拋棄了傳統視覺語言模型逐個Token生成的低效模式,轉而在抽象的嵌入空間中直接預測語義,以一半的參數量實現了SOTA的性能,并為實時視頻理解帶來了近3倍的效率提升。

      回歸語義本質

      現在的AI界都是被基于Transformer的自回歸模型統治。

      給AI看一張圖,它就像個絮絮叨叨的解說員,必須一個詞接一個詞地往外蹦句子。這種方式看似直觀,實則在訓練和推理上都極其昂貴。

      Yann LeCun早已對這種低效模式感到不滿。

      這篇論文的研究者也認為,智能的核心在于理解和預測,而不在于是否能把每一句話都修飾得文采飛揚。

      基于這種理念,他們推出了VL-JEPA的視覺語言模型。


      傳統模型在訓練時不得不關注每一個單詞的選擇、句式的排列甚至語氣的模仿。

      這對理解圖像內容來說,其實是巨大的浪費。

      就像你問一個人“燈關了嗎?”,他回答“燈滅了”或者“房間變暗了”在意思上是完全一樣的,但在傳統的訓練中,模型卻要為了這兩個在字面上完全正交(不重疊)的句子耗費大量算力去擬合。

      VL-JEPA換了一種活法。

      它不再執著于預測下一個單詞是什么,而是直接預測目標文本在數學空間中的“坐標”——也就是連續的語義嵌入(Embeddings)。

      在這個高維空間里,“燈滅了”和“房間變暗了”的坐標靠得非常近。模型只需要學會指那個方向,而不需要糾結具體用哪個詞來描述。

      這種非生成式(Non-generative)的設計,讓模型得以剝離掉那些與任務無關的語言表象,專注于最核心的語義信息。

      這不僅簡化了學習目標,更讓模型在參數量減少50%的情況下,依然能打出比肩甚至超越龐大生成式模型的戰績。

      架構的精密運轉邏輯

      VL-JEPA的設計哲學體現在其精簡而高效的四個核心組件中。這套架構不需要在那兒猜詞,而是通過計算向量的距離來理解世界。


      X-Encoder(視覺編碼器)負責看。

      它接收視頻或圖像輸入,將其壓縮成一串緊湊的視覺嵌入向量。這里研究團隊選用的是凍結參數的V-JEPA 2 ViT-L模型。這個模型本身就在自監督視覺任務上表現優異,能把復雜的視頻畫面濃縮成高密度的信息流。

      Y-Encoder(文本編碼器)負責聽和理解目標。

      它將目標文本(比如問題的答案或圖片的描述)映射到一個連續的潛在空間中。這個空間就是模型學習的靶場。在這個空間里,語義相近的句子會聚在一起,無關的信息被過濾。這一步至關重要,它決定了模型思考的質量。

      Predictor(預測器)是整個架構的大腦。

      它接收來自X-Encoder的視覺信息,同時接收一個文本查詢(Query,比如“這人在干嘛?”),然后它的任務就是預測出Y-Encoder會生成什么樣的嵌入向量。注意,它預測的是一個數學向量,而不是具體的文字。這部分采用的是Llama-3的Transformer層進行初始化,讓它天生就具備一定的語言理解底子。

      Y-Decoder(文本解碼器)是一個輕量級的翻譯官。

      它在訓練階段完全不參與,只有在人類真的需要看文字結果時,它才會被喚醒,把模型預測出來的數學向量翻譯成人類能讀懂的句子。

      這套系統的訓練目標非常純粹:最小化預測出的嵌入向量和真實文本嵌入向量之間的距離。

      為了防止模型偷懶(比如把所有輸入都映射成同一個點),團隊使用了InfoNCE損失函數。

      這種對比學習的方法,一邊拉近正確答案的距離,一邊把無關的干擾項推遠,迫使模型在那個抽象的數學空間里構建出清晰的語義地圖。

      這種設計讓VL-JEPA在處理那些沒有標準答案的任務時如魚得水。

      在真實世界里,同一個動作的描述千變萬化,傳統模型要在離散的詞表中尋找唯一解極其痛苦,而VL-JEPA只需要在連續空間里找到那個語義聚類中心即可。

      選擇性解碼藝術

      視頻理解一直是AI領域的硬骨頭,尤其是實時視頻流。

      以前的模型每一幀都要處理,每一秒都要嘗試生成描述,計算量大到無法在可穿戴設備或機器人上實時運行。

      VL-JEPA在這里展現了它作為非自回歸模型的巨大優勢。

      由于VL-JEPA輸出的是連續的語義嵌入流,它可以像心電圖一樣實時監測這個信號的變化。

      如果畫面中的語義沒有發生劇烈波動,模型就保持沉默,不做任何繁重的文字解碼工作。

      只有當監測到的語義方差超過某個閾值——意味著畫面中發生了新的事件時,它才喚醒解碼器,輸出一段文字描述。

      這種選擇性解碼(Selective Decoding)機制,讓計算資源得到了極致的優化。


      實驗數據顯示,在保證同等語義捕捉質量(CIDEr分數)的前提下,VL-JEPA的解碼操作次數減少了約2.85倍。

      對于智能眼鏡、家庭機器人這種對延遲和功耗極其敏感的設備來說,這幾乎是質的飛躍。

      模型可以始終在線觀察世界,但只在必要時開口匯報,既省電又敏捷。

      相比之下,傳統的VLM(視覺語言模型)受限于自回歸的生成方式,必須把上一個詞算出來才能算下一個詞,這不僅延遲高,而且無法在生成過程中動態更新語義。

      VL-JEPA的嵌入流則是并行的、連續的,能跟隨視頻流即時刷新對世界的認知。

      在嚴苛對比下的性能統治力

      為了證明這套架構不僅僅是理論上好聽,Meta團隊進行了一場極其嚴苛的對比實驗。他們構建了一個對照組:一個標準的Token生成式VLM。

      這個對照組使用了完全相同的視覺編碼器、相同的空間分辨率、相同的幀率、完全一樣的訓練數據(包括DataComp、YFCC-100M等海量圖文對以及HowTo100M視頻數據)、一樣的Batch Size,甚至訓練迭代次數都一模一樣。

      唯一的區別就在于,一個是在數據空間里預測Token,一個是在潛在空間里預測Embedding。

      結果令人信服。在同等算力預算下,VL-JEPA在零樣本(Zero-shot)分類和描述任務上,性能曲線爬升得比傳統VLM快得多。


      在訓練了500萬個樣本后,VL-JEPA的Top-5分類準確率達到了35.3%,而對照組只有27.2%。

      這種差距隨著訓練的進行一直保持著。

      更關鍵的是,VL-JEPA的訓練參數只有1.6B(16億),比許多動輒百億參數的大模型輕量得多,卻干出了更好的活。


      在廣泛的視頻分類和檢索基準測試中,VL-JEPA的表現全面超越了CLIP、SigLIP2和Perception Encoder這些赫赫有名的前輩。

      特別是在SSv2、EgoExo4D這種強調動作和過程的視頻數據集上,VL-JEPA的優勢尤為明顯。

      這說明它不僅僅是看懂了畫面里的物體(外觀),更看懂了物體在如何運動和交互(動態)。

      VL-JEPA不僅僅是一個只會看視頻的分類器,經過第二階段的監督微調(SFT)后,它搖身一變成了一個全能選手。

      在視覺問答(VQA)任務上,盡管參數量只有1.6B,VL-JEPA依然與InstructBLIP、Qwen-VL這些大塊頭打得有來有回。

      在GQA(組合視覺推理)、TallyQA(復雜計數)以及POPE(物體幻覺檢測)等數據集上,它的表現都接近了SOTA水平。


      更令人興奮的是它在世界預測(World Prediction)任務上的表現。

      這個任務要求模型看一張起始圖和一張終點圖,然后判斷中間發生了什么動作。這實際上是在測試模型是否理解物理世界的因果關系。

      在這個領域,VL-JEPA不僅擊敗了同量級的VLM,甚至在準確率上超過了GPT-4o、Claude-3.5和Gemini-2這些頂級的大語言模型。


      雖然這些大模型擁有千億級的參數,但在純粹的視覺因果推理上,專注于嵌入空間預測的VL-JEPA展現出了更敏銳的物理直覺。

      這種能力意味著VL-JEPA非常適合作為具身智能(Embodied AI)的大腦。

      機器人需要理解它所處環境的物理規律,預測自己動作的后果,而不需要每一步都停下來寫一篇小作文來分析現狀。

      Meta團隊還非常誠實地展示了各種失敗的嘗試,告訴大家什么行得通,什么行不通。


      關于預訓練,他們發現如果跳過第一階段的海量圖文預訓練,直接上SFT,分類準確率會暴跌21.7%。

      這說明地基必須打牢,沒有大規模數據的浸泡,模型學不到通用的視覺語言對齊。

      關于學習率,Y-Encoder的學習率必須非常小心地調整。

      實驗表明,給文本編碼器設置0.05到0.1倍的學習率乘數是最佳甜點。太快了模型會發散,太慢了學不動。

      關于損失函數,InfoNCE展現了統治力。

      相比于簡單的余弦距離(Cosine)或L1/L2距離,InfoNCE自帶的抗坍縮(Anti-collapse)屬性對于維持嵌入空間的多樣性至關重要。雖然在VQA任務上余弦距離表現稍好,但在分類和檢索等通用任務上,InfoNCE是絕對的最優解。

      有趣的是,他們還嘗試了不同的文本編碼器。

      雖然默認使用的是EmbeddingGemma-300M,但實驗證明更大的編碼器確實能帶來更好的性能。

      特別是那些視覺對齊過的文本編碼器(如PE模型),能讓分類和檢索分數進一步上漲。

      這暗示了VL-JEPA架構還有巨大的潛力可挖,只要換上更強的組件,性能天花板還能往上頂。

      VL-JEPA標志著視覺語言模型從學會說話向學會思考邁出了堅實的一步。

      參考資料:

      https://arxiv.org/pdf/2512.10942

      https://openreview.net/pdf?id=BZ5a1r-kVsf

      ??

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      河南南陽一佳人好漂亮, 身高169cm,體重50kg 美的讓人移不開眼

      河南南陽一佳人好漂亮, 身高169cm,體重50kg 美的讓人移不開眼

      東方不敗然多多
      2025-12-25 07:00:37
      獨居老人凌晨去世,消失的手機在冰箱里,“臥室整潔”的細節引起家人懷疑……

      獨居老人凌晨去世,消失的手機在冰箱里,“臥室整潔”的細節引起家人懷疑……

      方圓
      2025-12-22 16:30:46
      南博事件背后勢力已冒頭,舉報人被恐嚇,知情人曝新進展

      南博事件背后勢力已冒頭,舉報人被恐嚇,知情人曝新進展

      削桐作琴
      2025-12-25 17:33:48
      徐湖平夫妻被帶走!紅二代身份曝光,一家三口精密布局盜寶

      徐湖平夫妻被帶走!紅二代身份曝光,一家三口精密布局盜寶

      西門老爹
      2025-12-25 18:42:42
      阿維塔宣稱南極-50℃極寒測試,被網友打假:南極現在是夏季

      阿維塔宣稱南極-50℃極寒測試,被網友打假:南極現在是夏季

      玩車專家1
      2025-12-25 17:24:33
      克宮為什么拒絕“和平計劃”?給俄粉們普及一下常識,預報一大捷

      克宮為什么拒絕“和平計劃”?給俄粉們普及一下常識,預報一大捷

      鷹眼Defence
      2025-12-25 18:33:03
      賈國龍:假如西貝活不下來,絕對不會再創業了,和夫人回草原養羊

      賈國龍:假如西貝活不下來,絕對不會再創業了,和夫人回草原養羊

      好賢觀史記
      2025-12-25 22:34:27
      一車企海報被指“用粵語不雅詞匯”引爭議,廣東網友:有被冒犯到,數字“7”因發音問題,在日常交流中需謹慎避諱;當前爭議海報已被撤換

      一車企海報被指“用粵語不雅詞匯”引爭議,廣東網友:有被冒犯到,數字“7”因發音問題,在日常交流中需謹慎避諱;當前爭議海報已被撤換

      揚子晚報
      2025-12-25 18:00:21
      117-102!馬刺三殺雷霆迎8連勝,文班亞19+11,亞歷山大22分

      117-102!馬刺三殺雷霆迎8連勝,文班亞19+11,亞歷山大22分

      全景體育V
      2025-12-26 06:19:46
      46條中日航線取消才1天,就炸出一群“牛鬼蛇神”,鄭強說對了

      46條中日航線取消才1天,就炸出一群“牛鬼蛇神”,鄭強說對了

      除夕煙火燦爛
      2025-12-25 10:00:49
      多位央企董事長集中被撤委員資格,釋放哪些從嚴信號?

      多位央企董事長集中被撤委員資格,釋放哪些從嚴信號?

      運營商段子手
      2025-12-26 00:14:14
      泰防長怒批某國“偽中立”:只逼泰國?;穑瑓s偏袒柬埔寨

      泰防長怒批某國“偽中立”:只逼泰國停火,卻偏袒柬埔寨

      胡嚴亂語
      2025-12-25 15:15:35
      剛剛!人民幣匯率正式破7,五大影響

      剛剛!人民幣匯率正式破7,五大影響

      說財貓
      2025-12-25 12:21:19
      擴軍也無望?56歲范志毅央視語出驚人:2038年世界杯國足才有望進

      擴軍也無望?56歲范志毅央視語出驚人:2038年世界杯國足才有望進

      我愛英超
      2025-12-25 21:06:51
      誰偷走了我們的圣誕節?誰偷走了我們的商業客流?

      誰偷走了我們的圣誕節?誰偷走了我們的商業客流?

      火星宏觀
      2025-12-26 01:00:53
      最新 | 雷軍突發!全網禁評!

      最新 | 雷軍突發!全網禁評!

      天津廣播
      2025-12-25 22:55:42
      美國人的斬殺線,將成為新的互聯網圣經

      美國人的斬殺線,將成為新的互聯網圣經

      楓冷慕詩
      2025-12-25 14:39:02
      15分大勝!馬刺三殺衛冕冠軍:文班19+11,??怂勾虮瑏啔v山大

      15分大勝!馬刺三殺衛冕冠軍:文班19+11,??怂勾虮瑏啔v山大

      體壇小李
      2025-12-26 07:32:28
      浙江某建筑集團“暴雷”,大面積欠薪!

      浙江某建筑集團“暴雷”,大面積欠薪!

      黯泉
      2025-12-25 23:38:43
      醫生提醒:若長期一天只吃兩頓飯,用不了半年,或患上這4種疾病

      醫生提醒:若長期一天只吃兩頓飯,用不了半年,或患上這4種疾病

      瑛派兒老黃
      2025-12-24 08:05:26
      2025-12-26 07:43:00
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領域權威媒體
      4420文章數 37357關注度
      往期回顧 全部

      科技要聞

      “不再是機器人大國”,日本錯過了什么?

      頭條要聞

      美國始料未及:日本防衛開支若到GDP3% "安保條約"作廢

      頭條要聞

      美國始料未及:日本防衛開支若到GDP3% "安保條約"作廢

      體育要聞

      約基奇有多喜歡馬?

      娛樂要聞

      朱孝天把阿信好意當球踢!

      財經要聞

      新規來了,年化超24%的小貸被即刻叫停

      汽車要聞

      速來!智界在上海西岸準備了年末潮流盛典

      態度原創

      本地
      健康
      親子
      數碼
      公開課

      本地新聞

      這輩子要積多少德,下輩子才能投胎到德國當狗

      這些新療法,讓化療不再那么痛苦

      親子要聞

      首都兒研所又出狠貨「兒童霜」!新華網力薦,北京媽媽排隊買...

      數碼要聞

      年終復盤不用愁,鴻蒙電腦讓高效貫穿每一刻

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产成人精品999在线观看| 欧美日激情日韩精品嗯| 国产欧美一区二区精品久久久| 欧美大胆老熟妇乱子伦视频| 黄色三级亚洲男人的天堂| 亚洲区视频| 日韩欧美2| 精品国模一区二区三区 | 久久久精品人妻一区二区三区四| 最新亚洲人成无码网站欣赏网| 一本色道久久88综合日韩精品| 建德市| 国产又色又爽无遮挡免费动态图| 国产精自产拍久久久久久蜜| 开心激情站开心激情网六月婷婷| 日日夜夜撸撸| 日韩一区国产二区欧美三区| 色狠狠色噜噜av天堂一区| AV黄色| 宜丰县| 色偷偷亚洲男人的天堂| 国产人免费人成免费视频| 亚洲黑人av| 国产精品国产三级国产a| 国产做a爱片久久毛片a片| 国产日产亚洲系列av| 精品合集播放| 欧美怡春院| 电影内射视频免费观看| 久久人人97超碰人人澡爱香蕉| 欧美一区二区三区在线观看| 一本本月无码-| 久久精品国产99国产精偷| 色综合天天综合天天综| 亚洲AV无码乱码在线观看性色| 在线观看的网站| 自拍 另类 综合 欧美小说| 日日碰狠狠躁久久躁96avv| 工布江达县| 亚洲综合色丁香婷婷六月图片 | 囯产精品久久久久久久久久妞妞|