<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Being-VL的視覺BPE路線:把「看」和「說」真正統一起來

      0
      分享至



      在多模態模型里,CLIP-style encoder往往把視覺表征過早地拉近到文本空間:對于抽象層面的問答,如總結圖片大致內容,這樣的表征其實是沒有什么問題的,但一旦追問與語言無強依賴的細節,模型就更易出現幻覺。根本原因之一,是在文本空間對齊之前,原生視覺結構已被不可逆地壓縮 / 丟失,而語言模型不得不「二次解碼」來自他模態的 embedding,導致對齊脆弱、推理鏈條變長。

      為此,北大、UC San Diego 和 BeingBeyond 聯合提出一種新的方法——Being-VL 的視覺 BPE 路線。Being-VL 的出發點是把這一步后置:先在純自監督、無 language condition的設定下,把圖像離散化并「分詞」,再與文本在同一詞表、同一序列中由同一 Transformer 統一建模,從源頭縮短跨模態鏈路并保留視覺結構先驗。

      Being-VL 的實現分為三步。首先用 VQ(如 VQ-GAN)把圖像量化為離散VQ tokens;隨后訓練一個視覺版 BPE,不只看共現頻次,還顯式度量空間一致性,以優先合并那些既常見又在不同圖像中相對位置穩定的 token 對,得到更具語義與結構的BPE tokens;最后把視覺 tokens 與文本 tokens 串成同一序列,進入同一個自回歸 LLM 統一建模,不再依賴額外 projector 或 CLIP 對齊。整個 BPE 詞表學習僅依賴圖像統計,不看文本,真正把「語言對齊」留到后續階段。





      • 論文鏈接:https://arxiv.org/abs/2506.23639
      • 項目主頁:
      • https://beingbeyond.github.io/Being-VL-0.5
      • GitHub:
      • https://github.com/beingbeyond/Being-VL-0.5

      與「把視覺直接投到文本空間」有何本質不同?

      傳統做法讓 LLM 去再解釋外部視覺 encoder 的連續 embedding;即便 encoder 學到了豐富模式,沒有對應解碼器,LLM也要額外學習如何「讀懂」其他模態,這會放大模態鴻溝并誘發幻覺。Being-VL 把視覺提前離散化為可組合的 tokens,并在序列里與文本統一建模,減少表征形態錯位,縮短跨模態因果鏈條,從而在保持感知細節與高層語義的同時,降低「想象成分」。


      針對視覺場景設計的 BPE tokenizer:頻次 × 空間一致性

      文本大模型中的 BPE 只看「誰和誰經常相鄰」。在視覺里,如果只按頻次去合并,容易破壞結構。Being-VL 因此提出Priority-Guided Encoding:基于 score P (a,b)=F (a,b)+α?S (a,b) 進行 BPE 詞表構建,其中 F 為鄰接頻次,S 衡量在不同圖像中的相對位置一致性,相似度用高斯核對齊。這樣得到的視覺詞表既覆蓋高頻模式,又保留空間結構。并且這個過程完全不依賴文本。

      三階段訓練:從 VQ/BPE embeddings 到 LLM backbone 的漸進解凍

      為了讓統一的離散表示平滑接入語言模型,Being-VL 采用三階段(3-stage)訓練并顯式控制解凍順序:

      • Stage-1 / Embedding Alignment:只訓練新擴展的視覺 token embeddings(包括 VQ 與 BPE 兩部分),其余參數全部凍結,完成基礎對齊而不擾動原有語言能力。
      • Stage-2 / Selective Fine-tuning:解凍 LLM 前若干層(默認約 25%),其余層繼續凍結,讓跨模態交互首先在底層表征中發生。
      • Stage-3 / Full Fine-tuning:全量解凍,在更復雜的 reasoning /instruction 數據上收尾,強化高級能力。

      與解凍節奏配套,數據采用curriculum:從基礎 caption 與屬性識別,逐步過渡到視覺問答與多輪指令,顯式對齊 BPE 的「由局部到整體」的層級特性。消融表明:漸進解凍 + curriculum明顯優于單階段訓練;只用其中任一也不如兩者合用。



      實驗與分析

      Being-VL 的一系列對照實驗給出一個清晰結論:把圖像先離散化并做視覺 BPE,再與文本在同一序列里統一建模,既穩又有效。相較傳統「先拉到文本空間」的做法,這種統一的離散表示更少丟失原生視覺信息,因而在細節敏感的問答與抗幻覺上更可靠;而一旦移除 BPE,性能與穩健性都會整體下降,說明增益主要來自于把「常見且空間關系穩定」 的視覺模式合成更有語義的 tokens,讓 LLM 在更合適的粒度上推理。

      訓練與規模選擇方面也有明確「可執行」的答案。三階段漸進解凍 + curriculum是默認策略:先只對齊VQ/BPE embeddings,再解凍一部分LLM backbone,最后全量微調,能在不擾動語言能力的前提下穩步提升跨模態理解。

      Visual BPE Token 激活機制可視化




      Embedding 權重的可視化揭示了詞表設計對跨模態表征的影響:在不使用 visual BPE 的基線模型(上圖)中,文本與視覺 token 的權重呈現顯著偏置與分離,體現出明顯的模態隔閡;而引入不同詞表大小的 visual BPE(中、下圖)后,兩類 token 的權重分布趨于均衡與同構,說明 BPE 在更細粒度上對齊了子詞 / 子片段層面的統計與表征空間。由此帶來的直接效應是跨模態注意力的共享基準更一致、梯度信號更可比,從而降低模態間的分布漂移與共現偏差。

      詞表大小對訓練效率與擴展潛力的影響




      研究進一步考察了 BPE 詞表規模的作用。可視化結果顯示:在訓練資源受限的情形下,與 VQ 等規模的碼本在表達能力與訓練效率之間取得了更佳平衡,處于「甜點區」。當詞表繼續增大(≥16K)時,會出現大量低利用率、呈稀疏分布的 token,導致單位算力的收益下降。不過,這也預示著在數據規模擴張時存在更強的上限潛力。論文提出的方法可在更大的詞表與更多數據的配合下,釋放這部分擴展空間,進一步提升模型表現。

      發展與小結(Being-VL-0 → Being-VL-0.5)

      Being-VL-0 (ICLR 2025)

      • Being-VL-0 給出的是視覺離散化 + BPE 的可行性與動機:從理論分析與 toy 實驗出發,得出結論 BPE-style 合并能把必要的結構先驗灌注進 token,使 Transformer 更易學習;并初步探索了兩階段訓練(PT→SFT)、文本 embedding 凍結策略與數據 scaling 帶來的穩健增益。
      • 項目地址:
      • https://github.com/BeingBeyond/Being-VL-0

      Being-VL-0.5 (ICCV 2025 highlight)

      • Being-VL-0.5 則把這一路線進一步優化為一個統一建??蚣埽侯l次與空間一致性聯合的 Priority-Guided Encoding、VQ/BPE/LLM 三階段漸進解凍、以及配套的 curriculum 數據策略。
      • 項目地址:
      • https://beingbeyond.github.io/Being-VL-0.5

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “保不住香港,我們以死謝罪!”,解密驚心動魄的香港經濟保衛戰

      “保不住香港,我們以死謝罪!”,解密驚心動魄的香港經濟保衛戰

      文史道
      2025-02-18 20:31:56
      這3個生肖3-4月財運爆棚!正財穩、偏財來,日子過得像開了掛

      這3個生肖3-4月財運爆棚!正財穩、偏財來,日子過得像開了掛

      毅談生肖
      2026-02-22 10:50:35
      大連悄悄干了件大事:萬億之后,這五個地方正悶聲發大財

      大連悄悄干了件大事:萬億之后,這五個地方正悶聲發大財

      小陸搞笑日常
      2026-02-22 19:54:24
      周揚青旗袍 “好大好圓”,小豬當年吃的太好了

      周揚青旗袍 “好大好圓”,小豬當年吃的太好了

      飛娛日記
      2026-02-22 07:53:48
      哈佛大學:被父母用心關注的孩子,其大腦發育速度比同齡人快30%

      哈佛大學:被父母用心關注的孩子,其大腦發育速度比同齡人快30%

      追尋文史
      2026-02-21 22:24:30
      《鏢人》拿下中國影史春節檔武俠片冠軍

      《鏢人》拿下中國影史春節檔武俠片冠軍

      揚子晚報
      2026-02-22 15:42:16
      目前A股人氣榜前50名

      目前A股人氣榜前50名

      風風順
      2026-02-22 14:55:24
      與中國失聯300年后,這群忘記漢語的明朝后裔正重新找回華夏根脈

      與中國失聯300年后,這群忘記漢語的明朝后裔正重新找回華夏根脈

      閱微札記
      2026-02-14 19:29:52
      4-4平,趙心童狀態欠佳,失誤導致丟局是更本原因

      4-4平,趙心童狀態欠佳,失誤導致丟局是更本原因

      蕭壛記錄風土人情
      2026-02-23 00:30:52
      明面促統一,暗下卻親美!鄭麗文自認天衣無縫,然國臺辦早已看穿

      明面促統一,暗下卻親美!鄭麗文自認天衣無縫,然國臺辦早已看穿

      窺史
      2026-01-19 17:06:30
      美司令警告中方:一旦武統收臺,美軍將摧毀中方火箭軍和核武庫?

      美司令警告中方:一旦武統收臺,美軍將摧毀中方火箭軍和核武庫?

      咸魚金腦袋
      2026-02-20 17:40:11
      從2026年開始,5大“降價潮”可能接連出現,很多人還沒反應過來

      從2026年開始,5大“降價潮”可能接連出現,很多人還沒反應過來

      搬磚營Z
      2026-01-20 06:30:07
      特斯拉舊將或重寫百年電網!中國變壓器站在十字路口?

      特斯拉舊將或重寫百年電網!中國變壓器站在十字路口?

      能見
      2026-02-22 22:20:16
      惠若琪全家出游太養眼,妹妹顏值不輸姐姐,網友:神仙姐妹花

      惠若琪全家出游太養眼,妹妹顏值不輸姐姐,網友:神仙姐妹花

      風月得自難尋
      2026-02-22 06:05:00
      你見過最奇怪的規定是什么?網友:我們學校禁止男女生一起吃飯

      你見過最奇怪的規定是什么?網友:我們學校禁止男女生一起吃飯

      帶你感受人間冷暖
      2026-02-05 03:19:07
      別再用現金行賄受賄了!大數據一查就現形,全程 “裸奔” 藏不住

      別再用現金行賄受賄了!大數據一查就現形,全程 “裸奔” 藏不住

      復轉這些年
      2026-02-09 23:45:54
      普京簽署新法:俄羅斯可對個人直接斷網

      普京簽署新法:俄羅斯可對個人直接斷網

      桂系007
      2026-02-21 16:30:37
      俄軍導彈雨砸下,烏軍挨打同時:突然發現俄羅斯又有2100萬發彈藥

      俄軍導彈雨砸下,烏軍挨打同時:突然發現俄羅斯又有2100萬發彈藥

      愛吃醋的貓咪
      2026-02-22 23:37:00
      韓國政壇殺瘋了!尹錫悅判無期,74歲樸槿惠遭奪房青瓦臺魔咒再現

      韓國政壇殺瘋了!尹錫悅判無期,74歲樸槿惠遭奪房青瓦臺魔咒再現

      小影的娛樂
      2026-02-22 21:58:53
      王詩齡在英國過年,戴著30萬的首飾吃年夜飯,生活越來越西式化了

      王詩齡在英國過年,戴著30萬的首飾吃年夜飯,生活越來越西式化了

      小椰的奶奶
      2026-02-20 22:52:30
      2026-02-23 04:12:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12326文章數 142569關注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發射超過10000顆衛星

      頭條要聞

      男子持霰彈槍燃燒罐闖特朗普私宅被擊斃 細節披露

      頭條要聞

      男子持霰彈槍燃燒罐闖特朗普私宅被擊斃 細節披露

      體育要聞

      谷愛凌:6次參賽6次奪牌 我對自己非常自豪

      娛樂要聞

      谷愛凌:真正的強大 敢接納生命的節奏

      財經要聞

      特朗普新加征關稅稅率從10%提升至15%

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      藝術
      時尚
      房產
      教育
      公開課

      藝術要聞

      誰能想到,“餃子包”火了!還是韭菜雞蛋味兒,超吸睛!

      50+女人更適合基礎款,掌握3個高段位搭配思路,輕松提升品味

      房產要聞

      窗前即地標!獨占三亞灣C位 自貿港總裁行宮亮相

      教育要聞

      兩所大學,合并!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版