<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Being-VL的視覺BPE路線:把「看」和「說」真正統一起來

      0
      分享至



      在多模態模型里,CLIP-style encoder往往把視覺表征過早地拉近到文本空間:對于抽象層面的問答,如總結圖片大致內容,這樣的表征其實是沒有什么問題的,但一旦追問與語言無強依賴的細節,模型就更易出現幻覺。根本原因之一,是在文本空間對齊之前,原生視覺結構已被不可逆地壓縮 / 丟失,而語言模型不得不「二次解碼」來自他模態的 embedding,導致對齊脆弱、推理鏈條變長。

      為此,北大、UC San Diego 和 BeingBeyond 聯合提出一種新的方法——Being-VL 的視覺 BPE 路線。Being-VL 的出發點是把這一步后置:先在純自監督、無 language condition的設定下,把圖像離散化并「分詞」,再與文本在同一詞表、同一序列中由同一 Transformer 統一建模,從源頭縮短跨模態鏈路并保留視覺結構先驗。

      Being-VL 的實現分為三步。首先用 VQ(如 VQ-GAN)把圖像量化為離散VQ tokens;隨后訓練一個視覺版 BPE,不只看共現頻次,還顯式度量空間一致性,以優先合并那些既常見又在不同圖像中相對位置穩定的 token 對,得到更具語義與結構的BPE tokens;最后把視覺 tokens 與文本 tokens 串成同一序列,進入同一個自回歸 LLM 統一建模,不再依賴額外 projector 或 CLIP 對齊。整個 BPE 詞表學習僅依賴圖像統計,不看文本,真正把「語言對齊」留到后續階段。





      • 論文鏈接:https://arxiv.org/abs/2506.23639
      • 項目主頁:
      • https://beingbeyond.github.io/Being-VL-0.5
      • GitHub:
      • https://github.com/beingbeyond/Being-VL-0.5

      與「把視覺直接投到文本空間」有何本質不同?

      傳統做法讓 LLM 去再解釋外部視覺 encoder 的連續 embedding;即便 encoder 學到了豐富模式,沒有對應解碼器,LLM也要額外學習如何「讀懂」其他模態,這會放大模態鴻溝并誘發幻覺。Being-VL 把視覺提前離散化為可組合的 tokens,并在序列里與文本統一建模,減少表征形態錯位,縮短跨模態因果鏈條,從而在保持感知細節與高層語義的同時,降低「想象成分」。


      針對視覺場景設計的 BPE tokenizer:頻次 × 空間一致性

      文本大模型中的 BPE 只看「誰和誰經常相鄰」。在視覺里,如果只按頻次去合并,容易破壞結構。Being-VL 因此提出Priority-Guided Encoding:基于 score P (a,b)=F (a,b)+α?S (a,b) 進行 BPE 詞表構建,其中 F 為鄰接頻次,S 衡量在不同圖像中的相對位置一致性,相似度用高斯核對齊。這樣得到的視覺詞表既覆蓋高頻模式,又保留空間結構。并且這個過程完全不依賴文本。

      三階段訓練:從 VQ/BPE embeddings 到 LLM backbone 的漸進解凍

      為了讓統一的離散表示平滑接入語言模型,Being-VL 采用三階段(3-stage)訓練并顯式控制解凍順序:

      • Stage-1 / Embedding Alignment:只訓練新擴展的視覺 token embeddings(包括 VQ 與 BPE 兩部分),其余參數全部凍結,完成基礎對齊而不擾動原有語言能力。
      • Stage-2 / Selective Fine-tuning:解凍 LLM 前若干層(默認約 25%),其余層繼續凍結,讓跨模態交互首先在底層表征中發生。
      • Stage-3 / Full Fine-tuning:全量解凍,在更復雜的 reasoning /instruction 數據上收尾,強化高級能力。

      與解凍節奏配套,數據采用curriculum:從基礎 caption 與屬性識別,逐步過渡到視覺問答與多輪指令,顯式對齊 BPE 的「由局部到整體」的層級特性。消融表明:漸進解凍 + curriculum明顯優于單階段訓練;只用其中任一也不如兩者合用。



      實驗與分析

      Being-VL 的一系列對照實驗給出一個清晰結論:把圖像先離散化并做視覺 BPE,再與文本在同一序列里統一建模,既穩又有效。相較傳統「先拉到文本空間」的做法,這種統一的離散表示更少丟失原生視覺信息,因而在細節敏感的問答與抗幻覺上更可靠;而一旦移除 BPE,性能與穩健性都會整體下降,說明增益主要來自于把「常見且空間關系穩定」 的視覺模式合成更有語義的 tokens,讓 LLM 在更合適的粒度上推理。

      訓練與規模選擇方面也有明確「可執行」的答案。三階段漸進解凍 + curriculum是默認策略:先只對齊VQ/BPE embeddings,再解凍一部分LLM backbone,最后全量微調,能在不擾動語言能力的前提下穩步提升跨模態理解。

      Visual BPE Token 激活機制可視化




      Embedding 權重的可視化揭示了詞表設計對跨模態表征的影響:在不使用 visual BPE 的基線模型(上圖)中,文本與視覺 token 的權重呈現顯著偏置與分離,體現出明顯的模態隔閡;而引入不同詞表大小的 visual BPE(中、下圖)后,兩類 token 的權重分布趨于均衡與同構,說明 BPE 在更細粒度上對齊了子詞 / 子片段層面的統計與表征空間。由此帶來的直接效應是跨模態注意力的共享基準更一致、梯度信號更可比,從而降低模態間的分布漂移與共現偏差。

      詞表大小對訓練效率與擴展潛力的影響




      研究進一步考察了 BPE 詞表規模的作用。可視化結果顯示:在訓練資源受限的情形下,與 VQ 等規模的碼本在表達能力與訓練效率之間取得了更佳平衡,處于「甜點區」。當詞表繼續增大(≥16K)時,會出現大量低利用率、呈稀疏分布的 token,導致單位算力的收益下降。不過,這也預示著在數據規模擴張時存在更強的上限潛力。論文提出的方法可在更大的詞表與更多數據的配合下,釋放這部分擴展空間,進一步提升模型表現。

      發展與小結(Being-VL-0 → Being-VL-0.5)

      Being-VL-0 (ICLR 2025)

      • Being-VL-0 給出的是視覺離散化 + BPE 的可行性與動機:從理論分析與 toy 實驗出發,得出結論 BPE-style 合并能把必要的結構先驗灌注進 token,使 Transformer 更易學習;并初步探索了兩階段訓練(PT→SFT)、文本 embedding 凍結策略與數據 scaling 帶來的穩健增益。
      • 項目地址:
      • https://github.com/BeingBeyond/Being-VL-0

      Being-VL-0.5 (ICCV 2025 highlight)

      • Being-VL-0.5 則把這一路線進一步優化為一個統一建模框架:頻次與空間一致性聯合的 Priority-Guided Encoding、VQ/BPE/LLM 三階段漸進解凍、以及配套的 curriculum 數據策略。
      • 項目地址:
      • https://beingbeyond.github.io/Being-VL-0.5

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      黑色幽默!電詐園區辦公室中文標語,簡直是天大的諷刺

      黑色幽默!電詐園區辦公室中文標語,簡直是天大的諷刺

      麥大人
      2025-11-06 08:32:30
      30萬級的瑪莎拉蒂,兩天被搶光!經銷商稱“6點下班,被客戶堵到9點”,知情人士:這批車賣一輛虧一輛,不降價也不行

      30萬級的瑪莎拉蒂,兩天被搶光!經銷商稱“6點下班,被客戶堵到9點”,知情人士:這批車賣一輛虧一輛,不降價也不行

      每日經濟新聞
      2025-12-15 19:03:06
      一個都跑不掉!華為600萬年薪高管,帶13人偷芯片,如今下場解氣

      一個都跑不掉!華為600萬年薪高管,帶13人偷芯片,如今下場解氣

      涵豆說娛
      2025-11-07 17:47:01
      好友相繼緬懷拼湊出,何晴生命最后時光:拮據、變樣、舍不下兒子

      好友相繼緬懷拼湊出,何晴生命最后時光:拮據、變樣、舍不下兒子

      阿郎娛樂
      2025-12-17 07:38:57
      從上海電視臺消失的主持人,曾經是一代人的美好記憶

      從上海電視臺消失的主持人,曾經是一代人的美好記憶

      尋途
      2025-12-17 14:04:05
      TVB力捧花旦有信心再沖擊“最佳女主角”!公開擇偶條件

      TVB力捧花旦有信心再沖擊“最佳女主角”!公開擇偶條件

      TVB劇評社
      2025-12-17 21:38:59
      中方制裁巖崎茂后,不到24小時,日本反咬一口,白宮刪除涉臺內容

      中方制裁巖崎茂后,不到24小時,日本反咬一口,白宮刪除涉臺內容

      荷蘭豆愛健康
      2025-12-18 04:06:44
      許亞軍疑似為何晴付10年抗癌費用和生活費 下7次病危通知仍不放棄

      許亞軍疑似為何晴付10年抗癌費用和生活費 下7次病危通知仍不放棄

      深析古今
      2025-12-17 09:23:03
      2028年奧運會男足名額分配:亞足聯2.5個名額,歐足聯4個名額

      2028年奧運會男足名額分配:亞足聯2.5個名額,歐足聯4個名額

      懂球帝
      2025-12-17 22:03:05
      郵報:馬雷斯卡發布會言論讓俱樂部困惑,老板預計將親自見他

      郵報:馬雷斯卡發布會言論讓俱樂部困惑,老板預計將親自見他

      懂球帝
      2025-12-18 05:20:14
      對華加稅50%!墨西哥沒等到中方妥協的電話,反而收到新一輪反制

      對華加稅50%!墨西哥沒等到中方妥協的電話,反而收到新一輪反制

      牛鍋巴小釩
      2025-12-17 10:28:38
      美女得分王!廣東下一個國手中鋒,要來了?

      美女得分王!廣東下一個國手中鋒,要來了?

      刺猬籃球
      2025-12-17 22:29:50
      雞蛋立大功!醫生調查發現:上了年紀的人,雞蛋每周最好吃夠這些

      雞蛋立大功!醫生調查發現:上了年紀的人,雞蛋每周最好吃夠這些

      看世界的人
      2025-12-17 21:36:08
      教育部發布20條,進一步加強中小學日常考試管理,普通高中學校要嚴格控制考試次數

      教育部發布20條,進一步加強中小學日常考試管理,普通高中學校要嚴格控制考試次數

      每日經濟新聞
      2025-12-17 15:46:43
      向大陸交底、對內攤牌,鄭麗文把最怕被說破的那層窗戶紙,捅穿了

      向大陸交底、對內攤牌,鄭麗文把最怕被說破的那層窗戶紙,捅穿了

      藍色海邊
      2025-12-17 06:57:26
      山東省醫院收入排名,齊魯第一!

      山東省醫院收入排名,齊魯第一!

      醫脈圈
      2025-12-17 21:02:45
      湖人記者稱詹姆斯沒打出五千萬的表現,看看喬治利拉德,知足吧

      湖人記者稱詹姆斯沒打出五千萬的表現,看看喬治利拉德,知足吧

      姜大叔侃球
      2025-12-17 20:28:45
      中國網球再創歷史

      中國網球再創歷史

      劉哥談體育
      2025-12-17 10:36:18
      中超重磅轉會出現:上海海港出手,求購邵佳一愛徒!身價高達千萬

      中超重磅轉會出現:上海海港出手,求購邵佳一愛徒!身價高達千萬

      國足風云
      2025-12-17 16:47:18
      老天吶,差點沒認出來,難怪那么多人喜歡她,真人比電視上好看

      老天吶,差點沒認出來,難怪那么多人喜歡她,真人比電視上好看

      東方不敗然多多
      2025-11-27 10:35:34
      2025-12-18 06:03:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11943文章數 142512關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      萬斯公開與特朗普唱反調 承認美國人生活成本高漲

      頭條要聞

      萬斯公開與特朗普唱反調 承認美國人生活成本高漲

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      本地
      游戲
      數碼
      公開課
      軍事航空

      本地新聞

      云游安徽|踏過戰壕與石板,讀一部活的淮北史

      德瑪西亞杯:沒什么好說得,UP零封FRK

      數碼要聞

      RGB-Mini LED迎來“跨年夜”,“光色同控”從電視走向桌面

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      最新現場:山東艦完成年度最后一次海上訓練

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 少妇人妻av无码专区| 大悟县| 欧美丰满熟妇xxxx性| 久久综合色之久久综合色 | 麻花传媒在线观看免费| 大学生久久香蕉国产线看观看| 日本高清一区二区三| 狠狠躁夜夜躁人人爽天天不卡软件 | 日韩欧美中文字幕公布| 亚洲一本大道在线| 娇小另类XXXHD| 探花av| 国产精品日韩欧美一区二区三区| 亚洲xxxxxx| 国产9区| 亚洲性天堂| 新巴尔虎右旗| 国产 另类 在线 欧美日韩 | 国产精品久久久久免费观看| 久久久久久亚洲精品a片成人| 亚洲色成人www永久网站| 桑植县| 国产无码中文| 无码福利日韩神码福利片| 国产人妻精品一二区| 无码欧美日韩二区三区蜜桃| 阳新县| 欧美亚洲国产一区二区三区| 亚洲国产人妻| 小泽玛利亚一区| 人妻?制服?丝袜| 精品人妻伦一二三区久久| 松原市| 国产欧美精品久久久| 被灌满精子的少妇视频| 国产福利精品一区二区| 爆乳2把你榨干哦ova在线观看 | 俄罗斯兽交黑人又大又粗水汪汪| 久久人妻精品白浆国产| 欧美又粗又大AAA片| 婷婷色综合成人成人网小说|