<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      美團盯上原生多模態!路子還很野:把圖像語音都當成Token來預測

      0
      分享至

      Token,這下真成了智能世界的基本單位。

      不是被定義出來的“詞元”,而是被一套全新的統一Token架構,直接壓進了現實建模的最底層。



      過去一年,幾乎所有頭部大模型玩家,都在忙著重寫多模態的底層架構。

      從谷歌、OpenAI到國內的字節、MiniMax,大家在實踐中逐漸形成共識——不走原生多模態,已經不夠、不行了

      但問題是,原生多模態到底該怎么走?到目前為止,業界并沒有一個統一答案。

      直到這一次,一直悶頭搞AI的美團LongCat,歘的一下亮出新解法:

      把圖片、語音,統統當成Token來預測

      聽起來有點離譜,但他們不僅這么做了,而且——

      還做成了。

      真原生、真統一

      先回答一個基本問題:為什么要做原生多模態?

      理由雖然很多,但核心只有一個:

      目前業界主流的多模態大模型,本質上采用的是一套“拼湊式架構”——語言模型當底座,視覺、語音當外掛

      這種架構下,理解靠連續特征對齊(比如要理解圖片就得把圖片轉成語言能看懂的信號)、生成靠擴散模型,兩套系統各說各話,根本談不上真正的統一。

      結果就是,中間“傳話人”一多,算力消耗飆升,信息也一路跑偏、流失。

      而原生多模態,則從一開始就用一套統一的方式,把所有模態一起建模——不需要拼接、不需要傳話翻譯,所有模態共用同一套“語言”。

      而這,正是美團LongCat做的事。

      至于為什么說他們采用的方式很“離譜”,原因在于,他們把“離散自回歸”直接搬到了圖像和語音這種連續信號上

      眾所周知,依賴離散自回歸建模,“預測下一個Token”讓大語言模型一戰成名。

      但當這套范式被搬到視覺上時,問題也隨之出現:

      圖片是連續信號,不能像文本那樣天然離散,一旦強行切成Token(類似把一張圖分成幾塊),模型就會丟信息“變弱”。

      因此,行業長期認為,離散視覺建模存在“性能天花板”。

      但隨著美團LongCat一篇新論文的出現,這一認知被打破了——

      文本、圖像、語音,可以被統一壓進同一個離散Token空間,用一套自回歸邏輯從頭建模,而且模型效果可以媲美主流頂尖模型



      從論文中可以看到,為這套理念提供支撐的,正是美團LongCat首創的離散原生自回歸架構——DiNA(Discrete Native Autoregressive )。

      DiNA核心只做一件事——把文字、圖像、語音都變成同一種東西,即離散Token。

      這樣一來,無論模型是讀文字、看圖片還是聽聲音,本質上都是在預測下一個Token。

      聽起來是不是仍有點抽象?不妨看看下面這張架構運行圖。

      簡單來說,DiNA的一個完整“小周天”,大致會經歷以下三個過程:

      • 輸入側:文本、圖像、語音各自經過自家Tokenizer,統一把原始信號轉成離散Token;
      • 中間:所有Token匯入一個不區分模態的學習器,它只處理Token序列,所有理解、推理、生成都在這里完成;
      • 輸出側:處理完的Token再通過各自的De-Tokenizer還原成圖像、音頻、文本。



      這種架構設計帶來的好處顯而易見:

      以前都是各管各的(文字模型管文字、圖片模型管圖片),現在所有模態都共享同一個自回歸骨干。

      這意味著,甭管處理哪種模態,模型都用同一套參數、同一個注意力機制、同一個損失函數。

      而這,無疑可以讓模型在訓練時更穩定,部署時更輕量

      訓練時,多模態數據互相補充,梯度信號更穩,不容易跑偏;部署時,一個模型頂三個,顯存省了,速度也快了。

      空口無憑。

      美團LongCat用LongCat-Flash-Lite MoE(總參數685億,激活僅30億)做基座,在這個框架上訓練出LongCat-Next。

      結果發現,DiNA的MoE路由在訓練中逐漸學會了“分工”——不同專家開始偏好處理不同模態,激活的專家數量也比純語言模型時更多,這說明模型正在用更大容量支撐能力擴展。

      說白了就是,為了多干活,找了更多專家。



      再一個,前面提到了理解和生成的割裂問題(需要兩套系統)。

      而在DiNA這里,它倆也變成了“預測下一個Token”這一件事——數學形式完全一樣,只是輸入輸出互換。

      看到圖片,預測文字是“理解”;看到文字,預測圖片是“生成”。理解和生成一個模型全搞定。

      至于具體效果嘛?實驗數據很能說明問題:

      統一模型的理解損失僅比純理解模型高0.006,而生成損失比純生成模型低0.02。

      這說明什么?理解不僅沒拖累生成,反而表現出協同潛力

      以及最后還有很重要的一點,那就是真·原生

      以前的多模態模型,本質上天天干的是“對齊”的活兒——不同模態之間“對話”需要靠“翻譯傳話”。

      而現在,美團LongCat發現:

      把不同模態的Token丟進t-SNE可視化之后,它們不是各占一角,而是混在一起,自然交融,而且不同的專家模塊開始自動偏好處理圖像、文字或語音。

      這說明,模型不是在“拼湊”多模態,而是在內部長出了一個統一的多模態世界



      說到這里,懂行的朋友可能就問了:

      OK,現在我們已經知道DiNA架構長什么樣、具體怎么運作的了,但這里還有一個關鍵問題沒有被提到:

      它是怎么把不同模態離散成Token的?文本不必多說,至少得說清圖像和語音咋處理的。

      而這,就要談到美團LongCat的另一項自研了。

      所以,怎么“離散”的?

      一般來說,基于以下兩點理由,離散建模一直被人說“不行”:

      • 表征容量有限:離散Token就那么幾個,怕裝不下太多信息;
      • 離散化損失:離散化過程會丟東西,比如一旦把連續信號切成塊,細節就容易漏掉。

      但美團LongCat就說了,這些還真不是關鍵。

      真正決定上限的,是離散Token本身是否具備語義完備性(Semantic Completeness)。

      換言之,問題不在“要不要離散”,而在離散后的Token本身到底夠不夠“有內容”——既懂大意,又摳細節。



      所以現在問題就變成了:怎么構建合適的表征基礎?

      先說視覺。

      對此,美團LongCat想了兩招。

      第一招:先把基礎打好,讓信息在被離散前盡可能豐富、準確。

      他們拿出語義對齊編碼器SAE(Semantic-and-Aligned Encoder),用來從圖像中提煉高信息密度、多屬性的特征。

      不同于傳統對比學習(如SigLIP那種“看文字和圖片是否匹配”),SAE是通過大規模視覺-語言監督,像做閱讀理解一樣,把圖像描述、視覺問答、視覺推理統統學一遍。

      結果就是,它提取的特征既有“這是什么”的語義,又有“長什么樣”的細節。

      第二招:甩出自研視覺分詞器dNaViT,把SAE提煉出來的特征,逐級量化成離散Token。



      怎么個逐級量化?dNaViT這里采用的是8層殘差向量量化(RVQ),通俗來講就是“分層打包”。

      既然細節很多,那就第一層打包輪廓、第二層打包顏色、第三層打包紋理……

      每一層只負責上一層沒包進去的“剩余信息”。

      8層補下去之后,最后可以實現高達28倍的極致像素空間壓縮

      光壓縮還不算完,到了還原圖像的時候,dNaViT還有一套雙軌解碼器來為還原質量“保駕護航”。

      • 結構像素解碼器:搭出低分辨率錨點圖,保布局;
      • 擴散像素細化器:注入高頻紋理細節,讓畫面更完整清晰。

      到這里,美團LongCat就完成了視覺離散的幾個關鍵步驟——SAE“先看懂”、dNaViT再壓縮和還原。

      發現沒,和語言模型的Tokenizer一樣,dNaViT也把圖像的理解和生成放在同一套Token序列里閉環流轉了。



      不過更關鍵的還在于,在LongCat-Next中:

      視覺Token化這個過程完成的是圖像到離散ID的映射,真正的特征是原生學習的

      意思是,視覺Token化這個過程只負責把圖像轉成ID編號,至于這個編號代表什么含義,是模型自己學出來的,不是別人硬塞給它的。

      在美團LongCat看來,這種從“借用模態”到“內生模態”的轉變,是原生多模態建模的核心。

      還是舉一個例子。

      從dNaViT的架構圖可以看到,雖然左邊輸入了三張尺寸完全不同的圖像,但經過中間的離散和右下邊的還原后,輸出的尺寸和輸入完全一致,細節也沒丟。

      這就是“原生分辨率”的含義——無需任何額外動作(縮放、裁剪、填充),dNaViT可以實現任意分辨率的圖像編碼與解碼。



      再說語音。

      語音的離散思路和視覺基本一致——

      先用OpenAI的Whisper編碼器提取聲音特征,然后用RVQ切成離散Token,最后用解碼器還原聲音。



      唯一比較狠的一點是,在文本引導音頻的統一建模下,LongCat-Next同時支持并行生成與串行生成兩種策略,使得模型可以在生成速度與語音準確性之間靈活權衡。

      • 想“快”(如實時語音對話):可以走并行生成,延遲更低;
      • 想“準”(如后期配音):可以走串行生成,雖然過程慢一點,但文本對音頻的指導作用更強。

      至于什么情況選哪個,也都是模型自己來決定。

      通過隨機延遲對齊——訓練時隨機切換“一起出”和“先后出”,模型能自己學會平衡速度和準確度,實現又快又準。



      至此,美團LongCat在LongCat-Next身上看到了:

      離散表示并非信息的退化形式,而可以成為統一理解與生成的完備表達載體

      通過“離散”這種方式,文字、圖像、語音可以變成“同一種Token”——原生多模態的底層統一,由此實現。

      跑分和背后的發現

      具體效果可以看LongCat-Next的跑分情況。

      這個基于LongCat-Flash-Lite(MoE)訓練的模型,沒有像傳統模型那樣給不同任務設計不同的專家模塊,而是采用“與模態無關”的MoE——由模型自行決定如何為各模態分配訓練資源。



      結果大家也都看到了,憑借這套離散原生框架,LongCat-Next在視覺理解、圖像生成、音頻、智能體等多個維度上,都展現出與多模專用模型相當甚至領先的性能



      老實說,雖然LongCat-Next的成績不錯,但我還是有點懷疑“離散”是否真能work。

      于是立馬讓模型識別一下桌面上的小白盒(反光下比較模糊):



      沒想到LongCat-Next成功識別了耳機盒上的所有關鍵參數:





      當然,如果細扒每一項成績,你會發現背后還藏著這樣幾個關鍵點:

      發現1:離散視覺沒有天花板

      前文也提到,行業長期認為離散模型在做細粒度文本識別時,天然就不如連續模型。

      因為離散化本身就是一個信息壓縮和丟失的過程,而細粒度文本識別恰恰對信息保真度要求極高。

      但LongCat-Next這次用實力挑戰了這一觀點。

      證據之一是,在OmniDocBench這個涵蓋學術論文、財報、行政表格等各種復雜文檔的多模態基準測試上,LongCat-Next的成績不僅超越同類多模態模型,還超過了專門做視覺理解的模型。

      更重要的是,美團LongCat通過對照實驗發現,離散視覺的性能瓶頸并非來自“離散化本身”,而是來自數據規模

      在相同設置下對比離散模型(Discrete)和連續模型(Continuous)可以發現:

      小數據下,離散模型確實弱于連續模型;但隨著數據規模不斷擴大,二者的性能差距會持續縮小。

      繼續擴大數據規模,離散模型甚至可以和連續模型性能接近一致(near-parity)。



      照理說,如果離散化本身存在不可突破的性能上限,那么隨著數據增加,這一差距理應在某個階段停止收斂,但實驗中并未觀察到這一“收斂停滯”。

      所以論文給出了一個判斷——

      離散建模并不存在內在性能天花板,其上限更多取決于數據規模與表征質量

      發現2:理解和生成可以協同

      原理就不必多說了,咱直接亮成績:

      在考察長文本渲染能力的LongText-Bench上(側重生成),LongCat-Next拿下93.15的高分。

      與此同時,它還在考察數學推理能力的MathVista上(側重理解),斬獲83.1的領先成績。

      理解和生成齊高,這說明理解不僅沒有損害生成,反而表現出協同潛力

      這也很好理解。以前它們分屬兩套系統,各有各的優化目標;現在卻被拉到了一起,理解學到的東西直接服務生成,兩者天然同向、越學越強。



      發現3:經過原生多模態訓練后,不會折損文本能力

      以前多模態訓練就像“端水”,要小心翼翼在各種模態的能力之間取得平衡。

      但LongCat-Next就不一樣了。

      圖像、音頻能力配上后,文本能力也沒被削弱——

      在純文本任務上,LongCat-Next在MMLU-Pro和C-Eval上分別斬獲77.02和86.80的領先成績。

      而且工具調用、代碼能力等個個不差。

      還是那句話,當模型學會用同一種方式理解圖像、聲音和文字時,它對世界的理解無疑更上一層樓。

      美團LongCat用實驗初步證明:

      當不同模態都用同一套離散Token體系后,模型不再需要為不同模態、不同任務分別設計機制,而是可以用一套可擴展的方式去建模整個世界

      在這個意義上,離散建模并非一種妥協,而是另一條可擴展路徑。

      這件事意味著什么?

      不止于此。

      把視角再往前推一步,你會發現一個有意思的“隔空呼應”:這項研究,幾乎正對上了LeCun和謝賽寧等人的判斷。

      LeCun就不必多說了,誰都知道他一直批評“純文本LLM無法實現AGI”;謝賽寧則在對談張小珺時表示,語言本身是人類文明高度提煉的結構,相當于一種“捷徑”或“拐杖”,過度依賴語言會限制AI對真實世界的學習。

      而要突破語言模型的局限性,統一的多模態預訓練,正是那條繞不開的路

      在近期公開的論文《Beyond Language Modeling: An Exploration of Multimodal Pretraining》中,LeCun等人決定不再把視覺當作輔助輸入,而是推進統一的多模態預訓練——

      讓視覺和語言一樣,成為模型里的“first-class citizen”。



      而美團LongCat這一步,正是把這條思路進一步推向工程化落地的體現——

      在不推翻LLM、自回歸這些成熟體系的前提下,他們直接把圖像、語音、文字統統壓進了Token序列,并且做到了工業級可用。

      怎么個工業可用?答案是:開源

      沒錯,美團LongCat這次不僅公開了技術論文,而且還把LongCat-Next及其分詞器開!源!了!

      不過要想使用LongCat-Next,除了硬件上需要至少3張80GB顯存的專業顯卡(如英偉達A100/H100),軟件配置要求如下:



      到這一步,當一套方案不僅在論文里成立,而且已經以開源的形式跑通工程閉環時,它對業界的意義除了多了一個新框架外,更重要的其實還在于——驗證了一條新路徑

      細究之下,在通往“原生多模態”的這條路上:

      有人在做融合,語言模型當底座,視覺、語音當外掛,一心想讓不同模態更好協同;也有人更進一步做早期融合+MoE,不再依賴預訓練編碼器,從零開始聯合訓練,讓模型內部自己長出視覺和聽覺。

      而美團LongCat更為直接——不走融合,不做對齊,直接把所有模態統統變成Token。

      此時,模型面對的就不再是“多模態”,而是同一種可以被預測、被生成的序列。

      某種程度上來說——

      模態這個東西本身,也正在消失。

      Paper: https://github.com/meituan-longcat/LongCat-Next/blob/main/tech_report.pdf
      GitHub: https://github.com/meituan-longcat/LongCat-Next
      HuggingFace: https://huggingface.co/meituan-longcat/LongCat-Next
      blog: https://longcat.chat/longcat-next/intro

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美拯救大兵“Bravo”更多驚險細節曝光:靠尋呼機式定位器求救,回答私密問題驗身

      美拯救大兵“Bravo”更多驚險細節曝光:靠尋呼機式定位器求救,回答私密問題驗身

      紅星新聞
      2026-04-07 13:13:17
      二手CD播放器漲到天價!閑魚賣5999元,比當年全新還貴

      二手CD播放器漲到天價!閑魚賣5999元,比當年全新還貴

      金科技觀察家
      2026-04-06 18:03:53
      伊朗哈爾克島遭襲 傳出多次爆炸聲

      伊朗哈爾克島遭襲 傳出多次爆炸聲

      新京報
      2026-04-07 19:13:15
      易中天,獲獎勵20萬元

      易中天,獲獎勵20萬元

      極目新聞
      2026-04-06 21:04:19
      鄭麗文要簽署兩岸和平協議,蔣經國后終于出現第二個推動統一的人

      鄭麗文要簽署兩岸和平協議,蔣經國后終于出現第二個推動統一的人

      暮雪無痕
      2026-02-03 08:52:46
      原來她就是王楚欽母親,怪不得會成為世界冠軍,18歲家書令人動容

      原來她就是王楚欽母親,怪不得會成為世界冠軍,18歲家書令人動容

      阿纂看事
      2026-04-06 19:58:38
      張雪奪冠背后,那個隱身的廈大作家媽媽,才是真正的幕后英雄

      張雪奪冠背后,那個隱身的廈大作家媽媽,才是真正的幕后英雄

      行者聊官
      2026-04-07 08:36:40
      高明沒想到,兒子去世一年后,沒有帶娃改嫁的兒媳,成了他的救贖

      高明沒想到,兒子去世一年后,沒有帶娃改嫁的兒媳,成了他的救贖

      米果說識
      2026-04-07 14:43:21
      不到24小時,特朗普發出死亡威脅,中俄預判準確,搶先發出警告

      不到24小時,特朗普發出死亡威脅,中俄預判準確,搶先發出警告

      一個有靈魂的作者
      2026-04-06 20:43:44
      伊朗喊話特朗普:20個小時內,要么屈服要么退回石器時代

      伊朗喊話特朗普:20個小時內,要么屈服要么退回石器時代

      兵器展望
      2026-04-07 20:02:21
      費迪南德:拉什福德在曼聯已無未來,巴薩2600萬鎊簽他會是打劫

      費迪南德:拉什福德在曼聯已無未來,巴薩2600萬鎊簽他會是打劫

      云隱南山
      2026-04-07 18:00:03
      男子清明掃墓,在祖墳旁意外發現近百枚鴨蛋,冷先生笑稱“感謝太奶”,一行9人,每人分了10個

      男子清明掃墓,在祖墳旁意外發現近百枚鴨蛋,冷先生笑稱“感謝太奶”,一行9人,每人分了10個

      觀威海
      2026-04-07 10:59:07
      1977年,李敏見到失散多年的親姐楊月花,楊月花卻向李敏提一要求

      1977年,李敏見到失散多年的親姐楊月花,楊月花卻向李敏提一要求

      磊子講史
      2025-12-23 20:04:20
      阿爾忒彌斯2號任務拍攝的月球背面

      阿爾忒彌斯2號任務拍攝的月球背面

      NASA航天愛好者
      2026-04-07 13:55:10
      美伊停火協議細節公布!黃金直線拉升,國際油價大跳水,股市巨震

      美伊停火協議細節公布!黃金直線拉升,國際油價大跳水,股市巨震

      魯中晨報
      2026-04-07 07:21:14
      最不該倒的人倒了!歐冠前夜巴薩遭雙重暴擊,天要亡我?

      最不該倒的人倒了!歐冠前夜巴薩遭雙重暴擊,天要亡我?

      茅塞盾開本尊
      2026-04-06 21:13:20
      女生長的太漂亮是什么體驗?網友:母以子貴,父以女榮

      女生長的太漂亮是什么體驗?網友:母以子貴,父以女榮

      另子維愛讀史
      2026-03-10 22:56:08
      印度能主動退出上海合作組織。

      印度能主動退出上海合作組織。

      南權先生
      2026-04-07 05:05:03
      毛主席唯一一個活下來的兒子毛岸青,晚年的時候享受的什么待遇

      毛主席唯一一個活下來的兒子毛岸青,晚年的時候享受的什么待遇

      阿器談史
      2026-04-06 09:58:57
      周總理好心建議賀龍搬出中南海,賀龍:我沒想到把我看成這種人

      周總理好心建議賀龍搬出中南海,賀龍:我沒想到把我看成這種人

      北海史記
      2026-04-07 17:16:32
      2026-04-07 20:40:49
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12434文章數 176445關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      美軍拯救飛行員差一點失敗 從40英里外用攝像頭對準他

      頭條要聞

      美軍拯救飛行員差一點失敗 從40英里外用攝像頭對準他

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      本地
      時尚
      家居
      數碼
      旅游

      本地新聞

      跟著歌聲游安徽,聽古村回響

      針織衫+闊腿褲=氣質穿搭

      家居要聞

      雅致愜意 感知生活之美

      數碼要聞

      1999元就能買Mini LED電視 海信Vidda小鋼炮S Mini開售

      旅游要聞

      上游觀察|兩天春假,卻讓孩子擁抱了整個春天

      無障礙瀏覽 進入關懷版