<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      百萬 Token 也能無損壓縮?C3 模型用“級(jí)聯(lián)壓縮”重新定義長(zhǎng)上下文挑戰(zhàn)

      0
      分享至


      【編者按】百萬級(jí)別 Token 的輸入,正在成為大型語言模型(LLMs)長(zhǎng)上下文任務(wù)中的計(jì)算與內(nèi)存“噩夢(mèng)”。DeepSeekOCR 憑借“上下文光學(xué)壓縮”技術(shù)實(shí)現(xiàn)了 10 倍 Token 壓縮率,引發(fā)全網(wǎng)熱議。但透過現(xiàn)象看本質(zhì),高壓縮率的秘密,真的在于“圖像化”嗎?

      作者 | 劉帆帆

      出品丨作者投稿

      DeepSeekOCR 的成功讓許多人誤以為“視覺編碼”是壓縮的關(guān)鍵。然而,研究團(tuán)隊(duì)經(jīng)過深入分析發(fā)現(xiàn),高壓縮率的核心其實(shí)源自 Latent Tokens(潛在 Token)本身——這是一種比離散文本 Token 更高效、密度更高的信息載體。

      基于這一洞察,作者所在的研究團(tuán)隊(duì)提出了一種直擊本質(zhì)的全新路徑:Context Cascade Compression (C3,上下文級(jí)聯(lián)壓縮)。

      將兩種路徑進(jìn)行對(duì)比:

      • DeepSeek OCR 路徑: 文本 → 圖像 → 視覺 Token → 語言模型(引入了布局、噪點(diǎn)、視覺編碼器等無關(guān)干擾)

      • C3 路徑: 文本 → 文本 Latent Tokens → 語言模型(純粹、無損、直接)

      具體來說,一個(gè)小型 LLM 作為第一級(jí),通過將長(zhǎng)上下文壓縮成一組潛在 token(例如,長(zhǎng)度為 32 或 64),實(shí)現(xiàn)高比例的文本 token 到潛在 token 的壓縮。 一個(gè)大型 LLM 作為第二級(jí),然后對(duì)這個(gè)壓縮的上下文執(zhí)行解碼任務(wù)。

      這一設(shè)計(jì)也驗(yàn)證了近期熱門論文《LANGUAGE MODELS ARE INJECTIVE AND HENCE INVERTIBLE》中關(guān)于「LLM 本質(zhì)是無損壓縮」的論斷。

      實(shí)驗(yàn)表明,在 20 倍壓縮比(文本 token 數(shù)量是潛在 token 數(shù)量的 20 倍)下,C3 實(shí)現(xiàn)了 98% 的解碼準(zhǔn)確率,而 DeepSeek OCR 大約為60%。當(dāng)我們進(jìn)一步將壓縮比增加到 40 倍時(shí),準(zhǔn)確率仍保持在約 93%。這表明在上下文壓縮領(lǐng)域,C3 壓縮比光學(xué)字符壓縮展示了更優(yōu)越的性能和可行性。

      目前模型與代碼現(xiàn)已開源:

      • 原文:https://arxiv.org/pdf/2511.15244

      • 代碼:https://github.com/liufanfanlff/C3-Context-Cascade-Compression

      • 模型:https://huggingface.co/liufanfanlff/C3-Context-Cascade-Compression


      架構(gòu)

      在介紹 C3 之前,先帶大家來了解一下 DeepSeek-OCR 的工作原理。DeepSeek-OCR 采用了一種創(chuàng)新的"視覺壓縮"思路,這種方法的優(yōu)勢(shì)在于利用了視覺編碼器強(qiáng)大的特征提取能力,但也面臨著圖像布局復(fù)雜性、低分辨率下的模糊等固有限制。C3 提出了一個(gè)更直接的壓縮思路:跳過視覺中介,沒有中間商賺差價(jià),直接在文本域進(jìn)行壓縮。其核心架構(gòu)包括:

      1.雙 LLM 級(jí)聯(lián)設(shè)計(jì)

      • 小型 LLM(算力消耗低)作為壓縮編碼器,壓縮上下文信息。

      • 大型 LLM(推理生成能力強(qiáng))作為解碼器執(zhí)行下游任務(wù)。

      2.壓縮機(jī)制

      • 引入可學(xué)習(xí)的"上下文查詢"(Context Query)嵌入

      • 將長(zhǎng)文本壓縮為固定長(zhǎng)度的潛在token(如32或64個(gè))。

      • 完全保留預(yù)訓(xùn)練 LLM 的語言壓縮能力



      性能表現(xiàn)

      在 Fox 基準(zhǔn)測(cè)試中,C3 展現(xiàn)出顯著優(yōu)勢(shì):

      • 在約 20 倍壓縮時(shí),C3 保持 98.4% 精度,而D eepSeek-OCR 降至59.1%

      • 即使在極限的 40 倍壓縮率下(32 個(gè)潛在 token),C3 仍能維持 93% 以上的重建精度

      獨(dú)特的"遺忘模式":更接近人類記憶


      研究還發(fā)現(xiàn)了 C3 的一個(gè)有趣特性:當(dāng)壓縮率過高導(dǎo)致信息損失時(shí),錯(cuò)誤往往集中在文本末尾,呈現(xiàn)序列性信息衰減。這與光學(xué)壓縮方法的"全局模糊"不同,反而更類似人類記憶的漸進(jìn)式遺忘過程。

      這種特性使得 C3 在實(shí)際應(yīng)用中更具可預(yù)測(cè)性——重要信息可以優(yōu)先放置在文本前部,確保關(guān)鍵內(nèi)容的完整保留。

      測(cè)試


      無論是在長(zhǎng)英文文本還是中文古文上均做到了近乎完美的壓縮還原

      甚至對(duì)于 LLM 一直難以處理的亂序文本也能精準(zhǔn)還原


      應(yīng)用前景

      1. 超長(zhǎng)上下文處理:C3 可作為現(xiàn)有 LLM 的"前端壓縮器",將百萬級(jí) token 的輸入(如整本書籍、大型代碼庫(kù))壓縮到可處理范圍,降低計(jì)算成本。

      2. 多模態(tài):級(jí)連輕量級(jí) VLM 和 LLM,輕量級(jí) VLM 作為視覺 encoder 進(jìn)行信息壓縮,處理視覺信息豐富的長(zhǎng)文檔等。

      3. 下一代模型的基礎(chǔ)組件 :C3 的編碼-解碼架構(gòu)可直接應(yīng)用于擴(kuò)散語言模型和潛在自回歸模型,將可變長(zhǎng)度文本轉(zhuǎn)換為固定長(zhǎng)度潛在表示。

      這是一個(gè)在有限的人力、算力與數(shù)據(jù)背景下誕生的“小而美”項(xiàng)目。

      目前 C3 的代碼與權(quán)重開源,希望開源社區(qū)的研究者們能接過這一棒,激發(fā)出C3 的巨大潛能。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      滬指,還是8連陽(yáng)了!11:13,全市場(chǎng)為何同步跳水?

      滬指,還是8連陽(yáng)了!11:13,全市場(chǎng)為何同步跳水?

      每經(jīng)牛眼
      2025-12-26 15:26:22
      事實(shí)證明,“消失”多年的清華才女武亦姝,證實(shí)了董卿當(dāng)年沒說錯(cuò)

      事實(shí)證明,“消失”多年的清華才女武亦姝,證實(shí)了董卿當(dāng)年沒說錯(cuò)

      千言?shī)蕵酚?/span>
      2025-09-25 20:27:56
      俄軍奪取胡里艾波列烏102旅司令部,繳獲全部防線資料!

      俄軍奪取胡里艾波列烏102旅司令部,繳獲全部防線資料!

      勝研集
      2025-12-26 13:37:57
      26號(hào)收評(píng):滬指錄得8連陽(yáng)!所有人都注意了,大盤下周開始這樣看

      26號(hào)收評(píng):滬指錄得8連陽(yáng)!所有人都注意了,大盤下周開始這樣看

      春江財(cái)富
      2025-12-26 15:24:54
      笑發(fā)財(cái)了!媽媽問網(wǎng)友給孩子買的衣服是退是留,評(píng)論區(qū)炸鍋!

      笑發(fā)財(cái)了!媽媽問網(wǎng)友給孩子買的衣服是退是留,評(píng)論區(qū)炸鍋!

      另子維愛讀史
      2025-12-26 16:35:27
      意外!王鈺棟為何會(huì)突然身披熱刺球衣亮相?本人社媒發(fā)聲給出答案

      意外!王鈺棟為何會(huì)突然身披熱刺球衣亮相?本人社媒發(fā)聲給出答案

      瀟湘煙雨水
      2025-12-26 15:53:36
      阿維塔宣稱南極-50℃極寒測(cè)試,被網(wǎng)友打假:南極現(xiàn)在是夏季

      阿維塔宣稱南極-50℃極寒測(cè)試,被網(wǎng)友打假:南極現(xiàn)在是夏季

      玩車專家1
      2025-12-25 17:24:33
      從火箭棄將到灰熊寶藏!蘭代爾11+6+41%三分,底薪合同變千萬身價(jià)

      從火箭棄將到灰熊寶藏!蘭代爾11+6+41%三分,底薪合同變千萬身價(jià)

      奕辰說球
      2025-12-26 11:55:50
      川普經(jīng)濟(jì)笑話沒有看到,為什么主流經(jīng)濟(jì)學(xué)家又錯(cuò)了?

      川普經(jīng)濟(jì)笑話沒有看到,為什么主流經(jīng)濟(jì)學(xué)家又錯(cuò)了?

      移光幻影
      2025-12-26 09:43:18
      苗苗鄭愷的農(nóng)場(chǎng)火了!種了一大片菜,養(yǎng)了300只小動(dòng)物

      苗苗鄭愷的農(nóng)場(chǎng)火了!種了一大片菜,養(yǎng)了300只小動(dòng)物

      每日一見
      2025-12-23 21:05:21
      嘉興:2026 年起取消本地小客車高速免費(fèi)新政

      嘉興:2026 年起取消本地小客車高速免費(fèi)新政

      和訊網(wǎng)
      2025-12-25 14:25:04
      我爸被惡霸打斷肋骨,舅舅連夜從首都開車回來,惡霸撲通一聲跪下

      我爸被惡霸打斷肋骨,舅舅連夜從首都開車回來,惡霸撲通一聲跪下

      張道陵秘話
      2025-12-23 10:20:44
      籃協(xié)不再容忍!公開宮魯鳴被傳打壓王思雨真相,李夢(mèng)也能松口氣

      籃協(xié)不再容忍!公開宮魯鳴被傳打壓王思雨真相,李夢(mèng)也能松口氣

      小小李?yuàn)?/span>
      2025-12-26 11:40:35
      泰王訪華實(shí)屬無奈?開口就是三大需求,中國(guó)不會(huì)輕易松口

      泰王訪華實(shí)屬無奈?開口就是三大需求,中國(guó)不會(huì)輕易松口

      古事尋蹤記
      2025-11-17 07:28:16
      無視慘敗!即便湖人圣誕夜狂輸23分,詹姆斯仍強(qiáng)勢(shì)創(chuàng)下5大神跡!

      無視慘敗!即便湖人圣誕夜狂輸23分,詹姆斯仍強(qiáng)勢(shì)創(chuàng)下5大神跡!

      田先生籃球
      2025-12-26 14:47:46
      項(xiàng)立剛單方面叫陣5天后,羅永浩終于含蓄的回應(yīng)了……

      項(xiàng)立剛單方面叫陣5天后,羅永浩終于含蓄的回應(yīng)了……

      柴狗夫斯基
      2025-12-26 11:03:31
      廣州市南沙一棟兩層住宅樓拍賣,被人底價(jià)撿漏18.72萬元就競(jìng)得

      廣州市南沙一棟兩層住宅樓拍賣,被人底價(jià)撿漏18.72萬元就競(jìng)得

      冬天來旅游
      2025-12-26 12:36:15
      凱特王妃2025全年上演“王冠時(shí)刻”,已進(jìn)入準(zhǔn)王后之姿!

      凱特王妃2025全年上演“王冠時(shí)刻”,已進(jìn)入準(zhǔn)王后之姿!

      ChicMyGeek
      2025-12-26 19:10:04
      深夜大瓜!曝闞清子生下女兒沒保住,沒有膀胱和肛門,產(chǎn)前狀態(tài)差

      深夜大瓜!曝闞清子生下女兒沒保住,沒有膀胱和肛門,產(chǎn)前狀態(tài)差

      照亮你的前行之路
      2025-12-24 03:10:08
      林子祥葉蒨文上海壓馬路!78歲白發(fā)蒼蒼卻牽手依舊!

      林子祥葉蒨文上海壓馬路!78歲白發(fā)蒼蒼卻牽手依舊!

      娛樂領(lǐng)航家
      2025-12-25 22:00:03
      2025-12-26 19:48:49
      CSDN incentive-icons
      CSDN
      成就一億技術(shù)人
      26214文章數(shù) 242203關(guān)注度
      往期回顧 全部

      科技要聞

      收割3000億!拼多多"土辦法"熬死所有巨頭

      頭條要聞

      女老板補(bǔ)辦合作伙伴身份證轉(zhuǎn)走600多萬 事后僅被拘5天

      頭條要聞

      女老板補(bǔ)辦合作伙伴身份證轉(zhuǎn)走600多萬 事后僅被拘5天

      體育要聞

      開翻航母之后,他決定親手造一艘航母

      娛樂要聞

      王傳君生病后近照變化大,面部浮腫

      財(cái)經(jīng)要聞

      投資巨鱷羅杰斯最新持倉(cāng):只留四種資產(chǎn)

      汽車要聞

      兩大CEO試駕 華為乾崑*啟境開啟首款獵裝轎跑路測(cè)

      態(tài)度原創(chuàng)

      家居
      房產(chǎn)
      手機(jī)
      健康
      教育

      家居要聞

      格調(diào)時(shí)尚 智慧品質(zhì)居所

      房產(chǎn)要聞

      炸裂,三亞360億超級(jí)清單發(fā)布,又一批重大配套要來了!

      手機(jī)要聞

      鴻蒙 6 殺瘋!3200 萬人搶著用的系統(tǒng),把 “越用越卡” 按在地上摩擦

      這些新療法,讓化療不再那么痛苦

      教育要聞

      孩子只“指”不“說”?三招引導(dǎo)他主動(dòng)開口

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 中文字幕 欧美日韩| 黄色A片网| 白银市| 日韩欧美一级特黄大片| 国产无码高清视频不卡| 亚洲自偷自偷在线成人网站传媒| 国产精品无码mv在线观看| 亚洲性爱视频网站| 狠狠噜天天噜日日噜| 国产精品美女久久久久久久| 日本人妻伦在线中文字幕| 亚洲一卡2卡三卡四卡精品| 蜜桃av一卡二卡三卡| XXXX18HD亚州护土| av天堂中文字幕| 免费日本黄色| 亚洲精品影院| 国产麻豆天美果冻无码视频| 丰满人妻一区二区三区无码AV| 91久久国产成人免费观看| 午夜国产小视频| 一色道久久88加勒比一| 国产一区二区三区不卡在线看| 亚洲国色天香卡2卡3卡4| 久久国产成人精品av| 亚洲国产精品无码av| 亚州成人无码| 亚洲色成人777777无码| 崇信县| 黑水县| 风流少妇一区二区三区91| 一区二区三区网址| av天堂中文| 欧美色人妻| 人妻资源站| 亚州精品成人| 久久久久亚洲精品中文字幕| 成人1区2区| 国产AⅤ爽aV久久久久成人小说| 涞水县| 榆中县|