<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek與智譜同日出手,將語言壓縮成視覺是下一個擴展方向

      0
      分享至

      就在硅谷還在為大模型像不像松鼠爭論不休時,來自中國的DeepSeek與智譜,只干不說,幾乎同時拋出了自己如何教會大模型,像人類一樣“看懂”文本的模型與論文。

      “松鼠”是強化學習之父薩頓對大模型是否具備真實的感知與理解能力的隱喻。讓大模型“看懂文本”,已經有點類似意味了。人類感知與理解世界,一條重要的路徑,就是通過大腦視覺皮層處理通過眼睛傳遞進來的視覺信號。

      無論是DeepSeek還是智譜的方案,核心都在于用少量的視覺token,表達原本需要大量文本token才能覆蓋的信息。前者提出了DeepSeek-OCR模型,概念核心是“上下文光學壓縮”(Context Optical Compression);后者的Glyph框架,則以“視覺–文本壓縮”(Visual–Text Compression)為中心思想。

      兩者都在重新審視“視覺模型”在自然語言壓縮與解壓映射中的角色,讓傳統的OCR(光學字符識別)不再只是識別文字的工具,而成為連接大型語言模型(LLM)與視覺語言模型(VLM)之間的關鍵中間模態。

      這顯著提高了信息密度與計算效率。如果能順利將壓縮成圖像的文本信息重新解碼出來,就能大幅降低內存與算力成本。參數規模僅為3B的DeepSeek-OCR,在文本token數量不超過視覺token數量的10倍(即壓縮比<10)時,仍可實現不低于97%的解碼精度;智譜的Glyph框架則實現了3至4倍的上下文壓縮,同時保持與同規模領先語言模型(如Qwen3-8B)相當的性能。

      具體而言,DeepSeek-OCR是一個全新的端到端統一架構,由兩個核心組件構成:負責將圖像轉換為高度壓縮視覺 token的編碼器DeepEncoder,以及從這些視覺token中重建文字的解碼器DeepSeek-3B-MoE-A570M。其設計目標是在保持高分辨率輸入的同時,生成盡可能少的視覺token,將激活內存消耗控制在較低水平。相比之下,現有的三類主流視覺語言模型(各自以Vary、InternVL2.0與Qwen2-VL為代表)都無法一一滿足上述要求。


      模型首先利用僅包含“窗口注意力”機制的SAM-base(約8000萬參數),在高分辨率圖像上執行細粒度的局部特征提取,生成約4096個token;隨后通過一個16倍卷積壓縮器,將這些局部特征進一步降維至256個token;最后引入具備“全局注意力”機制的CLIP-large(約3億參數),在低分辨率語義空間中整合全局信息。整個編碼過程完成后,解碼器DeepSeek-3B-MoE負責順序重建上下文,精確復述。

      值得注意的是,同一個模型可以根據任務需求靈活調整其“壓縮強度”。為此,DeepSeek人為設定了四種原生分辨率(Native Resolutions),用于平衡精度與計算效率。最低精度的Tiny模式使用約64個token來表示一張512×512的圖像;最高精度的Large模式則需要約400個token來表示1280×1280的圖像。此外,團隊還設計了一種 “高達模式”(Gundam Mode),由兩種原生分辨率組合而成,用于特定的超高分辨率應用場景。

      智譜的Glyph框架也是類似的思路,但在策略上有所不同。它的整個訓練流程分為三個緊密耦合的階段:持續預訓練、渲染搜索與后期的監督微調和強化學習。所謂大型語言模型驅動的渲染搜索機制(LLM-driven Rendering Search),就是不再依賴人工設計,而是利用遺傳算法(Genetic Algorithm),讓系統在不斷的進化迭代中,自動發現最優渲染配置,實現壓縮率與視覺清晰度之間的動態平衡。


      在硅谷大神卡帕西(Andrej Karpathy)看來,也許DeepSeek-OCR算不上最好的OCR工具,但這并不重要。他提到了dots,也許指的是同為中國團隊小紅書發布的開源工具dots.ocr,它的文檔解析準確率接近100%。對于DeepSeek-OCR來說,重要的是,它是否揭示了大模型研發的新路徑:像素是否比文本更適合大型語言模型的輸入。

      這種方式對信息的壓縮更高效,信息流也更為通用,可以包括不同的空間語義與異構符號體系,比如粗體文本與彩色文本,以及化學符號等等。卡帕西還認為,它能夠輕松使用雙向注意力機制,并最終讓模型擺脫那套“糟糕的、割裂的”分詞體系。傳統的自回歸語言建模是單向的,而分詞器(tokenizer)則阻礙了模型走向端到端的統一表示。

      也許文本并非信息的最佳載體,像素才是更高效、更統一的輸入形式。自稱“骨子里的計算機視覺研究者”的卡帕西,甚至更激進地認為,所有向大型語言模型的輸入,都應該先被渲染成圖像。同樣來自視覺領域、提出了擴散Transformer(DiT)的謝賽寧,也給予了DeepSeek高度評價。

      讓大模型像生物一樣“看懂”文本,不是DeepSeek與智譜的突發奇想。幾年前,學界就提出過“基于像素的語言建模”(Language Modelling with Pixels)的設想。

      但是,中國的開源模型團隊率先將它工程化與實用化。也許,這樣的團隊不只是DeepSeek或智譜。DeepSeek-OCR核心作者Haoran Wei,此前在以多模態模型見長的階躍星辰,就已經和他的同事們,嘗試過對“通用OCR理論”(General OCR Theory)的初步探索。

      全球都缺算力,中國尤其如此。同時,隨著多智能體協同的逐步到來,上下文將越來越長,如何合理與高效的記憶與遺忘,是大模型研究的前沿課題。以往,中國團隊的努力主要集中在對傳統注意力機制的優化,試圖引入稀疏或線性注意力,降低計算復雜度。這一次,它們終于越過了文本token的表示瓶頸。

      DeepSeek還有更大的野心。它的DeepSeek-OCR不僅關乎“看懂”,還關乎“記憶”與“遺忘”。

      當我們回憶一本讀過的書時,往往會依靠視覺印象來定位記憶:時間越近的內容,在腦海中的“分辨率”越高;而那些久遠的記憶,則會被逐漸“壓縮”為關鍵信息,成為再次檢索時的視覺錨點。DeepSeek-OCR的不同分辨率的設計,正好契合了這一思路。也許,它可以通過逐級壓縮信息,直至邊際遺忘,或內化為更深層的表征。


      “記憶”與“遺忘”,意味著更高效的計算、通信與儲存,對于智能體完成多輪對話的長程任務,甚至未來大模型自進化,都至關重要。如果說,現在的大模型更像卡帕西所說的“幽靈”而不是“松鼠”,也正是缺少感知與理解、記憶與遺忘的關鍵循環。

      在論文的最后,DeepSeek團隊致辭說,這一思路“為構建一種理論上無限上下文長度的模型架構(unlimited context architectures)提供了新的可能”,是一個很有前景的新方向;智譜團隊致辭說,這是一種很有前景的“擴展長上下文大模型(scaling long-context LLMs)”的新范式,在深度方面仍有很大的探索空間。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      2-1,63歲穆帥發威:率隊豪取4連勝+24輪不敗,繼續逼近榜首

      2-1,63歲穆帥發威:率隊豪取4連勝+24輪不敗,繼續逼近榜首

      側身凌空斬
      2026-03-03 06:15:36
      特朗普稱將于本月晚些時候訪華,外交部回應

      特朗普稱將于本月晚些時候訪華,外交部回應

      中國網
      2026-03-02 16:00:16
      絕地反擊!革命衛隊祭出天地共壽拼命打法,美中東基地集體被揍?

      絕地反擊!革命衛隊祭出天地共壽拼命打法,美中東基地集體被揍?

      快看張同學
      2026-03-02 17:11:42
      李亞鵬過元宵節,和媽媽住小200平房子,要和金喜一起為夏夏慶生

      李亞鵬過元宵節,和媽媽住小200平房子,要和金喜一起為夏夏慶生

      柒佰娛
      2026-03-03 10:30:08
      真相大白?張柏芝隱瞞8年的三胎兒子,身份疑似曝光,謝霆鋒贏了

      真相大白?張柏芝隱瞞8年的三胎兒子,身份疑似曝光,謝霆鋒贏了

      涵豆說娛
      2026-03-03 10:11:17
      經紀公司エイトマン(8MAN)的頂級新秀「三浦奈々」宣布出道片商!

      經紀公司エイトマン(8MAN)的頂級新秀「三浦奈々」宣布出道片商!

      孤獨的獨角獸影視
      2026-03-03 09:10:08
      慘遭15分大逆轉!女籃霸主加時3分惜敗:楊力維空砍14分3板4助!

      慘遭15分大逆轉!女籃霸主加時3分惜敗:楊力維空砍14分3板4助!

      籃球快餐車
      2026-03-03 01:57:58
      黃巢兵敗被殺,10余名姬妾被俘,唐僖宗報復有多狠?史官都不敢寫

      黃巢兵敗被殺,10余名姬妾被俘,唐僖宗報復有多狠?史官都不敢寫

      掠影后有感
      2026-03-01 10:09:20
      林志玲這蕾絲沒幾個人能頂住吧

      林志玲這蕾絲沒幾個人能頂住吧

      東方不敗然多多
      2026-03-03 11:26:43
      這是開戰以來,最讓人心碎的一張照片

      這是開戰以來,最讓人心碎的一張照片

      牛彈琴
      2026-03-03 07:50:54
      美軍三架戰機墜毀后,逃生飛行員遇科威特居民持棍威脅,跪地舉手表明身份

      美軍三架戰機墜毀后,逃生飛行員遇科威特居民持棍威脅,跪地舉手表明身份

      第一財經資訊
      2026-03-03 12:40:55
      曾經的女神啊,可惜嫁給外國人了…

      曾經的女神啊,可惜嫁給外國人了…

      喜歡歷史的阿繁
      2026-03-03 01:07:01
      24小時之內,中國發撤離令,特朗普就伊朗問題表態,需警惕以色列

      24小時之內,中國發撤離令,特朗普就伊朗問題表態,需警惕以色列

      野史日記
      2026-03-02 12:10:03
      美軍瞞不住了!炸航母基地,炸11億美元雷達,幾十萬噸燃油被點燃

      美軍瞞不住了!炸航母基地,炸11億美元雷達,幾十萬噸燃油被點燃

      深析古今
      2026-03-03 02:35:58
      內塔尼亞胡遭襲安然無恙,特朗普:最猛烈打擊很快到來

      內塔尼亞胡遭襲安然無恙,特朗普:最猛烈打擊很快到來

      史政先鋒
      2026-03-03 11:13:31
      伊朗稱霍爾木茲海峽已關閉 將打擊所有試圖通過的船只

      伊朗稱霍爾木茲海峽已關閉 將打擊所有試圖通過的船只

      財聯社
      2026-03-03 04:20:36
      還要什么歸化,這才是男籃2028奧運周期最強陣容

      還要什么歸化,這才是男籃2028奧運周期最強陣容

      男足的小球童
      2026-02-28 18:17:21
      中央司令部重磅發聲:斬斷毒蛇頭顱!伊朗革命衛隊總部被徹底摧毀

      中央司令部重磅發聲:斬斷毒蛇頭顱!伊朗革命衛隊總部被徹底摧毀

      老馬拉車莫少裝
      2026-03-02 13:18:02
      坐不住了!絕情臭豆腐老板道歉了,賠償8.5個月工資,捐了近3萬!

      坐不住了!絕情臭豆腐老板道歉了,賠償8.5個月工資,捐了近3萬!

      離離言幾許
      2026-03-01 23:23:49
      當今世界,哪些國家是世仇

      當今世界,哪些國家是世仇

      王鶔吃吃喝喝
      2026-02-09 19:35:59
      2026-03-03 13:07:00
      未盡研究 incentive-icons
      未盡研究
      新能源、人工智能、合成生物、地緣X
      319文章數 62關注度
      往期回顧 全部

      科技要聞

      手機AI在MWC上卷出了新高度

      頭條要聞

      美國三架F-15E被擊落 美軍聲明中有個非常奇怪的地方

      頭條要聞

      美國三架F-15E被擊落 美軍聲明中有個非常奇怪的地方

      體育要聞

      35輪后積分-7,他們遭遇史上最早的降級

      娛樂要聞

      謝娜霸氣護夫:喊話薛之謙給張杰道歉

      財經要聞

      霍爾木茲海峽近乎停擺 布油直逼80美元

      汽車要聞

      長安汽車2月銷量151922輛 環比逆勢增長12.8%

      態度原創

      房產
      親子
      旅游
      手機
      健康

      房產要聞

      方案突然曝光!海口北師大附校,又有書包大盤殺出!

      親子要聞

      深度長文:它們只能以超光速傳播,完全顛覆人類的三觀!

      旅游要聞

      從“觀燈”到“玩燈” 達州“燈會+”激活夜經濟新動能

      手機要聞

      一加15T新機正面形象公開,采用1.xx mm物理極窄四等邊設計

      轉頭就暈的耳石癥,能開車上班嗎?

      無障礙瀏覽 進入關懷版