<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek-OCR 發布:1個視覺token,抵得上10個文本token

      0
      分享至

      之前和 OpenAI 的做交流,突然提了一個問題
      文字,是信息壓縮的最好方式嗎?

      當時沒想太多,直到今天
      DeepSeek 開源了 DeepSeek-OCR
      用 10 個視覺 token,表達 100 個文本 token


      github.com/deepseek-ai/DeepSeek-OCR

      我突然意識到:這個問題可能有答案了
      具體對比:

      • ? DeepSeek-OCR 用 100 個 token ,超過了 GOT-OCR2.0 的 256 個 token

      • ? DeepSeek-OCR 用 800 個 token ,超過了 MinerU2.0 的 6000+ token

      • ? 即使壓縮到 20 倍 ,準確率還有 60%

      DeepSeek-OCR在不同壓縮比下的準確率 為什么重要

      現在所有的多模態大模型都面臨一個瓶頸:
      token 消耗太多了

      處理一頁 PDF 就要消耗幾千個 token
      如果你想處理一本書、一份研究報告、一堆財務文檔
      context window 立刻就爆了
      每個 token 都要算錢、消耗顯存、拖慢推理速度

      DeepSeek-OCR 用數據告訴你
      10 倍壓縮,幾乎無損

      信息論視角

      對于這個問題
      Hacker News 上展開了很大的討論


      是當前 Hacker News 上的最火話題

      "為什么這種方法有效?"
      "是不是文本 token 太粒狀了,沒接近理想的熵編碼?"
      "切換到視覺 token 是不是逃脫了'一次一個詞'的限制?"


      Hacker News 評論第一條

      有個回答說的很有意思
      文本 token 本質上是離散的查找表
      你有個小整數(token ID)
      然后查表得到一個向量

      但視覺 token 是連續值向量
      沒有查找表
      直接從圖像編碼成向量

      這意味著什么?
      文本 token 的「token 空間」是有限的
      通常就 10 萬個可能的 token
      每個 token 對應一小段 UTF-8 字節
      而且大多數分詞器不會創建跨越詞邊界的 token

      視覺 token 的「token 空間」要大得多
      它是高維浮點數向量,每個維度都可以取很多值
      所以視覺 token 能傳達更多的 bits per token
      這才是壓縮的關鍵


      圖片

      另一個人補充
      文本 token 是子詞單元
      視覺 token 在語義空間
      語義空間顯然比子詞切片壓縮得多


      免責聲明:我不懂

      還有人從視覺角度解釋
      人類就是通過視覺看文本的
      所以文本必須有適應視覺噪聲的機制
      看起來相似的詞不能出現在相似的上下文
      否則會混淆

      挺有意思的
      文本為了適應視覺識別
      反而在編碼上有些"冗余"
      而視覺 token 直接在語義空間工作
      可以更高效
      所以 10 倍的壓縮比

      從信息論角度看
      其實挺合理的
      DeepSeek-OCR 做的事情
      是把這個直覺量化了
      用實驗數據證明:
      一圖確實勝千言

      當然,我并不是這個領域的,評價不到正確與否,有懂的兄弟,還請評論區指導

      怎么做到的

      DeepSeek 這個東西的核心
      是一個叫 DeepEncoder 的架構
      380M 參數

      這東西的設計很講究
      它由三部分組成
      80M 的 SAM-base + 16 倍的卷積壓縮器 + 300M 的 CLIP-large


      DeepEncoder架構流程圖

      這個設計有兩個關鍵

      第一個關鍵是「低激活」
      大部分 VLM 的視覺編碼器激活值特別大
      InternVL2-76B 的激活參數是 76B
      Qwen2.5-VL-72B 的激活參數是 72B
      DeepSeek-OCR 的解碼器雖然是 3B 參數
      但激活參數只有 570M
      因為它用了 MoE 架構
      每次只激活一部分專家
      這意味著推理時顯存占用小、速度快

      第二個關鍵是「多分辨率統一」
      它設計了 6 種模式
      Tiny 模式的 64 個 token
      Gundam 模式的 800+ 個 token
      你可以根據文檔復雜度選擇
      幻燈片用 Tiny 就夠了
      報紙得用 Gundam

      另外值得一提的是
      DeepSeek-OCR 不只能識別文字
      還能「深度解析」文檔里的圖表、幾何圖形、化學式
      論文里叫這個能力 OCR 2.0
      比如金融報告里的圖表
      它能直接轉成結構化數據
      化學文檔里的結構式
      它能轉成 SMILES 格式


      化學結構,也不在話下

      這對金融、科研、教育領域太關鍵了

      最有想象力的部分

      論文最后有個很酷的設想

      用降低圖像分辨率來模擬人類的記憶遺忘

      這個類比特別有意思
      人類記憶有個特點
      越久遠的事情,記得越模糊
      剛發生的事,記得清清楚楚

      一小時前的事,還很清晰
      一天前的事,開始模糊
      一周前的事,已經很模糊
      一年前的事,幾乎忘光了

      視覺感知也是這樣
      10cm 的東西看得清清楚楚
      20m 的東西幾乎看不清
      DeepSeek-OCR 提出
      可以用分辨率來模擬這種衰減

      DeepSeek-OCR 提出了一個對應關系
      他們把不同的分辨率模式
      對應到人類記憶和視覺感知的清晰度等級
      這個類比是這樣的

      • ? 一小時前的事,還很清晰,對應 Gundam 模式(800+ tokens)

      • ? 一周前的事,已經很模糊,對應 Base 模式(256 tokens)

      • ? 一年前的事,幾乎忘光了,對應 Tiny 模式(64 tokens)

      記憶遺忘機制:時間維度、距離維度、分辨率維度

      最近的對話用高分辨率
      更早的對話逐漸降低分辨率
      這樣既保留了歷史信息
      又控制了 token 數量
      遠期記憶自然「淡化」
      就像人類遺忘一樣

      這個設想論文里說還是早期階段
      但想象空間很大
      如果真的能做到
      就能實現「理論上無限的 context window」

      因為你不需要保持所有信息的高保真度
      只需要讓信息隨時間衰減
      就像人類記憶一樣

      開源和局限

      整個項目采用 MIT 許可證開源
      代碼、模型權重、技術論文全部公開


      GitHub:

      github.com/deepseek-ai/DeepSeek-OCR

      Hugging Face:

      huggingface.co/deepseek-ai/DeepSeek-OCR

      說回來
      這個模型也有局限
      它不是聊天機器人
      因為沒有 SFT 階段
      某些能力需要用特定的 prompt 才能激活

      超過 10 倍的壓縮
      準確率會明顯下降
      記憶遺忘機制還只是設想
      真正驗證它在長上下文場景的效果
      需要更多實驗

      但即使有這些局限
      DeepSeek-OCR 已經證明了一件事
      視覺-文本壓縮這條路是走得通的

      最后

      DeepSeek-OCR 最有價值的地方
      不在于它是一個好用的 OCR 工具
      而在于它用數據驗證了一個假設
      視覺 token 確實可以更高效地表達信息

      現在所有的 VLM 都是幾千個 token 起步
      推理慢、顯存占用大、長文檔處理困難
      如果能把視覺 token 壓縮 10 倍還幾乎無損
      整個多模態系統的效率都能提升一個量級

      記憶遺忘機制的設想也很有意思
      人類會遺忘
      不是因為大腦容量不夠
      而是因為遺忘本身是一種優化策略

      你不需要記住所有細節
      只需要記住重要的、近期的信息
      如果這條路真的走通了
      可能會改變我們對長上下文問題的理解
      不是無限擴大 context window
      而是讓信息自然衰減
      就像人類記憶一樣

      回到開頭 OpenAI 朋友的那個問題
      文字,是信息壓縮的最好方式嗎?
      DeepSeek-OCR 用數據給出了答案

      而且,它是開源的
      任何人都可以用、可以改進、可以基于它做研究

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      有哪一瞬間對女朋友徹底失望了?網友:那時,心真的涼透了!

      有哪一瞬間對女朋友徹底失望了?網友:那時,心真的涼透了!

      夜深愛雜談
      2025-12-24 17:21:24
      闞清子女兒出事的內幕!

      闞清子女兒出事的內幕!

      八卦瘋叔
      2025-12-25 10:34:06
      全國人大代表呼吁延長春節假期,鄭柵潔:積極推動并減少調休

      全國人大代表呼吁延長春節假期,鄭柵潔:積極推動并減少調休

      南方都市報
      2025-12-25 16:10:08
      央視郎永淳談飯圈:陳夢是所有奧運冠軍中,唯一承受這么大壓力的

      央視郎永淳談飯圈:陳夢是所有奧運冠軍中,唯一承受這么大壓力的

      丁丁鯉史紀
      2025-12-25 16:11:38
      從2萬+到4千!廣州這些業主懵了……

      從2萬+到4千!廣州這些業主懵了……

      樓市滅霸
      2025-12-25 12:18:43
      “荒唐”的事一直在發生,真是太諷刺了!

      “荒唐”的事一直在發生,真是太諷刺了!

      高三倒計時
      2025-12-24 15:21:26
      佛山一高中門口堆滿外賣,工作人員喊“全部銷毀”,校方回應

      佛山一高中門口堆滿外賣,工作人員喊“全部銷毀”,校方回應

      特特農村生活
      2025-12-25 16:25:19
      湖南高速現3公里“震動帶”!車主吐槽結石都顛掉,當地回應了!

      湖南高速現3公里“震動帶”!車主吐槽結石都顛掉,當地回應了!

      眼光很亮
      2025-12-25 18:46:03
      最好色的星座女,有你嗎?

      最好色的星座女,有你嗎?

      同道大叔
      2025-12-25 22:27:19
      世界上壽命最長的王朝,已延續2685年,現任沒兒子只能傳位親弟弟

      世界上壽命最長的王朝,已延續2685年,現任沒兒子只能傳位親弟弟

      毒舌小紅帽
      2025-12-25 18:49:47
      羅杰斯預言:明年爆“史上最慘烈”金融危機

      羅杰斯預言:明年爆“史上最慘烈”金融危機

      星島記事
      2025-12-25 21:27:17
      《復聯5》82秒預告引爆全球,英雄再見,漫威你還我十四年!

      《復聯5》82秒預告引爆全球,英雄再見,漫威你還我十四年!

      八卦南風
      2025-12-24 18:08:19
      上海足協官宣!水慶霞離任,執教不足半年,全運會排名第四

      上海足協官宣!水慶霞離任,執教不足半年,全運會排名第四

      奧拜爾
      2025-12-25 19:58:57
      別了,皇馬!1.5億“超巨”正式獲準離隊!欽點法鷹射手+頂級中衛

      別了,皇馬!1.5億“超巨”正式獲準離隊!欽點法鷹射手+頂級中衛

      頭狼追球
      2025-12-25 10:48:39
      激光器供不應求:美國光芯片龍頭Lumentum股價屢創歷史新高

      激光器供不應求:美國光芯片龍頭Lumentum股價屢創歷史新高

      C114
      2025-12-25 15:00:09
      22歲小伙深夜在河邊喝酒落水溺亡,家屬起訴共飲者和河流管理段單位索賠37萬!判了

      22歲小伙深夜在河邊喝酒落水溺亡,家屬起訴共飲者和河流管理段單位索賠37萬!判了

      紅星新聞
      2025-12-25 19:06:18
      胖東來賣喬丹親簽球衣,售價13.8萬元,回應:保真

      胖東來賣喬丹親簽球衣,售價13.8萬元,回應:保真

      大象新聞
      2025-12-24 20:41:03
      日本火箭失敗不到48小時,長征十二回收失利,但卻帶來一個好消息

      日本火箭失敗不到48小時,長征十二回收失利,但卻帶來一個好消息

      面包夾知識
      2025-12-23 19:19:11
      嫌等時間長怒扇醫生耳光后續!醫生報警,女子事后耍賴,已被拘留

      嫌等時間長怒扇醫生耳光后續!醫生報警,女子事后耍賴,已被拘留

      鋭娛之樂
      2025-12-25 12:38:14
      43歲迪拜最帥王儲:明明有嫡子,卻帶小妾生的兒子接待馬斯克父子

      43歲迪拜最帥王儲:明明有嫡子,卻帶小妾生的兒子接待馬斯克父子

      毒舌小紅帽
      2025-12-25 18:44:36
      2025-12-26 00:27:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      224文章數 12關注度
      往期回顧 全部

      科技要聞

      小米17Ultra發布,徠卡2億像素 ,6999元起

      頭條要聞

      韓國"最毒"財閥千金被捕 韓國人稱"經過她身邊就會死"

      頭條要聞

      韓國"最毒"財閥千金被捕 韓國人稱"經過她身邊就會死"

      體育要聞

      約基奇有多喜歡馬?

      娛樂要聞

      朱孝天把阿信好意當球踢!

      財經要聞

      新規來了,年化超24%的小貸被即刻叫停

      汽車要聞

      速來!智界在上海西岸準備了年末潮流盛典

      態度原創

      教育
      游戲
      手機
      家居
      旅游

      教育要聞

      雞娃的盡頭是街道辦?!東西海朝等5區公示錄取名單及生源校!

      逆水寒頂流主播沉迷倩女!三界的魅力藏不住了

      手機要聞

      行業唯一徠卡2億像素連續光變長焦!小米17 Ultra星空綠圖賞

      家居要聞

      經典彌新 品味浪漫居所

      旅游要聞

      仙游發布預警!有霜凍...

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 伊人久久精品久久亚洲一区| 日本欧美大码a在线观看| 色综合天天综合网天天狠天天| 亚洲国产精品羞羞| 老色鬼在线精品视频在线观看| 国产成人毛片在线视频| JIZZJIZZJIZZ亚洲日本| 人妻丝袜| 性色在线视频精品| 久久久999| 亚洲av免费在线观看| 国产精品美女久久久久久久久| 久久精品无码一区二区三区免费| 日本人妻人人人澡人人爽| 少妇高潮太爽了在线视频| 亚洲色图综合| 狠狠?综合?精品?伊人| 超碰777| 性无码一区二区三区在线观看| 欧洲精品免费一区二区三区| 无码任你躁久久久久久久| 亚洲一本网| 国产精品99精品久久免费| 一本色道久久综合亚洲精品| 国内精品久久人妻互换| 中文字幕亚洲天堂| 在线观看国产午夜福利片| 95在线一区| 崇文区| 另类无码| 久久香蕉欧美精品| 高清无码18| 中文字幕日韩有码| 影音先锋成人在线| 一本色道婷婷久久欧美| 国产成人精品1024免费下载| 97精品人妻系列无码人妻| 国产二区三区不卡免费| 日日噜噜夜夜狠狠视频| 妇女bbbb插插插视频| 尹人香蕉久久99天天拍|