<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek開源的新東西到底強在哪?我幫你找專家問了問

      0
      分享至



      本周,DeepSeek 新開源的 DeepSeek-OCR 在開源社區的熱度持續發酵。

      人們興奮的點是:它不僅是一款新的光學字符識別模型,還更像是一次對 “ 大模型記憶機制 ” 的重新設計。

      在 DeepSeek-OCR 的架構中,圖像不再只是文字的載體,而是成為一種語義壓縮的中間語言。文字被渲染成圖像后,經由 DeepEncoder 轉換為緊湊的視覺表征;這些視覺 token 既可以通過 DeepSeek 3B-MoE 模型還原為原始文本(這也是標準的 OCR 機制),也可以與其他輸入 token 與 prompt 結合,執行問答、摘要、檢索等復雜任務。

      通俗來說,就是我們可以把大量文字打包壓縮成一張圖片來節省空間,等需要使用的時候再解壓出來,甚至在一部分使用場景中,你甚至不需要解壓,直接用壓縮包就可以達成目的。



      DeepSeek-OCR 模型架構。圖源:
      https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

      即便在 10× 壓縮比的條件下,模型的文本還原精度仍可達 97%。隨著大模型逐漸向越來越復雜的場景嵌入,上下文長度資源遠不夠用甚至越來越不夠用,而基座模型在此參數上升級頗為緩慢的當下,DeepSeek-OCR 的發布瞬間帶來很大的想象空間。

      研究團隊甚至還進一步提出 “ 遺忘機制 ” 的構想,模型可依據信息的 “ 時序遠近 ”,在視覺壓縮階段主動衰減細節,從而實現一種類人記憶式的上下文管理。

      那么,視覺 token 為何能在信息量不損失太多的情況下,比文本 token 少一個數量級?模型記憶能否完全用視覺邏輯來替代?DeepSeek-OCR 是否為解決大模型上下文長度受限的問題提供了一條現實可行的途徑?DeepSeek-OCR 反映了多模態大模型的什么發展趨勢?

      帶著這些問題,知危與 Sand.ai 聯合創始人、首席科學家、《 Swin Transformer 》作者張拯進行了簡單的對話。

      知危:

      同一段輸入,為什么視覺 token 可以比文本 token 的數量少得多,有沒有直觀或本質的解釋?

      張拯:

      有兩種觀點。第一種,視覺是一個 2D 表達,因此可以比 1D 的表達更高效。

      第二種,高效的原因不是視覺 v.s. 文本,而是兩邊采用的 token 表達方式不同:做視覺表達的時候,我們是在一個高維的連續空間中做信息壓縮( 把 image patch 映射為一個高維特征 ),之前 LLM 里常用的 tokenizer( 把文本數據向量化的工具,通俗理解是一種把自然語言翻譯為機器能理解的語言的工具 )則實際上可以被認為是在一個一維空間中做壓縮( 把文本映射為 id )。高維連續空間本來就有更好的表達能力,因此可以用更少的 token 數量來表達更多信息。其實文本也可以做成連續表達,來大幅度減少文本 token,但是目前應該沒有被很廣泛地用到 LLM 里。

      這兩種觀點,我 buy-in 第二種。

      知危:

      DeepSeek-OCR 相比過往的 OCR 模型,除了效率提升方面,還有哪些獨創性?

      張拯:

      我最近沒有特別研究過 OCR 模型的進展,但基于我看過的一些信息,我覺得 DeepSeek-OCR 的技術本身好像并沒有非常特別的部分。但是在觀點上,“ 把視覺作為文本長上下文的壓縮介質 ”,這個 idea 還是很棒的。這個 idea 有路線上的啟發意義,相較于現在的多模態模型,DeepSeek-OCR 會使用兩種不同的 tokenizer 機制,這種路線也許會啟發更好的多模態模型設計方案。

      知危:

      這項技術對于基礎模型上下文長度難以擴展的當下,可以帶來多大的成本效益?對上下文工程的優化有哪些好處?

      張拯:

      理論上最多能拿到 N^2 倍的收益,N 是 Vision Token 相較于 Text Token 的壓縮率。對于上下文工程的優化,最大的好處應該就是不用那么仔細地管理上下文長度了。

      知危:

      DeepSeek 設想的遺忘機制是否過于簡化?忽略了語義的重要性排序?

      張拯:

      這種設想肯定還是很初步的,但是也能腦洞出很多改進的空間,比如語義重要的部分可以渲染成更大的字體?

      知危:

      Andrej Karpathy 認為視覺 token 有潛力可以完全替代文本 token,因為信息壓縮、多模態、可雙向注意力處理、無需 tokenizer 等優勢,您怎么看?

      張拯:

      大部分都同意,但是 “ 可雙向注意力處理 ” 這里有待探討,“ 可雙向注意力處理 ” 很大程度上和 training objective( 訓練目標 )有關。

      另外,如果后面都是處理視覺 token 了,是不是有機會讓模型能在一個 2D 的空間里做思考?從而帶來更高效的推理( 類似 GPT-4o 的 thinking with image )?這個我覺得還是挺有意思的。

      知危:近期 Meta 也提出了一個無需 tokenizer 的模型架構 Byte Latent Transformer ,可以跳過 tokenization ,直接學習原始字節流。結合以上討論和領域現狀,您認為這體現了多模態大模型的哪些發展趨勢?

      張拯:

      宏觀一點來看,不同模態模型的范式還是有機會持續進化的。

      更細節一點的話,我初步想到的有兩個:

      • 現在的多模態大模型的主流做法基本上可以認為在捏合各種不同的模態的模塊,整個訓練 pipeline 其實還是有點復雜( 不優雅 )的。大家肯定希望有更簡單、更統一的方式來處理。類似 DeepSeek-OCR 這樣的工作對我們開發更好的多模態模型范式還是挺有啟發的。
      • 離散表達和連續表達之間的關系,以及是否有更好的組合方式,可能也挺重要的。

      ( 對話全文完 )

      總體來看,DeepSeek-OCR 更多是基于效率上的大幅提升啟發了一個新的路線。

      當模型的 “ 思考空間 ” 從一維文本拓展至二維視覺,思考和推理也可能變得更加高效和簡潔。而在技術層面,則指向當前多模態大模型領域正等待一把 “ 奧卡姆剃刀 ” 簡化模型范式的時刻。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      離譜!校友惡評谷愛凌:她是中國間諜 和中國一樣甘心當世界第二

      離譜!校友惡評谷愛凌:她是中國間諜 和中國一樣甘心當世界第二

      念洲
      2026-02-25 07:47:12
      東部第一出手!NBA買斷市場地震!米德爾頓時隔13年重回底特律

      東部第一出手!NBA買斷市場地震!米德爾頓時隔13年重回底特律

      夜白侃球
      2026-02-25 16:58:17
      “謝娜帶雙胞胎女兒上課”沖上熱搜,本人連發68個感嘆號發文譴責偷拍行為:懇請不要再將鏡頭對準未成年孩子

      “謝娜帶雙胞胎女兒上課”沖上熱搜,本人連發68個感嘆號發文譴責偷拍行為:懇請不要再將鏡頭對準未成年孩子

      觀威海
      2026-02-26 10:06:03
      你遇到過什么“神仙老師”? 網友:那一刻,我覺得他是超人

      你遇到過什么“神仙老師”? 網友:那一刻,我覺得他是超人

      夜深愛雜談
      2026-02-25 21:17:57
      同樣煮餃子,“蓋蓋煮”和“不蓋蓋煮”區別大,難怪煮出來不一樣

      同樣煮餃子,“蓋蓋煮”和“不蓋蓋煮”區別大,難怪煮出來不一樣

      阿龍美食記
      2026-02-23 17:00:18
      紗倉真菜、天使萌、桃乃木香奈、相澤南、水川潤 日美女明星動態

      紗倉真菜、天使萌、桃乃木香奈、相澤南、水川潤 日美女明星動態

      鹿鹿156
      2026-02-26 02:15:43
      春節檔出了海才知道誰牛:票房是《驚蟄》10倍,吳京又給咱長臉了

      春節檔出了海才知道誰牛:票房是《驚蟄》10倍,吳京又給咱長臉了

      娛樂故事
      2026-02-25 18:39:28
      你經歷過道德綁架嗎?網友:事實證明沒有道德就不會被綁架

      你經歷過道德綁架嗎?網友:事實證明沒有道德就不會被綁架

      帶你感受人間冷暖
      2026-02-21 19:12:24
      2月26日人民幣對美元中間價調升93個基點

      2月26日人民幣對美元中間價調升93個基點

      證券時報
      2026-02-26 09:31:04
      新加坡住了一年才敢說:被吹上天的居者有其屋,其實是一地雞毛

      新加坡住了一年才敢說:被吹上天的居者有其屋,其實是一地雞毛

      天下霸奇
      2026-02-24 08:09:25
      30歲女教師進校門前崩潰痛哭,體重驟降十多斤,嚴重時甚至嘔吐,醫生:這是身體在求救

      30歲女教師進校門前崩潰痛哭,體重驟降十多斤,嚴重時甚至嘔吐,醫生:這是身體在求救

      環球網資訊
      2026-02-26 07:15:13
      朝鮮舉行勞動黨九大紀念閱兵式,金正恩:朝軍已為應對任何情況做好準備

      朝鮮舉行勞動黨九大紀念閱兵式,金正恩:朝軍已為應對任何情況做好準備

      界面新聞
      2026-02-26 08:44:58
      【觀察】從2比5到3比0,尤文圖斯距離奇跡只差一步

      【觀察】從2比5到3比0,尤文圖斯距離奇跡只差一步

      體壇周報
      2026-02-26 11:07:14
      240萬轉錯賬戶,浙江女子崩潰:對方欠銀行700萬,還是被執行人,錢一直拿不回來

      240萬轉錯賬戶,浙江女子崩潰:對方欠銀行700萬,還是被執行人,錢一直拿不回來

      犀利辣椒
      2026-01-12 06:40:13
      三孩政策刺激無果后,中央下狠手了!新政策讓3代人拍手叫好

      三孩政策刺激無果后,中央下狠手了!新政策讓3代人拍手叫好

      吃青菜長高
      2026-02-24 20:11:17
      舒淇曬了一大波春節合照

      舒淇曬了一大波春節合照

      小椰的奶奶
      2026-02-26 11:37:00
      鐵人王進喜:曾被毛主席邀請參加國宴,后葬八寶山,其后代如何?

      鐵人王進喜:曾被毛主席邀請參加國宴,后葬八寶山,其后代如何?

      歷史龍元閣
      2026-02-26 08:40:11
      節后門診爆滿,這種“神器”火了!有人用后嘔吐、厭食,醫生緊急提醒

      節后門診爆滿,這種“神器”火了!有人用后嘔吐、厭食,醫生緊急提醒

      環球網資訊
      2026-02-26 07:26:21
      江蘇一家去貝加爾湖旅游:一萬六都花了,卻為省200全家遇難

      江蘇一家去貝加爾湖旅游:一萬六都花了,卻為省200全家遇難

      觀察鑒娛
      2026-02-24 09:48:21
      開年“搶負債”大戰升溫!多家銀行密集推出年終獎專屬理財

      開年“搶負債”大戰升溫!多家銀行密集推出年終獎專屬理財

      南方都市報
      2026-02-25 20:37:10
      2026-02-26 12:24:49
      知危 incentive-icons
      知危
      投資不立危墻之下
      536文章數 1833關注度
      往期回顧 全部

      科技要聞

      單季營收681億凈利429億!英偉達再次炸裂

      頭條要聞

      "霍金與比基尼女性同游照"現愛潑斯坦檔案 曾被"辟謠"

      頭條要聞

      "霍金與比基尼女性同游照"現愛潑斯坦檔案 曾被"辟謠"

      體育要聞

      從排球少女到冰壺女神,她在米蘭冬奧練出6塊腹肌

      娛樂要聞

      尼格買提撒貝寧滑雪被偶遇 17年老友情

      財經要聞

      短劇市場風云突變!有人投百萬賠得精光

      汽車要聞

      第五代宏光MINIEV煥新 四門玩趣代步車來襲

      態度原創

      親子
      數碼
      健康
      房產
      公開課

      親子要聞

      媽媽吃得好,寶寶才健康。孕期關鍵營養清單

      數碼要聞

      博世宣布4月起停用冰箱內置攝像頭功能

      轉頭就暈的耳石癥,能開車上班嗎?

      房產要聞

      2.2萬/m2起!三亞主城性價比標桿 海墾·桃花源實景現房春節被瘋搶

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版