<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek開源OCR-2模型,梁文鋒帶隊探索新架構

      0
      分享至



      出品|搜狐科技

      作者|常博碩

      編輯| 楊 錦

      臨近春節,DeepSeek的更新也越來越頻繁了。

      剛剛,DeepSeek團隊發布了論文《DeepSeek-OCR 2:Visual Causal Flow》,并正式開源了DeepSeek-OCR 2模型。論文三位作者分別是魏浩然、孫耀峰和李宇琨。


      要讀懂這篇文章,首先要知道的一個問題就是:啥是OCR?

      其實,OCR是光學字符識別(Optical Character Recognition)的縮寫,基本思路就是讓計算機能看懂圖像中的文字。比如我們把手機拍攝的發票、合同掃描件、書籍照片等轉換成計算機可以編輯和搜索的文字內容,這就是OCR。

      傳統OCR模型通常遵循掃描式的思路,首先檢測圖像中的文字區域,再一個字一個字或一行一行地識別,這種固定掃描順序就容易忽略文檔的整體結構。但人不是這樣的,我們在閱讀復雜文檔時,通常會先瀏覽標題然后看看段落表格,會有優先級排序,而不是機械地從左上到右下掃過頁面。

      現在的問題是,當文檔結構復雜到一定程度時,AI就不知道先看哪兒了。像學術論文一般是多欄排版,文章中還有公式與正文交錯出現,技術報告中的表格與注釋,報紙版面等等這些都對模型提出了超出傳統OCR的要求。

      所以,DeepSeek新開源的DeepSeek-OCR 2模型其實就是為了讓機器閱讀更像人而設計的。


      提出視覺因果流

      DeepSeek-OCR 2作為新一代視覺語言OCR模型,核心創新在于提出了視覺因果流(Visual Causal Flow)的編碼器架構。

      DeepSeek-OCR 2的整體架構延續了DeepSeek-OCR的“編碼器—解碼器”設計,其中解碼器仍然采用約3B參數的MoE語言模型,編碼器部分則升級為DeepEncoder V2。

      從論文中看,DeepEncoder V2編碼器通過引入語義驅動的順序重排,使AI能夠根據圖片內容的邏輯順序來處理信息,而不再只是按照固定的柵格順序。


      上圖示意了DeepSeek-OCR 2的核心架構。左邊為傳統DeepEncoder,使用CLIP視覺模型,右圖為DeepEncoder V2。新的架構使用了語言模型作為視覺編碼器(LM as Vision Encoder),并在視覺Token序列后附加了因果查詢(learnable query),用于新的閱讀順序排列。

      一個關鍵的點在于,DeepSeek-OCR 2使用了語言模型架構作為視覺編碼器。

      在DeepEncoder V2中,DeepSeek用一個輕量級語言模型(Qwen2-500M)取代了傳統的CLIP ViT。這樣做就可以讓模型在視覺編碼階段本身就具備序列建模和因果推理能力,使得其與后續的語言解碼階段在建模范式上保持一致。

      從架構上看,DeepSeek-OCR 2并未增加視覺token的數量,也沒有引入額外的多模態復雜結構,而是通過注意力掩碼的重新設計,讓“順序”成為可學習的對象。這使得模型在處理表格、公式、多欄排版等場景時,能夠更自然地恢復文檔的邏輯結構。

      注意力掩碼的設計其實十分有意思。在編碼器中,視覺token與一組新增的因果流查詢token被拼接成一個統一序列,但兩者在注意力機制上其實是非對稱的。

      視覺token之間采用雙向注意力,保持與ViT類似的全局建模能力。而查詢token之間采用嚴格的因果注意力,每個query(查詢)只能關注其之前的query,同時,每個查詢token都可以訪問所有視覺token。


      在這種注意力掩碼的作用下,查詢token被迫以序列化方式逐步聚合視覺信息,其內部順序不再由空間坐標決定,而是在訓練過程中,在語義建模目標的驅動下逐步形成更接近人類閱讀邏輯的視覺表示序列。

      這種設計就和人類閱讀文檔的方式高度相似,首先獲取全局結構,隨后在語義理解的引導下,決定接下來該看哪里。


      部分表現優于Gemini

      在OmniDocBench v1.5基準測試中,DeepSeek-OCR 2在整體準確率上達到91.09%,在使用最少視覺token的情況下,較上一代DeepSeek-OCR提升了3.73%。

      在衡量閱讀順序(R-order)的指標編輯距離(Edit Distance)上,DeepSeek-OCR 2從前代的0.085降低到了0.057,證明了新模型不僅識別得更準,結構理解能力也發生了實質變化。

      在和Gemini-3 Pro等閉源強模型的對比中,在均使用約1120個視覺Token的情況下,DeepSeek-OCR2的文檔解析編輯距離(0.100)也優于Gemini-3 Pro(0.115)。

      根據DeepSeek披露的數據,在真實用戶日志與PDF批量處理場景中,DeepSeek-OCR 2的重復輸出率也有了明顯下降。

      相比前代模型,DeepSeek-OCR 2在在線用戶日志圖像中,重復率從6.25%降至4.17%。在PDF數據生產場景中,重復率從3.69%降至2.88%。重復輸出往往源于模型對文檔結構理解不充分,導致內容會被多次誤讀,從結果來看,視覺因果流的引入也有效緩解了這一問題。

      如果放在更宏觀一點的角度,其實DeepSeek-OCR 2還提供了一種新的框架思路,那就是二維視覺理解,是否可以拆解為兩層一維因果推理。在這一框架下,編碼器負責怎么讀內容,解碼器負責如何回答,兩者共同完成對復雜視覺內容的理解。

      這也是DeepSeek在論文最后提出的一個長期方向——原生多模態(Native Multimodality)。如果同一套因果查詢機制可以用于視覺、文本甚至音頻,那么OCR可能只是這一架構的起點,而不是終點。

      正如論文最后所說,雖然光學文本識別,特別是文檔解析,是大語言模型時代最實用的視覺任務之一,但它僅占視覺理解領域的一小部分。

      展望未來,DeepSeek將向著更通用的多模態智能繼續“深度求索”。



      運營編輯 |曹倩審核|孟莎莎




      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      上海曝光特大醫保騙保案,涉案金額超千萬元

      上海曝光特大醫保騙保案,涉案金額超千萬元

      健識局
      2026-02-27 19:38:12
      簽約達成!前快船2米13大中鋒,成功殺回NBA!

      簽約達成!前快船2米13大中鋒,成功殺回NBA!

      鬼魅突破上籃
      2026-02-28 00:19:57
      做藝人沒有藝德!在上海被抓捕的 4 位明星,你們知道都有誰嗎?

      做藝人沒有藝德!在上海被抓捕的 4 位明星,你們知道都有誰嗎?

      她時尚丫
      2026-02-17 21:56:13
      斯文掃地!北大教授爆粗罵漢服:雜種、畜生,矛頭直指未成年孩子

      斯文掃地!北大教授爆粗罵漢服:雜種、畜生,矛頭直指未成年孩子

      趣味萌寵的日常
      2026-02-28 00:21:40
      痛心!江西跑友劉濤去世,僅51歲,生前堅持晨跑,是3家公司老板

      痛心!江西跑友劉濤去世,僅51歲,生前堅持晨跑,是3家公司老板

      離離言幾許
      2026-02-25 10:43:45
      聯合國爆發爭端,凌晨中美大吵一架,美國犯下大錯,局勢已惡化

      聯合國爆發爭端,凌晨中美大吵一架,美國犯下大錯,局勢已惡化

      滄海旅行家
      2026-02-28 00:36:17
      《成何體統》王楚然172,關曉彤172同框秒殺白鹿、趙露思

      《成何體統》王楚然172,關曉彤172同框秒殺白鹿、趙露思

      湘西二當家
      2026-02-25 18:22:09
      免去58歲市公安局副局長職務,同時任命一名新副局長(兼)

      免去58歲市公安局副局長職務,同時任命一名新副局長(兼)

      警界君
      2026-02-27 17:58:10
      恩里克:再戰切爾西?沒復仇情緒;如果比賽有需要我也可以上

      恩里克:再戰切爾西?沒復仇情緒;如果比賽有需要我也可以上

      懂球帝
      2026-02-28 02:21:08
      應急管理部點名“江蘇響水橋梁垮塌事故”:項目實際由“草臺班子”施工,質量難以保證

      應急管理部點名“江蘇響水橋梁垮塌事故”:項目實際由“草臺班子”施工,質量難以保證

      極目新聞
      2026-02-27 17:14:40
      伊朗總統說伊朗無意發展核武器!美國總統特朗普多次稱,美國不允許伊朗擁有核武器

      伊朗總統說伊朗無意發展核武器!美國總統特朗普多次稱,美國不允許伊朗擁有核武器

      每日經濟新聞
      2026-02-27 19:55:21
      奇怪的現象:凡是家里打掃的很干凈的人,都有共同的特點

      奇怪的現象:凡是家里打掃的很干凈的人,都有共同的特點

      木言觀
      2026-02-19 22:58:09
      格拉斯納:去年我們在老特拉福德2-0勝曼聯,留下美好的回憶

      格拉斯納:去年我們在老特拉福德2-0勝曼聯,留下美好的回憶

      懂球帝
      2026-02-28 00:15:12
      林詩棟1-3輸歐洲名將,錯失奪冠良機,何時才能打破男單冠軍荒?

      林詩棟1-3輸歐洲名將,錯失奪冠良機,何時才能打破男單冠軍荒?

      湘楚風云
      2026-01-23 17:29:40
      28日大滿貫:國乒7場外戰,女單有望包攬4強,林詩棟雙線沖冠

      28日大滿貫:國乒7場外戰,女單有望包攬4強,林詩棟雙線沖冠

      老糿尾聲體育解說
      2026-02-28 00:52:42
      我資助的貧困生考上名校后立馬拉黑我,畢業時她才發現自己有多傻

      我資助的貧困生考上名校后立馬拉黑我,畢業時她才發現自己有多傻

      黃小乖的日記
      2026-02-27 20:04:25
      一路走好!2026年春晚才過10天,已有4位名人接連去世,令人唏噓

      一路走好!2026年春晚才過10天,已有4位名人接連去世,令人唏噓

      阿訊說天下
      2026-02-26 11:23:19
      特斯拉中國:大量全新 Model 3/Y 現車上架

      特斯拉中國:大量全新 Model 3/Y 現車上架

      新浪財經
      2026-02-27 22:31:13
      6月1日起全國執行!二次供水不歸物業管,幾十年扯皮終于畫上句號

      6月1日起全國執行!二次供水不歸物業管,幾十年扯皮終于畫上句號

      老特有話說
      2026-02-26 13:32:14
      杜蘭特37歲了,他還能超科比33643的得分紀錄嗎?答案不難猜

      杜蘭特37歲了,他還能超科比33643的得分紀錄嗎?答案不難猜

      大西體育
      2026-02-27 22:30:23
      2026-02-28 02:43:00
      搜狐科技 incentive-icons
      搜狐科技
      搜狐科技官方賬號
      4699文章數 9180關注度
      往期回顧 全部

      科技要聞

      狂攬1100億美元!OpenAI再創融資神話

      頭條要聞

      特朗普警告伊朗:“有時候不得不打”

      頭條要聞

      特朗普警告伊朗:“有時候不得不打”

      體育要聞

      一場必須要贏的比賽,男籃何止擊敗了裁判

      娛樂要聞

      郭晶晶霍啟剛現身香港藝術節盡顯恩愛

      財經要聞

      沈明高提共富建議 百姓持科技股國家兜底

      汽車要聞

      嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

      態度原創

      房產
      旅游
      教育
      數碼
      公開課

      房產要聞

      重磅!海南“十五五”規劃出爐!未來五年,方向定了!

      旅游要聞

      蜜雪冰城主題樂園來了 選址已"出爐"!在河南總部

      教育要聞

      不好意思,我玩電腦AI已經超高段位了!

      數碼要聞

      Omdia:時隔5年,小米去年再度回歸可穿戴設備出貨榜首

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版