<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek又拿第一!首創「因果流」視覺推理,超越Gemini

      0
      分享至


      來源:新智元

      編輯:定慧 好困

      【導讀】DeepSeek開源DeepSeek-OCR2,引入了全新的DeepEncoder V2視覺編碼器。該架構打破了傳統模型按固定順序(從左上到右下)掃描圖像的限制,轉而模仿人類視覺的「因果流(Causal Flow)」邏輯。

      DeepSeek又雙叒叕更新了!

      這次是DeepSeek-OCR模型的重磅升級:DeepSeek-OCR2


      還記得上一代DeepSeek-OCR嗎?那個用視覺方式壓縮一切的模型。

      這一次,DeepSeek更進一步,對視覺編碼器下手了,提出了一種全新的DeepEncoder V2架構,實現了視覺編碼從「固定掃描」向「語義推理」的范式轉變!


      DeepSeek-OCR2不僅能像人類一樣按邏輯順序閱讀復雜文檔,還在多項基準測試中刷新了SOTA。

      當然,按照DeepSeek的慣例,Paper、Code、Model全開源!


      項目地址:

      https://github.com/deepseek-ai/DeepSeek-OCR-2

      模型下載:

      https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

      論文地址:

      https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

      DeepSeek-OCR2的核心創新在于通過DeepEncoder V2,賦予了模型因果推理能力(Causal Reasoning)。

      這就像是給機器裝上了「人類的閱讀邏輯」,讓AI不再只是死板地從左上到右下掃描圖像,而是能根據內容語義靈活調整閱讀順序。

      DeepSeek-OCR2

      視覺因果流

      DeepSeek在論文中指出,傳統的視覺語言模型(VLM)通常采用光柵掃描(Raster-Scan)順序處理圖像,即固定地從左到右、從上到下。

      這種方式強行將2D圖像拍扁成1D序列,忽略了圖像內部的語義結構。


      這顯然與人類的視覺習慣背道而馳。

      人類在看圖或閱讀文檔時,目光是隨著邏輯流動的:先看標題,再看正文,遇到表格會按列或按行掃視,遇到分欄會自動跳躍。

      為了解決這個問題,DeepSeek-OCR2引入了DeepEncoder V2。

      它最大的特點是用一個輕量級的大語言模型(Qwen2-0.5B)替換了原本的CLIP編碼器,并設計了一種獨特的「因果流查詢」(Causal Flow Query)機制。

      DeepEncoder V2架構詳解

      DeepEncoder V2主要由兩部分組成:

      1. 視覺分詞器(Vision Tokenizer)

      沿用了SAM-base(80M參數)加卷積層的設計,將圖像轉換為視覺Token。


      2. 作為視覺編碼器的LLM

      這里DeepSeek使用了一個Qwen2-0.5B模型。

      它不僅處理視覺Token,還引入了一組可學習的「查詢Token」(Query Tokens)。


      關鍵的創新點在于注意力掩碼(Attention Mask)的設計:


      視覺Token之間采用雙向注意力(Bidirectional Attention),保持全局感知能力,類似于ViT。

      而查詢Token則采用因果注意力(Causal Attention),每一個查詢Token只能看到它之前的Token。

      通過這種設計,DeepEncoder V2實現了兩級級聯的因果推理:

      編碼器通過可學習的查詢對視覺Token進行語義重排,隨后的LLM解碼器則在這個有序序列上進行自回歸推理。

      這意味著,DeepSeek-OCR2在編碼階段就已經把圖像里的信息「理順」了,而不是一股腦地扔給解碼器。

      Token更少,精度更高

      實驗數據顯示,DeepSeek-OCR2在保持極高壓縮率的同時,性能顯著提升。

      在OmniDocBench v1.5基準測試中,DeepSeek-OCR2在使用最少視覺Token(僅256-1120個)的情況下,綜合得分高達91.09%,相比前代提升了3.73%。


      特別值得一提的是,在閱讀順序(R-order)的編輯距離(Edit Distance)指標上,DeepSeek-OCR2從前代的0.085顯著降低到了0.057。

      這直接證明了新模型在處理復雜版面時,邏輯性更強,更懂「閱讀順序」。

      在和Gemini-3 Pro等閉源強模型的對比中,DeepSeek-OCR2也絲毫不落下風。

      在均使用約1120個視覺Token的情況下,DeepSeek-OCR2的文檔解析編輯距離(0.100)優于Gemini-3 Pro(0.115)。



      不僅是刷榜,DeepSeek-OCR2在實際生產環境中也非常能打。

      DeepSeek披露,在處理在線用戶日志圖像時,OCR結果的重復率從6.25%降到了4.17%;在PDF數據生產場景中,重復率從3.69%降到了2.88%。


      這意味著模型生成的文本更加干凈、準確,對于作為LLM訓練數據的清洗流水線來說,價值巨大。

      邁向真正的多模態統一

      DeepSeek在論文最后提到,DeepSeek-OCR2通過DeepEncoder V2驗證了「LLM作為視覺編碼器」的可行性。

      這不僅是一個OCR模型的升級,更是邁向原生多模態(Native Multimodality)的重要一步。

      未來,同一個編碼器只要配備不同的模態查詢嵌入(Query Embeddings),就能處理文本、圖片、音頻等多種模態的數據,真正實現萬物皆可Token,萬物皆可因果推理。

      DeepSeek表示,雖然目前光學文本識別(OCR)是LLM時代最實用的視覺任務之一,但這只是視覺理解宏大圖景的一小部分。

      DeepSeek將繼續探索,向著更通用的多模態智能進發。

      參考資料:

      https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

      閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”

      https://wx.zsxq.com/group/454854145828


      未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      戲子誤國!春節剛過3位明星相繼塌房,事情做絕一個比一個荒唐

      戲子誤國!春節剛過3位明星相繼塌房,事情做絕一個比一個荒唐

      琨玉秋霜
      2026-03-02 06:09:04
      “最慘超女”黃雅莉:沒工作沒積蓄,34歲生子后住5平米的小屋

      “最慘超女”黃雅莉:沒工作沒積蓄,34歲生子后住5平米的小屋

      地理三體說
      2026-01-29 21:40:34
      結婚不到一年,娶了“白月光”的李國慶,口碑徹底反轉了

      結婚不到一年,娶了“白月光”的李國慶,口碑徹底反轉了

      蕭鑟科普解說
      2026-02-26 06:07:11
      這老師真是絕代美人??!

      這老師真是絕代美人?。?/a>

      東方不敗然多多
      2026-03-01 01:09:31
      莫迪想賭一把大的,為了把中國企業釣去印度,畫7500億大餅做魚餌

      莫迪想賭一把大的,為了把中國企業釣去印度,畫7500億大餅做魚餌

      胖福的小木屋
      2026-03-01 22:34:51
      臺積電創辦人張忠謀:如果想扼殺中國大陸,中國大陸真的無能為力

      臺積電創辦人張忠謀:如果想扼殺中國大陸,中國大陸真的無能為力

      混沌錄
      2026-02-27 21:29:05
      重磅發布!“京通”APP要來了

      重磅發布!“京通”APP要來了

      家住昌平
      2026-03-02 21:27:03
      哇塞!交易界的"盲盒"要開啦!倫納德等來全明星后衛...

      哇塞!交易界的"盲盒"要開啦!倫納德等來全明星后衛...

      體育新角度
      2026-03-02 23:12:57
      氫彈威力上不封頂,但核武器有個不成文的規定:扔不到對方頭上去

      氫彈威力上不封頂,但核武器有個不成文的規定:扔不到對方頭上去

      沒有偏旁的常慶
      2026-03-01 07:00:11
      70%用戶表示“失去靈魂”,全新奧迪A6L:實力很強,口碑兩極分化

      70%用戶表示“失去靈魂”,全新奧迪A6L:實力很強,口碑兩極分化

      少數派報告Report
      2026-03-02 11:43:10
      演員李茂已租車開往阿曼,全家將經由阿曼乘機回國

      演員李茂已租車開往阿曼,全家將經由阿曼乘機回國

      三湘都市報
      2026-03-02 20:33:03
      伊朗稱用導彈摧毀阿聯酋“薩德”系統

      伊朗稱用導彈摧毀阿聯酋“薩德”系統

      參考消息
      2026-03-02 11:22:12
      驚!美國設“谷愛凌法案”?!沒收全部財產,背叛美國,必付代價

      驚!美國設“谷愛凌法案”?!沒收全部財產,背叛美國,必付代價

      北國向錫安
      2026-03-02 16:55:11
      明星卸妝后,曾黎臉蠟黃,王子文像老阿姨,看到王一博后我驚呆了

      明星卸妝后,曾黎臉蠟黃,王子文像老阿姨,看到王一博后我驚呆了

      最美的開始
      2026-02-24 19:00:14
      伊朗1200枚導彈復仇,美航母遇襲,三國準備下場,戰爭走向失控?

      伊朗1200枚導彈復仇,美航母遇襲,三國準備下場,戰爭走向失控?

      紓瑤
      2026-03-02 19:11:03
      100%賴賬,這何嘗不是一種極致的誠信!

      100%賴賬,這何嘗不是一種極致的誠信!

      財經保探長
      2026-02-28 10:46:25
      寵妾滅妻、“吸血”親爹,侄女再曝大瓜,楊議徹底活成全網笑話!

      寵妾滅妻、“吸血”親爹,侄女再曝大瓜,楊議徹底活成全網笑話!

      奇怪的鯊魚們
      2026-03-02 06:41:32
      小托馬斯狂言:杜蘭特退役必登歷史得分第二!死神真能封神?

      小托馬斯狂言:杜蘭特退役必登歷史得分第二!死神真能封神?

      林子說事
      2026-03-02 14:41:57
      因加速、倒放宣傳視頻引發爭議 兩家鴻蒙智行用戶中心公開致歉

      因加速、倒放宣傳視頻引發爭議 兩家鴻蒙智行用戶中心公開致歉

      中國能源網
      2026-03-02 11:47:11
      韓媒:韓國前國腳李記帝將與伊朗球隊解約,球員在大使館避難

      韓媒:韓國前國腳李記帝將與伊朗球隊解約,球員在大使館避難

      懂球帝
      2026-03-02 16:49:59
      2026-03-03 00:08:49
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領域權威媒體
      4555文章數 37413關注度
      往期回顧 全部

      科技要聞

      蘋果中國官網上線iPhone 17e,4499元起

      頭條要聞

      媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

      頭條要聞

      媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

      體育要聞

      “想要我簽名嗎” 梅西逆轉后嘲諷對手主帥

      娛樂要聞

      李亞鵬與哥哥和解 只有一條真心話短信

      財經要聞

      油價飆升 美伊沖突將如何攪動全球經濟

      汽車要聞

      國民SUV再添一員 瑞虎7L靜態體驗

      態度原創

      房產
      藝術
      健康
      親子
      教育

      房產要聞

      方案突然曝光!??诒睅煷蟾叫?,又有書包大盤殺出!

      藝術要聞

      簡約的風景畫,美國畫家Ben Bauer作品

      轉頭就暈的耳石癥,能開車上班嗎?

      親子要聞

      45歲這年,我這個二胎媽媽決定做一件“瘋狂”的事

      教育要聞

      特別猛,但在留學生心中存在感很低的英國大學!

      無障礙瀏覽 進入關懷版