<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      阿里巴巴團隊開源,OCR 又來一個高手,第一!

      0
      分享至

      大家好,我是Ai學習的老章

      OCR 我寫過太多了,每隔一段時間就有新模型出來:

      今天這位選手是阿里巴巴團隊開源的Logics-Parsing-v2,在兩個主流 Benchmark 上直接拿了第一:自家的 LogicsDocBench 拿了82.16 分,公開的 OmniDocBench-v1.5 拿了93.23 分,都是目前最高分。


      https://www.modelscope.cn/studios/Alibaba-DT/Logics-Parsing/summary?spm=label.24dbbd5e.0.0.34862eb7aIqtVk 這模型有啥不一樣?

      市面上 OCR 模型一大把,Logics-Parsing-v2 憑啥能打?核心就兩個字:全能

      傳統 OCR 做的事情比較窄——識別文字、提取表格、處理公式。但實際文檔遠比這復雜:報紙那種多欄排版、跨頁表格、豎排文字、手寫內容……這些"臟活累活",大部分模型處理得都不太行。

      Logics-Parsing-v2 在 v1 的基礎上,除了把這些傳統任務做得更好之外,還加了一個全新的能力維度,叫Parsing-2.0——支持解析以下內容:

      • 流程圖 / 思維導圖→ 輸出 Mermaid 格式

      • 樂譜→ 輸出 ABC 記譜法

      • 代碼塊 / 偽代碼→ 結構化提取

      • 化學分子式→ SMILES 格式

      你沒看錯,它能看懂樂譜。這在 OCR 領域算是相當炸裂的能力了。


      Logics-Parsing-v2 能力概覽——從傳統文檔到流程圖、樂譜、代碼全覆蓋 Benchmark 成績單

      先看自家的LogicsDocBench,這是阿里專門建的評測集,900 頁 PDF,覆蓋三大場景:

      場景

      頁數

      包含內容

      STEM 文檔

      218 頁

      物理、數學、工程等十多個學科

      復雜排版

      459 頁

      多欄、跨頁表格、豎排、圖文混排

      Parsing-2.0

      223 頁

      化學式、樂譜、代碼塊、流程圖

      在這個 Benchmark 上,Logics-Parsing-v2 以82.16 分的總分排名第一,遠超其他選手。


      LogicsDocBench 評測結果——Logics-Parsing-v2 全面領先

      再看公開的OmniDocBench-v1.5,這個是業界公認的文檔解析評測標準。Logics-Parsing-v2 拿了93.23 分,同樣是最高分——比 Gemini 2.5 Pro、GPT-5、豆包 1.6 這些閉源大模型都高。


      OmniDocBench-v1.5 評測結果——開源模型首次登頂

      說實話,開源 OCR 模型在 OmniDocBench 上打贏閉源大模型,這還是頭一次。之前我測過不少 OCR 模型,閉源的 Mathpix、doc2x 一直是天花板,現在這個天花板被捅穿了。

      跟其他模型比怎么樣?

      在阿里自建的 Benchmark 上(v1 評測,數值越低越好,TEDS 越高越好):

      幾個值得關注的對比:

      • vs Gemini 2.5 Pro:Logics-Parsing 在英文文本(0.089 vs 0.115)、表格(0.165 vs 0.154 接近)上都有競爭力

      • vs Mathpix:公式識別 Mathpix 還是很強(0.06 vs 0.106),但綜合能力 Logics-Parsing 更好

      • vs MonkeyOCR / GOT-OCR:全面領先,不在一個檔次

      • vs 通用大模型(GPT-5、Qwen2.5VL-72B):專用模型優勢明顯

      一個模型,端到端推理,不需要復雜的 pipeline,直接圖片進、HTML 出。這個思路比傳統的"檢測+識別+后處理"流水線簡潔太多了。

      輸出格式很講究

      Logics-Parsing-v2 輸出的不是純文本,而是結構化 HTML

      每個內容塊都帶有:

      • 類別標簽:段落、表格、圖片、公式等

      • 邊界框坐標:精確到像素級的位置信息

      • OCR 文本:識別出的內容

      對于 Parsing-2.0 的新場景,輸出格式也做了定制:

      • 流程圖 →Mermaid語法(可以直接渲染)

      • 樂譜 →ABC 記譜法(音樂人看得懂)

      • 化學式 →SMILES格式(化學標準表示)

      這意味著你拿到輸出之后,不需要再做什么后處理,直接就能用。

      怎么跑?

      部署很簡單:

      conda create -n logics-parsing-v2 python=3.10
      conda activate logics-parsing-v2
      pip install -r requirements.txt

      下載模型(HuggingFace 或 ModelScope 二選一):

      # HuggingFace
      pip install huggingface_hub
      python download_model_v2.py -t huggingface


      # ModelScope(國內更快)
      pip install modelscope
      python download_model_v2.py -t modelscope

      推理一行搞定:

      python3 inference_v2.py --image_path 你的圖片路徑 --output_path 輸出目錄 --model_path 模型路徑

      基于 Qwen3-VL 架構,對 GPU 有一定要求,但不算離譜。

      實際效果展示

      說了這么多數據,看幾個實際效果:

      扭曲文檔識別——拍照角度歪斜、紙張彎曲,照樣準確識別:


      扭曲文檔識別效果

      STEM 文檔——復雜的數學公式、物理圖表,結構完整保留:


      STEM 文檔解析效果

      代碼塊識別——不只是識別文字,還能保留代碼結構:


      代碼塊識別效果

      流程圖解析——識別流程圖并轉成 Mermaid 代碼,可以直接渲染:


      流程圖解析效果

      樂譜識別——這個真的是第一次在 OCR 模型里見到:


      樂譜識別效果 總結

      Logics-Parsing-v2 給我的感覺就是:OCR 這個賽道,終于有一個模型把"全能"兩個字做到位了

      • 雙 Benchmark 第一:LogicsDocBench 82.16,OmniDocBench-v1.5 93.23

      • Parsing-2.0:流程圖、樂譜、代碼、化學式,傳統 OCR 碰都不碰的東西它全能解

      • 端到端單模型:不需要復雜 pipeline,圖片進 HTML 出

      • 開源免費:代碼和模型全部開放

      如果你在做文檔數字化、論文解析、知識庫構建這類工作,這個模型真的值得試試。

      • GitHub:https://github.com/alibaba/Logics-Parsing

      • HuggingFace 模型:https://huggingface.co/Logics-MLLM/Logics-Parsing-v2

      • 在線 Demo:https://www.modelscope.cn/studios/Alibaba-DT/Logics-Parsing/summary

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      北京機器人半馬賽場現高顏值機器人Coser,現場觀眾爭相合影

      北京機器人半馬賽場現高顏值機器人Coser,現場觀眾爭相合影

      極目新聞
      2026-04-19 11:28:27
      殺害羅大美的兇手余金生被執行死刑!他瘋狂成魔有兩個原因

      殺害羅大美的兇手余金生被執行死刑!他瘋狂成魔有兩個原因

      細品名人
      2026-04-20 07:40:08
      日本突襲!28萬億市場,中國被踢出局,高市早苗亮出3張底牌

      日本突襲!28萬億市場,中國被踢出局,高市早苗亮出3張底牌

      觸摸史跡
      2026-04-20 13:58:05
      超百萬兵力集結,美伊總決戰在即?中國態度已明確,和美奉陪到底

      超百萬兵力集結,美伊總決戰在即?中國態度已明確,和美奉陪到底

      無情有思ss
      2026-04-17 01:20:47
      CBA季后賽突遭變故!北控因違規派主力被判0比20慘敗

      CBA季后賽突遭變故!北控因違規派主力被判0比20慘敗

      kio魚
      2026-04-19 17:20:17
      陳云晚年首次披露:遵義會議上這兩個人死活不同意毛主席,吵得面紅耳赤

      陳云晚年首次披露:遵義會議上這兩個人死活不同意毛主席,吵得面紅耳赤

      老杉說歷史
      2026-03-21 17:38:44
      WTA500斯圖加特站:萊巴金娜再提保時捷,張帥搶車失敗

      WTA500斯圖加特站:萊巴金娜再提保時捷,張帥搶車失敗

      全網球APP
      2026-04-20 11:10:31
      任澤平退款730萬:價值4500萬的恒大花瓶

      任澤平退款730萬:價值4500萬的恒大花瓶

      超先聲
      2026-04-17 16:34:01
      伊朗萬噸大船闖美軍封鎖線,特朗普暴怒!美官員干脆直接點名中國

      伊朗萬噸大船闖美軍封鎖線,特朗普暴怒!美官員干脆直接點名中國

      林子說事
      2026-04-20 13:19:47
      中東,突發大消息!伊朗革命衛隊向油輪開火!伊朗最高領袖發聲

      中東,突發大消息!伊朗革命衛隊向油輪開火!伊朗最高領袖發聲

      證券時報e公司
      2026-04-18 20:38:43
      莫氏雞煲幫工工資曝光,引全網羨慕,老莫透露后續打算,太通透

      莫氏雞煲幫工工資曝光,引全網羨慕,老莫透露后續打算,太通透

      阿萊美食匯
      2026-04-16 16:00:21
      每體:梅西收購科爾內利亞后,俱樂部已開始銷售其周邊產品

      每體:梅西收購科爾內利亞后,俱樂部已開始銷售其周邊產品

      懂球帝
      2026-04-20 12:59:04
      極端情況下,切爾西可能要靠輸給利物浦來獲得歐冠資格

      極端情況下,切爾西可能要靠輸給利物浦來獲得歐冠資格

      懂球帝
      2026-04-20 00:22:46
      萬科跟投員工千人聯合簽名

      萬科跟投員工千人聯合簽名

      地產微資訊
      2026-04-17 16:03:16
      建議中老年人:若不差錢,少吃饅頭和米飯,多吃4種主食,身體棒

      建議中老年人:若不差錢,少吃饅頭和米飯,多吃4種主食,身體棒

      馬蹄燙嘴說美食
      2026-04-20 03:33:58
      美國“密謀兵變”,以色列80年魔咒成真?正在復燃的美國反猶本色

      美國“密謀兵變”,以色列80年魔咒成真?正在復燃的美國反猶本色

      南宗歷史
      2026-04-19 23:11:51
      讓人揪心的事終究來了?央行定調,5月后房產、存款或將迎來調整

      讓人揪心的事終究來了?央行定調,5月后房產、存款或將迎來調整

      復轉這些年
      2026-04-19 23:17:41
      杜鋒展望山西!直指困難,回應胡明軒徐杰身體狀態與拉科加盟話題

      杜鋒展望山西!直指困難,回應胡明軒徐杰身體狀態與拉科加盟話題

      籃球資訊達人
      2026-04-20 13:25:26
      60多歲大爺相親,只要年輕漂亮的,只要夠漂亮,錢還可以再加!

      60多歲大爺相親,只要年輕漂亮的,只要夠漂亮,錢還可以再加!

      哄動一時啊
      2026-04-19 11:42:21
      戴帽子會引發腦梗?醫生含淚勸告:70歲以后,這3件事一定要盯緊

      戴帽子會引發腦梗?醫生含淚勸告:70歲以后,這3件事一定要盯緊

      荷蘭豆愛健康
      2026-04-19 22:24:42
      2026-04-20 14:39:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3335文章數 11137關注度
      往期回顧 全部

      科技要聞

      藍色起源一級火箭完美回收 客戶衛星未入軌

      頭條要聞

      媒體:伊朗剛說不談 美國立即開打

      頭條要聞

      媒體:伊朗剛說不談 美國立即開打

      體育要聞

      七大獎項候選官宣!文班或全票DPOY

      娛樂要聞

      鹿晗生日上熱搜,被關曉彤撕下體面

      財經要聞

      月之暗面IPO迷局

      汽車要聞

      把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

      態度原創

      親子
      家居
      數碼
      本地
      公開課

      親子要聞

      “疑似被鼠藥污染”,國際知名嬰幼兒食品多國下架

      家居要聞

      自然慢調 慢享時光

      數碼要聞

      消息稱谷歌無屏健身手環定名Google Fitbit Air

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版