<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      又一個 OCR 新模型開源了

      0
      分享至

      繼續聊 OCR,不過這次我覺得重點不只是“識別準不準”,而是另一個更容易被忽視、但更影響真實落地的問題:結構到底對不對。

      2026 年 2 月 28 日,FireRedTeam 放出了FireRed-OCR-2B權重;2026 年 3 月 2 日,團隊又把技術報告掛到了 arXiv。看完論文和模型卡之后,我的第一感覺是:這項目不是在拼“再做一個 OCR”,而是在認真解決通用 VLM 做文檔解析時最煩人的老毛病:結構幻覺

      但是說實話,識別一些有難度的表格,它還是差點意思,底座2B,不能要求太高。

      比如下圖是我隨手截取的招股說明書中一張表格

      其中難點:表格無線(不連續)、表頭嵌套、括號、省略號、縮進、空白、繁體字、小字、黑色下劃線,帶換行的合并單元格等各種干擾因素。


      表格后半部分的識別就完全垮掉了


      還有一個我的專用測試圖(這張圖難點很多)


      就單說表格部分也算還行吧,跟 DeepSeek、GLM、混元、Paddle 這幾個 OCR 還是有點差距的。


      簡介

      一句話講清楚:FireRed-OCR 是一個把通用視覺語言模型,專門訓成結構化文檔解析專家的框架。

      它的底座是Qwen/Qwen3-VL-2B-Instruct

      但它做出來的結果很夸張:

      • OmniDocBench v1.5上拿到92.94

      • 在端到端路線里排第一

      • 超過了DeepSeek-OCR 2(91.09)OCRVerse(88.56)

      • 相比原始底座Qwen3-VL-2B(81.87),直接拉開了一個明顯身位

      這里我要專門說一句,別被標題黨帶偏了。FireRed-OCR 不是當前 OmniDocBench 全榜第一。論文和模型卡里給出的數據很清楚:如果把 pipeline 方案也算進來,GLM-OCR是 94.60,PaddleOCR-VL-1.5是 94.50。FireRed-OCR 真正厲害的地方,是它在end-to-end路線里做到第一,而且只用了一個 2B 級別底座。

      現在 OCR 賽道最有意思的事,不再是“誰能看懂文檔”,而是“誰能在小模型、端到端、結構穩定這三個約束下,把結果做漂亮”。

      FireRed-OCR 到底想解決什么

      如果你這兩年用過通用多模態模型做 PDF 轉 Markdown,大概率都有過類似體驗:

      • 文字識別得八九不離十

      • 一到表格就開始錯行錯列

      • 一到公式就開始漏括號、少花括號

      • 一到復雜排版,閱讀順序直接亂掉

      這就是論文里說的Structural Hallucination

      通俗點說,模型“看懂了個大概”,但它生成出來的不是一個可以直接拿去用的結構化結果。對于聊天演示,這可能問題不大;但對 RAG、知識庫清洗、PDF 轉 Markdown、財報解析、論文數據抽取這些真實場景來說,這問題很致命。

      FireRed-OCR 的思路我很喜歡,它不是繼續讓模型“憑感覺寫”,而是把方向從“印象派生成”往“結構工程”上硬拉。

      下圖就是官方給出的基準測試結果,FireRed-OCR 在端到端方案里確實很能打:


      FireRed-OCR 在 OmniDocBench v1.5 上的性能對比 它做對了哪三件事

      我把論文和模型卡里的技術路線壓縮一下,最值得看的其實就三件事。

      第一件事,是數據工廠不是亂采樣。

      論文里提了一個很重要的設計:Geometry + Semantics Data Factory

      什么意思?以前很多 OCR 數據構建思路,更多是“多收點數據,多做點增強”。FireRed-OCR 不是這么干的。它強調幾何特征聚類和多維標簽,用來合成長尾布局、稀有文檔類型,并且把數據分布盡量做平衡。

      這件事特別關鍵。因為文檔解析真正難的,往往不是普通段落,而是那些稀奇古怪的版式:多欄、嵌套表格、公式和文本混排、圖注交錯、掃描噪聲、非標準閱讀順序。這些東西不靠數據分布設計,光靠模型參數堆,很難真解決。

      第二件事,是訓練流程分三步走。

      FireRed-OCR 不是一把梭微調,而是一個三階段漸進式訓練:

      1. Multi-task Pre-alignment:先做檢測、區域識別、layout-to-markdown 等任務,讓模型建立空間 grounding

      2. Specialized SFT:再用高質量標準化 Markdown 數據做監督微調,把“完整輸出一頁結構化結果”的格式穩定下來

      3. Format-Constrained GRPO:最后上強化學習,用格式約束獎勵去卡公式語法、表格閉合、層級閉合和文本準確性

      這個設計非常像一個成熟工程團隊會做的事。先讓模型“看得準”,再讓模型“寫得穩”,最后讓模型“別犯結構性低級錯誤”。

      第三件事,是它真把“結構約束”當目標函數來優化了。

      這一點我覺得是 FireRed-OCR 最值錢的地方。

      很多模型在 OCR 任務上看起來文字準確率不錯,但一落到 Markdown 或 LaTeX 輸出,結構錯一點,后續鏈路就全廢了。FireRed-OCR 直接用Format-Constrained GRPO去獎勵公式語法正確、表格完整、層級閉合,這就等于把“能不能被程序繼續消費”作為訓練目標,而不是只看表面文本像不像。

      這張圖是官方給出的整體架構:


      FireRed-OCR 三階段訓練架構 實驗結果怎么看

      論文和模型卡里最亮眼的一組數據是:

      • OmniDocBench v1.5:FireRed-OCR-2B =92.94

      • 文字編輯距離 =0.032

      • 公式分數 =91.71

      • 表格TEDS=90.31

      • 表格TEDS_s=93.81

      • 閱讀順序編輯距離 =0.041

      如果只看端到端陣營,這個結果確實很強。

      另外還有一個我很在意的點:FireRedBench。這是更偏“野外復雜文檔”的測試集。FireRed-OCR-2B 在這里拿到74.62,同一個底座Qwen3-VL-2B-Instruct65.58DeepSeek-OCR 261.61

      這說明它不是只會做 benchmark 特化,至少從官方數據看,它在復雜、不標準版式上也有明顯提升。

      當然,真實生產是否穩,還得看后續社區大規模實測。但至少從方法設計到指標結果,這個項目是自洽的。

      安裝

      官方給的安裝方式很直接:

      pip install transformers
      pip install qwen-vl-utils
      git clone https://github.com/FireRedTeam/FireRed-OCR.git
      cd FireRed-OCR

      模型目前托管在 Hugging Face,模型卡標注的 license 是Apache-2.0,底座是Qwen/Qwen3-VL-2B-Instruct

      使用

      官方給的是基于transformers的推理方式,輸入文檔圖像,輸出結構化 Markdown。

      from transformers import Qwen3VLForConditionalGeneration, AutoProcessor
      from conv_for_infer import generate_conv

      model = Qwen3VLForConditionalGeneration.from_pretrained(
      "FireRedTeam/FireRed-OCR",
      torch_dtype=torch.bfloat16,
      device_map="auto",
      )

      processor = AutoProcessor.from_pretrained("FireRedTeam/FireRed-OCR")

      image_path = "./examples/complex_table.png"
      messages = generate_conv(image_path)

      inputs = processor.apply_chat_template(
      messages,
      tokenize=True,
      add_generation_prompt=True,
      return_dict=True,
      return_tensors="pt"
      )
      inputs = inputs.to(model.device)

      generated_ids = model.generate(**inputs, max_new_tokens=8192)
      generated_ids_trimmed = [
      out_ids[len(in_ids):] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)
      ]
      output_text = processor.batch_decode(
      generated_ids_trimmed,
      skip_special_tokens=True,
      clean_up_tokenization_spaces=False
      )
      print(output_text)

      官方還特別提到,如果場景里有多圖或者視頻,建議開flash_attention_2,這樣速度和顯存表現會更好。

      不過這里也順手提個邊界:目前公開材料里,官方主推的還是 transformers 推理示例。如果你打算直接做大規模服務化部署,后續還得繼續看社區有沒有更成熟的 vLLM、SGLang 或 API server 方案。

      我的判斷

      如果你問我,這項目值不值得跟,我的答案是:值得,而且值得重點看它的方法,不只是看它的分數。

      我比較看重它三個判斷:

      • 判斷一:通用 VLM 不是不能做 OCR,但必須專項訓練。

      • 判斷二:OCR 的核心不只是識字,而是結構完整性。

      • 判斷三:小模型也能打,前提是數據工廠和訓練目標設計得足夠狠。

      這其實也解釋了為什么 FireRed-OCR 會讓我眼前一亮。它不是在講一個“參數更大所以更強”的故事,而是在講一個更靠譜的工程故事:把任務定義清楚,把數據分布做對,把獎勵函數卡在真正影響落地的地方。

      當然,它現在也不是完美答案。

      • 從榜單看,它還不是全賽道絕對第一

      • 當前公開版本主要是 2B 權重,生態還在早期

      • 真正上生產,還得看社區對中文文檔、掃描件、票據、財報、超長 PDF 的實測反饋

      但即便如此,我還是覺得這個方向非常對。

      制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      為什么沒有人賣給印度化肥?看看它的騷操作就明白了!

      為什么沒有人賣給印度化肥?看看它的騷操作就明白了!

      步論天下事
      2026-04-18 10:00:20
      大S到死都沒料到!她走后,真心疼玥兒箖箖竟是被她拉黑的前婆婆

      大S到死都沒料到!她走后,真心疼玥兒箖箖竟是被她拉黑的前婆婆

      情感大頭說說
      2026-04-20 15:16:32
      一路狂奔!日本,動手了!

      一路狂奔!日本,動手了!

      大嘴說天下
      2026-04-19 21:50:16
      除周恩來外誰能勝任總理?毛主席點出一人選:當時無人提出異議

      除周恩來外誰能勝任總理?毛主席點出一人選:當時無人提出異議

      歷史點行
      2026-04-18 18:43:53
      多名院士研究發現:吃一把花生,就等于吃了兩勺黃油,真的假的?

      多名院士研究發現:吃一把花生,就等于吃了兩勺黃油,真的假的?

      蜉蝣說
      2026-04-20 10:18:20
      韓國一美女因晨跑健身“走紅”,身材緊致太吸睛,網友:太漂亮了

      韓國一美女因晨跑健身“走紅”,身材緊致太吸睛,網友:太漂亮了

      馬拉松跑步健身
      2026-04-19 06:30:13
      朱亞文妻子曬度假照!素顏皮膚粗糙嘴唇干癟,被老公寵11年超自信

      朱亞文妻子曬度假照!素顏皮膚粗糙嘴唇干癟,被老公寵11年超自信

      八卦王者
      2026-04-20 14:05:01
      普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

      普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

      卷史
      2026-04-19 11:41:35
      2026教師改革:1800萬人的教師的身份都變了

      2026教師改革:1800萬人的教師的身份都變了

      貓叔東山再起
      2026-04-20 09:05:09
      美媒文章:美國再次掉進“武力干預”陷阱

      美媒文章:美國再次掉進“武力干預”陷阱

      參考消息
      2026-04-20 15:27:02
      出大事了,特朗普癡呆已晚期和伊朗開戰,竟是內塔尼亞胡的圈套

      出大事了,特朗普癡呆已晚期和伊朗開戰,竟是內塔尼亞胡的圈套

      章幃戶外
      2026-04-20 16:13:42
      馮提莫杭州古鎮現身被圍觀,網友目測身高1米65,否認她矮

      馮提莫杭州古鎮現身被圍觀,網友目測身高1米65,否認她矮

      絢麗的畫卷
      2026-04-18 22:40:05
      前英超裁判:加布里埃爾得感謝哈蘭德,后者順勢倒下就是紅牌

      前英超裁判:加布里埃爾得感謝哈蘭德,后者順勢倒下就是紅牌

      懂球帝
      2026-04-20 08:00:07
      個子也不矮!文班亞馬父親在場邊和吉諾比利暢聊

      個子也不矮!文班亞馬父親在場邊和吉諾比利暢聊

      懂球帝
      2026-04-20 10:40:10
      蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

      蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

      川渝視覺
      2026-04-17 22:13:14
      日本乒壇內訌:松島輝空當眾炮轟張本智和:你不守時,我特別討厭你!

      日本乒壇內訌:松島輝空當眾炮轟張本智和:你不守時,我特別討厭你!

      最愛乒乓球
      2026-04-20 00:07:44
      文章面館開業4天后,終于有藝人到場!網友:這對比太心酸了

      文章面館開業4天后,終于有藝人到場!網友:這對比太心酸了

      娛小余
      2026-04-19 23:21:33
      城市更新大潮來了!中央定調:20年房齡老房子,2026年起或又吃香

      城市更新大潮來了!中央定調:20年房齡老房子,2026年起或又吃香

      混沌錄
      2026-04-20 16:38:07
      長白山驚現“藏寶洞”,專家估值達萬億,日本得知后要求中國歸還

      長白山驚現“藏寶洞”,專家估值達萬億,日本得知后要求中國歸還

      抽象派大師
      2026-04-20 01:30:41
      伊朗擬出臺霍爾木茲海峽管理法 禁止以色列關聯船只通行

      伊朗擬出臺霍爾木茲海峽管理法 禁止以色列關聯船只通行

      國際在線
      2026-04-20 04:30:19
      2026-04-20 19:56:49
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3337文章數 11137關注度
      往期回顧 全部

      科技要聞

      華為Pura90逆周期定價,4699元起,未漲價

      頭條要聞

      小學生遭多名中小學生施暴搜家 家長以"入室搶劫"報案

      頭條要聞

      小學生遭多名中小學生施暴搜家 家長以"入室搶劫"報案

      體育要聞

      阿森納已拼盡全力,但你早干嘛去了...

      娛樂要聞

      鹿晗生日上熱搜,被關曉彤撕下體面

      財經要聞

      利潤暴跌7成,字節到底在做什么

      汽車要聞

      把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

      態度原創

      親子
      本地
      時尚
      數碼
      公開課

      親子要聞

      上海首家兒童運動醫學中心成立,推行微創優先、醫護康一體化服務

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      今年最流行的衣服竟然是它?高級又氣質!

      數碼要聞

      華為新內存技術來了,Mate X7用戶6月有福

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版