<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      科研寫作神器,超越Mathpix的科學公式提取工具已開源

      0
      分享至



      LaTeX公式的光學字符識別(OCR)是科學文獻數字化與智能處理的基礎環節,盡管該領域取得了一定進展,現有方法在真實科學文獻處理時仍面臨諸多挑戰:

      其一,主流方法及公開數據集多聚焦于結構簡單、符號單一的公式,難以覆蓋多學科、高難度的復雜公式;其二,實際文檔中廣泛存在的多行公式、長公式、分段公式及頁面級復雜排版等情況尚未得到充分關注與處理;其三,大多數方法依賴專用模型,通常需要針對特定任務進行專門設計,難以實現通用性和擴展性。

      針對上述挑戰,DocTron 團隊提出了系統性解決方案。

      首先,針對現有數據集覆蓋面有限、結構單一的問題,構建了涵蓋多學科、多結構的大規模高難度數據集CSFormula,包含行級、段落級和頁面級的復雜排版。

      其次,團隊提出的DocTron-Formula 模型突破了對特定結構建模的依賴,采用通用大模型驅動的復雜公式識別方法,僅需簡單微調即可適配多樣化應用場景。

      最后,相比于最優的定制化公式識別模型,該方法不僅在主流的開源評測中取得了優秀的性能表現,在實際應用中常見的頁面級、段落級復雜排版場景中也取得了顯著優勢,推動了公式識別的應用邊界。



      DocTron 是一個在通用視覺語言模型架構上實現結構化內容解析和理解的開源項目,而無需定制化的模塊開發,覆蓋通用文檔、學科公式、圖表代碼等場景。

      • 論文標題:DocTron-Formula: Generalized Formula Recognition in Complex and Structured Scenarios
      • 論文鏈接:https://arxiv.org/abs/2508.00311
      • Github 鏈接:https://github.com/DocTron-hub/DocTron-Formula
      • 項目開源地址:https://huggingface.co/DocTron

      創新點與技術突破



      (1)高難度多結構數據集構建。研究團隊自主設計高效的數據采集與處理流程,系統性地從高質量學術資源中收集、清洗并整理了大量多學科的復雜公式樣本,構建了 CSFormula 數據集。

      該數據集涵蓋數學、物理、化學等領域,包含行級、段落級和頁面級的復雜排版,更真實地反映了文獻中公式的多樣性與挑戰性,為模型訓練與評測提供了堅實基礎。

      (2)通用大模型驅動的復雜公式識別。研究團隊突破了對結構定制和專用架構的依賴,直接利用 Qwen2.5-VL 等通用大規模多模態預訓練模型,并通過在高難度數據集上的有監督微調實現領域適配。

      實驗結果表明,大模型憑借強大的知識遷移和結構泛化能力,僅需簡單微調即可在復雜場景下取得 SOTA 性能,無需繁瑣的工程設計或人工規則,顯著提升了復雜公式識別的通用性和實用性。

      實驗結果與性能表現



      實驗結果顯示,DocTron-Formula 在各類公開基準測試及自建 LaTeX 公式識別數據集上均表現出色。在編輯距離和 CDM 兩個指標下,不僅超越了現有專業工具 Mathpix,在多個任務上也優于 GPT-4o 和 Gemini-2.5-flash 等主流閉源大模型。

      研究意義與應用前景

      本研究不僅推動了復雜公式識別技術的發展,也為相關領域開辟了新的研究思路:

      • 首次系統構建了覆蓋多學科、多結構的大規模高難度數據集 CSFormula,為復雜公式識別的模型訓練和評測提供了堅實的數據支撐;
      • 驗證了通用大模型(如 Qwen2.5-VL)在復雜公式識別任務中的強大適應性和泛化能力,顯著簡化了模型開發流程,減少了對專用設計和人工規則的依賴;

      在應用層面,DocTron-Formula 有望服務于科學文獻解析、學術知識檢索和教育資源智能化等多元場景,為科研、教育和信息服務等領域的自動化與智能化提供有力支撐。

      結論

      DocTron-Formula推動了學科公式理解在行級、段落級、頁面級復雜排版場景的應用,強調無需定制化的算法模塊,通過高質量數據的構建和通用模型訓練,實現開源評測和現實應用評測的全面提升。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      4000元的迪桑特,被買成了“東北省服”

      4000元的迪桑特,被買成了“東北省服”

      金角財經
      2025-12-18 15:55:50
      孫穎莎還是被點名了!人民日報親自下場點破真相,評論一針見血

      孫穎莎還是被點名了!人民日報親自下場點破真相,評論一針見血

      禾寒敘
      2025-12-18 00:34:32
      遼寧本鋼集團以換成企業特色制服

      遼寧本鋼集團以換成企業特色制服

      花小貓的美食日常
      2025-12-18 10:06:30
      出行注意!上海多個地鐵站點出入口將調整

      出行注意!上海多個地鐵站點出入口將調整

      上觀新聞
      2025-12-18 16:17:08
      2019年,被“港獨”暴徒圍攻,被迫舉槍的光頭警長,后來怎樣了?

      2019年,被“港獨”暴徒圍攻,被迫舉槍的光頭警長,后來怎樣了?

      知鑒明史
      2025-12-18 18:21:51
      來了,AC米蘭!曝7000萬射手已同意加盟!兩大“廢柴”遭火速放逐

      來了,AC米蘭!曝7000萬射手已同意加盟!兩大“廢柴”遭火速放逐

      頭狼追球
      2025-12-18 11:49:31
      不是迷信,2026年的房價,已有4大信號!買房賣房都要做好準備

      不是迷信,2026年的房價,已有4大信號!買房賣房都要做好準備

      愛看劇的阿峰
      2025-12-18 12:13:48
      樂華娛樂創始人杜華發文致謝海南航空,稱自己從泰國飛北京突感呼吸不暢,機組廣播尋醫生為她檢查,航司回應

      樂華娛樂創始人杜華發文致謝海南航空,稱自己從泰國飛北京突感呼吸不暢,機組廣播尋醫生為她檢查,航司回應

      極目新聞
      2025-12-18 13:32:08
      金價:大家要有思想準備,接下去,金價或將復刻20年歷史了!

      金價:大家要有思想準備,接下去,金價或將復刻20年歷史了!

      百態人間
      2025-12-18 16:41:53
      為什么寧可忍著疼痛也不向父母說?看完下面的真實案例你就懂了!

      為什么寧可忍著疼痛也不向父母說?看完下面的真實案例你就懂了!

      夜深愛雜談
      2025-12-18 17:12:31
      我獨居存了500萬,父母問存款我說5萬,父母:哥哥結婚你必須拿錢

      我獨居存了500萬,父母問存款我說5萬,父母:哥哥結婚你必須拿錢

      小月故事
      2025-12-04 18:34:44
      記者:蔣圣龍接受微創穿刺手術,從腎臟部位抽出了6管積液

      記者:蔣圣龍接受微創穿刺手術,從腎臟部位抽出了6管積液

      懂球帝
      2025-12-18 08:17:04
      她靠一部劇吃一輩子,二婚嫁小6歲窮小子,如今丈夫紅到讓人嫉妒

      她靠一部劇吃一輩子,二婚嫁小6歲窮小子,如今丈夫紅到讓人嫉妒

      白面書誏
      2025-12-16 18:30:25
      鄭麗文宣戰賴清德,蔣萬安果斷站隊,朱立倫回應,藍營一人跳反

      鄭麗文宣戰賴清德,蔣萬安果斷站隊,朱立倫回應,藍營一人跳反

      趣文說娛
      2025-12-18 11:35:40
      中國已經提前準備好,開戰之后的第一件事,先廢掉美國的“星鏈”

      中國已經提前準備好,開戰之后的第一件事,先廢掉美國的“星鏈”

      科普100克克
      2025-12-17 01:07:54
      云南體育局出手!徹查亞運三金得主王莉舉報領導!奧運冠軍也力挺

      云南體育局出手!徹查亞運三金得主王莉舉報領導!奧運冠軍也力挺

      禾寒敘
      2025-12-17 18:21:23
      許亞軍也沒想到,何晴留給他的24歲兒子,如今卻成了他的“噩夢”

      許亞軍也沒想到,何晴留給他的24歲兒子,如今卻成了他的“噩夢”

      洲洲影視娛評
      2025-12-17 20:19:07
      恭喜!男乒奧運亞軍官宣結婚:曾打敗王楚欽張本智和,妻子是華裔

      恭喜!男乒奧運亞軍官宣結婚:曾打敗王楚欽張本智和,妻子是華裔

      全言作品
      2025-12-18 14:47:21
      郭碧婷為公公向華強慶77歲生日,5歲女兒出鏡漂亮,被婆婆攬懷里

      郭碧婷為公公向華強慶77歲生日,5歲女兒出鏡漂亮,被婆婆攬懷里

      娛圈小愚
      2025-12-18 10:31:06
      醫學生:不是臨床死于2025,而是整個醫療系統開始崩盤了

      醫學生:不是臨床死于2025,而是整個醫療系統開始崩盤了

      書中自有顏如玉
      2025-12-17 14:12:07
      2025-12-18 19:20:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11950文章數 142512關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽

      頭條要聞

      南京博物院稱受贈5幅畫被鑒定為"假" 捐贈者后人回應

      頭條要聞

      南京博物院稱受贈5幅畫被鑒定為"假" 捐贈者后人回應

      體育要聞

      巴黎首奪世界級冠軍 加冕6冠王比肩巴薩拜仁

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      本地
      時尚
      親子
      教育
      公開課

      本地新聞

      云游安徽|決戰烽火照古今,千秋一脈看宿州

      “棕色大衣”今年冬天又火了,怎么搭都高級時髦

      親子要聞

      聚焦教聯體+協同共育!這場培訓為學前教育高質量發展蓄能

      教育要聞

      線段圖,解決差倍問題!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 天天躁日日躁人妻久久澡| 亚洲国产色婷婷久久99精品91| 国产制服丝袜在线视频| 亚洲精选AV| 乱色熟女综合一区二区三区| 新狼窝色av性久久久久久 | 亚洲色偷拍区另类无码专区| 乱码午夜-极品国产内射| 富婆熟妇熟女二区三区| 平罗县| 国产精品无码dvd在线观看| 亚洲熟妇丰满大屁股熟妇| 成人午夜免费无码视频在线观看| www.com黄色| 亚洲色一区二区| 大伊香蕉精品一区视频在线| 免费看欧美成人a片无码| 蜜臀久久精精品久久久久久噜噜 | 中文人妻熟妇乱又伦精品| 东京热av无码电影一区二区| 日韩欧美一级特黄大片| 天天久久综合| 成年免费视频黄网站zxgk| 伊人成人在线视频免费| 婷婷色综合| 18禁止看的免费污网站| 色婷婷久久久swag精品| 最新精品露脸国产在线| 丁香久久婷婷| 国产成人小视频| 精品久久久久久| 亚洲中文av| 中文字幕熟妇无码专区| 欧美成人aaa片一区国产精品| 全免费A级毛片免费看无码| 67194欧洲女人| 精品人妻一| 日本精品一区二区三区四区| 天堂一区二区三区av| 和田市| 精品国产免费第一区二区三区|