AutoFigure團隊 投稿
量子位 | 公眾號 QbitAI
你是否也經歷過這樣的絕望:
論文截稿在即,面對大段的文字你抓耳撓腮,PPT畫框畫到手抽筋;
嘗試用Nano banana生個圖,顏值拉滿但邏輯全錯,甚至還自帶“克蘇魯”風格的模糊字符;
^好不容易調好了Prompt,結果想改一個小圖標,卻發現AI給你的只是一張無從下手的“死圖”。
這種“審美與邏輯不可兼得、生成與編輯徹底斷層”的痛點,終于要被終結了。
現在,你可以把大段的文字材料直接塞給AutoFigure,西湖大學團隊推出的全新智能體繪圖框架。
![]()
它能夠一鍵讀懂上萬字的論文、書籍、博客,自動化地吐出高質量的學術插圖為你所用。
更重磅的是,其優化版本AutoFigure-Edit實現了從“像素”到“矢量”的跨越:生成的插圖不再是死板的圖片png,而是細節可編輯的SVG文件(現在你可以在PPT里直接編輯了)。
目前,該工作已入選ICLR 2026。代碼、數據集、Web交互界面全部開源,并同步上線了可一鍵使用的在線網站。
![]()
背景:為什么AI以前畫不好科學插圖?
在學術繪圖界,一直存在兩個極端:
1. End-to-end派(如GPT-Image):審美在線,但邏輯經常“蹦迪”,文字更是重災區,充滿了莫名其妙的幻覺字符。
2. Text-to-code派(如TikZ/SVG生成):邏輯倒是嚴密,但視覺效果往往丑得像上個世紀的教科書,缺乏現代論文的高級感。
AutoFigure提出了“推理式渲染”(Reasoned Rendering)范式:將“腦子(邏輯布局)”和“手(美化渲染)”徹底分開。
技術方案:模擬大牛設計師的“三步走”策略
AutoFigure的核心是一個分工明確的多智能體協作系統。
![]()
△AutoFigure架構圖(由AutoFigure生成,未經修改)
第一步:Conceptual Grounding(構建邏輯骨架)
AI讀入你長達萬詞的文字材料,自動提取實體和關系,生成一個粗糙但結構正確的布局(SVG/HTML代碼)
第二步:Critique-and-Refine(Agent閉環迭代)
模擬人類設計師與甲方的反復拉鋸,對圖片布局進行反復修改:
- AI Designer負責根據反饋修改布局。
- AI Critic則負責挑毛病(例如“這里箭頭重疊了”、“布局重心不穩”),直到得到滿意的繪圖質量。
第三步:Aesthetic Rendering & “Erase-and-Correct”
在最終美化階段,AutoFigure首先將布局渲染為一張精美的圖片。隨后,為了解決現在AIGC生圖文字變形的問題,保證圖片中文字的正確性,AutoFigure引入了專門的“擦除-修正”策略:用OCR識別模糊字符,把它們“摳掉”,再重新覆蓋上清晰的矢量文本。
AutoFigure-Edit:把AI生成圖裝進PPT
![]()
△AutoFigure-Edit流程圖(由AutoFigure-Edit生成)
在最新版本AutoFigure-Edit中,西湖大學團隊更進一步,引入了SAM3自動摳圖技術,包括:
- 利用Meta最新的SAM3技術識別圖中的Icon。
- 配合RMBG-2.0自動去除背景。
- 矢量重組:將這些干凈的圖標重新塞進生成的SVG模板中。
最終,你得到的是一個可以在瀏覽器內置編輯器里直接拖拽、改字、換色的動態畫布,能夠按照你的想法對圖片細節進行更改。
![]()
△基于AutoFigure-Edit的在線畫布
![]()
△AutoFigure-Edit渲染過程示例圖
人類實驗結果:66.7%的專家覺得它達到了Camera-ready標準!
為了驗證AutoFigure的效果,團隊構建了全球首個大規模科學插圖基準——FigureBench。
規模宏大:涵蓋3,300高質量文本-圖片對,跨越論文、綜述、技術博客、教科書等四種科學文本。
![]()
△FigureBench數據集介紹
降維打擊:在邏輯清晰度和準確度上,AutoFigure的優勢極大,在教科書類任務中勝率甚至高達97.5%。
![]()
△在FigureBench上的實驗結果
更具說服力的是人類專家盲測:10位論文一作對生成的圖片進行評審,結果顯示66.7%的專家認為AutoFigure生成的圖已經達到了Camera-ready(出版級)標準。
![]()
△人類專家評價結果
接下來,我們看幾個case,直觀感受一下。
由AutoFigure-Edit產生的方法圖:
![]()
由AutoFigure-Edit產生的方法圖:
![]()
由AutoFigure-Edit產生的方法圖:
![]()
方法圖,左側為第一階段PNG形式,右側為最終轉換得到的SVG文件:
![]()
方法圖,左側為第一階段PNG形式,右側為最終轉換得到的SVG文件:
![]()
由AutoFigure-Edit產生的生物機制圖:
![]()
由AutoFigure-Edit產生的材料機制圖:
![]()
由AutoFigure產生的綜述圖:
![]()
由AutoFigure產生的教科書圖:
![]()
項目價值:AI Scientist的“最后一塊拼圖”
插圖不僅是視覺補充,更是復雜科學概念的橋梁。AutoFigure的出現,意味著:
1. 賦能AI科學家:這是AI實現全流程自主研究(從文本到繪圖)的關鍵一步。
2. 不只是架構圖:無論是流程圖、算法流程,還是復雜的教科書示意圖,它都能手到擒來。
本項目提供了可一鍵使用的在線網站。建議各位研究者先收藏,下次ddl前,起碼畫圖應該不會那么倉促了。
GitHub:
https://github.com/ResearAI/AutoFigure-Edit
論文:
https://arxiv.org/abs/2602.03828v1
HuggingFace:
https://huggingface.co/datasets/WestlakeNLP/FigureBench
網站:
https://deepscientist.cc
彩蛋:
所有學者均可免費體驗demo,有期刊投稿需求的朋友不用擔心,Nature風格、Science風格等多樣風格一鍵生成功能也將很快上線。
想要體驗這款“繪圖神器”嗎?點擊上方鏈接即可開始你的創作!
本項目由西湖大學張岳實驗室全面開源。西湖大學自然語言處理實驗室(WestlakeNLP)成立于2018年9月,由張岳教授領導。張岳教授畢業于牛津大學,獲博士學位,現任西湖大學工程學院副院長。他著有劍橋大學出版社出版的《自然語言處理》一書,并擔任過EMNLP 2022等多個頂級NLP會議的程序委員會主席。
本項目核心團隊成員包括翁詣軒*、林圳、朱敏郡、謝秋婕、盧攀忠、孫啟耀等人。實驗室過往成果包括Cycle Researcher、DeepReview、DeepScientist(兩個月刷新三個前沿任務SoTA的人工智能科學家項目)等工作。歡迎感興趣的同學加入到自動化科學發現研究,有意向申請長期實習、博士生、研究助理者可聯系張岳教授郵箱(zhangyue@westlake.edu.cn)。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.