網易首頁 > 網易號 > 正文申請入駐

威斯康星大學麥迪遜分校聯手亞馬遜AGI，讓AI看懂圖表的空間秘密

2025-12-30 23:25:11　來源: 至頂AI實驗室

北京舉報

分享至

這項由威斯康星大學麥迪遜分校的劉卓明和亞馬遜AGI團隊聯合進行的研究發表于2025年12月，研究編號為arXiv:2512.07186v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。

在日常生活中，我們經常會遇到各種圖表——股票走勢圖、天氣變化曲線、公司財務報表等等。對于人類而言，理解這些圖表是件很自然的事情，我們既能看出圖表的空間布局（比如標題在哪里、圖例在什么位置），也能理解其中蘊含的數據信息（比如哪條線代表什么趨勢）。然而，對于人工智能來說，這卻是一個相當復雜的挑戰。

目前的多模態大型語言模型就像一個初學者，雖然能夠處理文字和圖像，但在面對圖表時往往會"看不準"。它們可能會把子圖的位置搞錯，或者無法準確定位圖例的具體位置。即使是目前最先進的AI模型，在理解圖表的細節方面仍然存在明顯的不足。

為了解決這個問題，研究團隊提出了一個名為START的創新框架。START這個名字來源于"Spatial and Textual learning for chART understanding"，意思是通過空間和文本學習來理解圖表。這個框架的核心思想非常巧妙——既然圖表有兩個重要特性（空間布局和數據內容），那么就應該同時訓練AI理解這兩個方面。

研究團隊發現，傳統的AI訓練方法往往忽視了圖表的這種雙重特性。他們認為，要讓AI真正理解圖表，就必須讓它學會兩樣本領：一是能夠準確定位圖表中各種元素的位置（空間學習），二是能夠理解圖表背后的數據代碼（文本學習）。這就像教一個人讀地圖，既要讓他知道各個地標在哪里，也要讓他理解地圖符號代表的含義。

為了實現這個目標，研究團隊設計了兩個專門的學習任務。第一個任務叫做"圖表元素定位"，就像教AI玩"找不同"游戲一樣，讓它學會精確定位圖表中的各種元素，比如標題、圖例、坐標軸等等。第二個任務叫做"圖表轉代碼"，就像教AI學會"逆向工程"，讓它能夠從圖表推斷出生成這個圖表的Python代碼，從而深入理解圖表的數據結構。

為了支持這種訓練方式，研究團隊還創建了一個特殊的數據集，叫做START-Dataset。這個數據集的制作過程非常巧妙——研究人員首先使用強大的多模態模型將真實的圖表轉換成Python代碼，然后用大語言模型對這些代碼進行改進，讓它們能夠自動識別圖表元素的位置。這種方法既保持了真實世界圖表的復雜性和多樣性，又提供了訓練AI所需的精確標注信息。

此外，研究團隊還設計了一個專門的評估基準，叫做CS-Bench（Chart Spatial understanding Benchmark）。這個基準專門用來測試AI對圖表空間結構的理解能力，填補了現有評估體系的空白。就像考試有不同科目一樣，這個基準包含兩種類型的問題：直接定位題（要求AI找到特定元素的位置）和問答定位題（先回答關于圖表的問題，再定位相關元素）。

研究團隊的實驗結果非常令人鼓舞。在多個標準測試中，START框架都表現出了顯著的優勢。特別是在圖表推理、代碼生成和空間理解方面，START模型的表現遠超之前的最佳方法。比如在ChartMimic測試中，START的表現提升了42.7個百分點，這是一個相當驚人的提升幅度。

一、圖表理解的雙重挑戰

當我們打開一份科研論文或商業報告時，往往會看到各種復雜的圖表。這些圖表不僅僅是簡單的圖像，它們承載著豐富的信息，既有視覺上的空間布局，也有深層的數據含義。研究團隊意識到，要讓AI真正理解圖表，必須同時掌握這兩個層面的信息。

空間理解就像是學會"讀圖"的基本功。當我們看到一個包含多個子圖的復雜圖表時，我們能夠迅速識別出哪一塊區域是主圖，哪里是圖例，坐標軸的標簽在什么位置。這種能力對于準確回答關于圖表的問題至關重要。比如，如果有人問"在子圖(b)中，哪個條件顯示出更大的分散性？"，AI必須首先準確找到子圖(b)的位置，然后才能分析其中的數據分布。

文本理解則涉及對圖表背后數據邏輯的深度把握。每個圖表都可以用代碼來生成，這些代碼包含了數據的組織方式、繪圖的參數設置、色彩的選擇等等。通過學習這些代碼，AI能夠更好地理解圖表的構成原理，就像廚師通過學習食譜來理解菜品的制作過程一樣。

目前的AI模型在處理圖表時經常會出現各種錯誤。比如在回答關于特定子圖的問題時，它們可能會錯誤地定位到其他子圖，或者無法準確識別圖例的位置。這些錯誤的根源在于現有模型缺乏對圖表空間結構的深度理解。

研究團隊通過大量實驗發現，傳統的訓練方法往往將圖表當作普通圖像來處理，忽略了圖表獨特的雙重屬性。這就像用處理風景照片的方法來處理建筑圖紙一樣，雖然都是圖像，但需要完全不同的理解方式。

二、START框架的核心創新

START框架的核心思想是同時訓練AI的空間感知能力和文本理解能力。這種雙重訓練就像教一個學生同時學會看地圖和讀說明書，兩種技能相輔相成，共同提升對復雜信息的理解能力。

在空間學習方面，研究團隊設計了"圖表元素定位"任務。這個任務要求AI能夠精確識別圖表中各種元素的位置，包括標題、圖例、子圖、坐標軸標簽等等。訓練過程就像玩一個高精度的"找東西"游戲，AI需要給出每個元素的精確坐標范圍。這種訓練讓AI學會了像人類一樣"掃描"圖表，快速定位關鍵信息。

在文本學習方面，研究團隊引入了"圖表轉代碼"任務。這個任務要求AI能夠從圖表推斷出生成該圖表的Python代碼。這種能力非常有價值，因為代碼包含了圖表的完整構造信息，包括數據結構、繪圖參數、樣式設置等等。通過學習這種轉換能力，AI能夠深入理解圖表的內在邏輯。

這兩種學習方式并不是孤立的，而是相互促進的。空間學習幫助AI更好地理解圖表的布局結構，而文本學習則讓AI掌握圖表的生成原理。兩者結合起來，就像給AI裝上了"透視眼"，既能看到表面的布局，也能理解深層的邏輯。

研究團隊在訓練過程中同時使用了監督學習和強化學習兩種方法。監督學習就像傳統的課堂教學，給AI提供標準答案讓它學習。強化學習則像是實踐訓練，通過獎勵機制讓AI在試錯中不斷改進。這種雙重訓練策略確保了AI既能學到理論知識，也能提高實踐能力。

特別值得注意的是，研究團隊還引入了"思考-回答"的訓練模式。這種模式要求AI在給出最終答案之前先進行思考推理，就像人類在解決復雜問題時會先分析情況再得出結論一樣。這種訓練方式顯著提升了AI在復雜圖表理解任務中的表現。

三、創新數據集的巧妙設計

為了支持START框架的訓練，研究團隊創建了一個獨特的數據集。這個數據集的設計理念非常巧妙，既要保持真實世界圖表的復雜性和多樣性，又要提供訓練AI所需的精確標注信息。

傳統的圖表數據集通常分為兩類：一類是基于模板生成的合成圖表，另一類是從網絡收集的真實圖表。合成圖表雖然標注精確，但往往過于簡單，缺乏真實世界的復雜性。真實圖表雖然復雜多樣，但缺乏AI訓練所需的詳細標注信息，特別是元素位置和生成代碼。

研究團隊采用了一種創新的"真實圖表逆向工程"方法。他們首先使用強大的多模態模型將真實圖表轉換成Python代碼，這個過程就像是"破解"圖表的生成秘密。然后，他們使用這些代碼重新生成圖表，確保生成的圖表與原始圖表高度相似。

接下來是最巧妙的部分——元素位置的自動標注。研究團隊開發了一種基于代碼演化的方法，讓大語言模型對生成圖表的代碼進行改進，使其能夠自動記錄各個圖表元素的精確位置。這就像給繪圖程序添加了一個"記錄員"，在繪制圖表的同時自動記錄每個元素的坐標信息。

這種方法的優勢在于，它既保持了真實圖表的視覺復雜性，又提供了AI訓練所需的精確標注。生成的數據集包含了33,067張圖表，覆蓋了線圖、散點圖、熱圖等多種類型，其中34%是單子圖，49%包含2-4個子圖，17%包含4個以上子圖。這種分布更接近真實世界的圖表使用情況。

數據集還包含了370,580個問答對，涵蓋了全局推理和局部推理兩種類型。全局推理問題需要綜合分析整個圖表，而局部推理問題則專注于特定區域或元素。此外，還包含了32,903個元素位置標注，覆蓋了標題、圖例、子圖等各種圖表組件。

為了確保數據質量，研究團隊還設計了嚴格的質量控制流程。他們使用強大的AI模型來檢測和過濾不合理的問題或錯誤的答案，確保最終數據集的高質量。這種質量控制就像是多道篩選程序，只有通過所有檢查的數據才能進入最終數據集。

四、CS-Bench評估基準的突破性設計

現有的圖表理解評估基準主要關注問答能力或代碼生成能力，但缺乏對空間理解能力的專門評估。研究團隊意識到這個空白，設計了CS-Bench這個專門的評估基準，用于測試AI對圖表空間結構的理解能力。

CS-Bench包含613張精心選擇的圖表，這些圖表都具有復雜的空間結構，包含多個子圖、豐富的標注信息和多樣的布局方式。與現有基準主要關注單子圖不同，CS-Bench中22.5%的圖表包含單子圖，61.3%包含2-4個子圖，16.2%包含4個以上子圖。這種分布更能反映真實應用場景的復雜性。

評估基準設計了兩種類型的測試問題。第一種是"直接定位問題"，要求AI直接找到特定圖表元素的位置，比如"定位第二行第一列的子圖"或"找到圖例的位置"。這類問題測試AI的基本空間感知能力。

第二種是"問答定位問題"，這類問題更加復雜，要求AI首先回答關于圖表內容的問題，然后定位問題或答案中提及的圖表元素。比如問題可能是"在子圖(e)中，W=2.0時有多少條曲線的T_30值超過1.3？請給出答案和子圖的位置坐標。"這類問題測試AI的綜合理解能力。

CS-Bench使用了嚴格的評估指標。對于位置定位，它采用了IoU（交并比）指標，只有當AI預測的位置與真實位置的重疊度達到0.3以上時才算正確。這個標準確保了評估的嚴格性，避免了模糊或不準確的定位被認為是正確的。

特別值得注意的是，CS-Bench中的所有問題和標注都經過了人工驗證，確保了評估的公正性和準確性。這種嚴格的質量控制就像是考試中的多重審核，確保每道題目都是公平和準確的。

通過CS-Bench的評估，研究團隊發現現有的最先進AI模型在圖表空間理解方面仍有很大改進空間，而START框架在這個基準上取得了顯著的性能提升，證明了其有效性。

五、實驗驗證與顯著成果

為了驗證START框架的有效性，研究團隊進行了全面的實驗評估。他們選擇了多個權威的圖表理解基準進行測試，包括CharXiv、ChartQA、ChartQAPro、ChartMimic以及他們自己設計的CS-Bench。

實驗結果令人印象深刻。在幾乎所有測試基準上，START框架都取得了顯著的性能提升。以7B參數的模型為例，START-RL版本在CharXiv推理任務上比基礎模型提升了5.3個百分點，在ChartQAPro上提升了4.8個百分點，在ChartMimic上更是取得了21.2個百分點的巨大提升。

最令人矚目的是在CS-Bench上的表現。START-RL-7B模型達到了62.3%的召回率，比基礎模型提升了26個百分點。這個結果清楚地證明了START框架在提升AI空間理解能力方面的顯著效果。

研究團隊還進行了詳細的消融實驗，分別測試了不同組件對整體性能的貢獻。實驗發現，圖表轉代碼任務主要提升了AI對圖表細節的理解能力，在需要精確數據分析的任務中效果明顯。而圖表元素定位任務則主要改善了AI的空間推理能力，在需要精確定位的任務中表現突出。

有趣的是，當同時使用這兩種訓練任務時，它們之間產生了協同效應，整體性能的提升超過了各自貢獻的簡單相加。這說明空間理解和文本理解確實是相互促進的，驗證了START框架設計理念的正確性。

研究團隊還測試了"思考-回答"訓練模式的效果。結果顯示，這種模式在所有任務中都帶來了額外的性能提升，特別是在復雜的推理任務中效果更為明顯。這表明讓AI先思考再回答確實能夠提高其解決復雜問題的能力。

與現有最先進方法的對比顯示，START框架在多個基準上都取得了新的最佳成績。特別值得注意的是，START不僅在他們專門設計的CS-Bench上表現優異，在其他通用圖表理解基準上同樣取得了顯著改進，證明了其廣泛的適用性。

這些實驗結果不僅證明了START框架的技術優越性，也為整個圖表理解領域提供了新的研究方向。通過同時關注空間和文本兩個維度，AI可以獲得更全面、更深入的圖表理解能力。

說到底，這項研究展示了一個重要的觀點：要讓AI真正理解復雜的視覺信息，我們需要同時從多個角度進行訓練。圖表不僅僅是圖像，它們是信息的載體，需要AI具備多層次的理解能力。START框架通過創新的訓練方法和數據集設計，成功地讓AI獲得了這種多維度的理解能力。

這種進步對我們的日常生活具有重要意義。更強大的圖表理解AI可以幫助我們更好地分析數據、理解趨勢、做出決策。無論是金融分析師查看股票圖表，還是科研人員分析實驗數據，或是普通人解讀新聞中的統計圖表，都能從這種技術進步中受益。

當然，這項研究也開啟了更多可能性。未來的AI可能不僅能理解靜態圖表，還能處理動態圖表、交互式圖表，甚至能夠根據用戶需求自動生成定制化的數據可視化。這些應用將進一步改變我們與數據交互的方式，讓復雜的信息變得更加容易理解和使用。

Q&A

Q1：START框架是什么？

A：START是由威斯康星大學麥迪遜分校和亞馬遜AGI團隊開發的圖表理解框架，通過同時訓練AI的空間感知能力和文本理解能力，讓AI能夠像人類一樣既看懂圖表的布局結構，又理解其中的數據含義。

Q2：START框架為什么比傳統方法更有效？

A：傳統方法將圖表當作普通圖像處理，而START認識到圖表具有空間布局和數據內容的雙重特性，通過圖表元素定位和圖表轉代碼兩個專門任務進行訓練，讓AI獲得更全面的理解能力。

Q3：START框架的創新數據集有什么特別之處？

A：START-Dataset采用"真實圖表逆向工程"方法，將真實圖表轉換成代碼再重新生成，既保持了真實世界圖表的復雜性，又提供了AI訓練需要的精確標注信息，包含33,067張圖表和370,580個問答對。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.