![]()
這項由威斯康星大學麥迪遜分校的劉卓明和亞馬遜AGI團隊聯合進行的研究發表于2025年12月,研究編號為arXiv:2512.07186v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。
在日常生活中,我們經常會遇到各種圖表——股票走勢圖、天氣變化曲線、公司財務報表等等。對于人類而言,理解這些圖表是件很自然的事情,我們既能看出圖表的空間布局(比如標題在哪里、圖例在什么位置),也能理解其中蘊含的數據信息(比如哪條線代表什么趨勢)。然而,對于人工智能來說,這卻是一個相當復雜的挑戰。
目前的多模態大型語言模型就像一個初學者,雖然能夠處理文字和圖像,但在面對圖表時往往會"看不準"。它們可能會把子圖的位置搞錯,或者無法準確定位圖例的具體位置。即使是目前最先進的AI模型,在理解圖表的細節方面仍然存在明顯的不足。
為了解決這個問題,研究團隊提出了一個名為START的創新框架。START這個名字來源于"Spatial and Textual learning for chART understanding",意思是通過空間和文本學習來理解圖表。這個框架的核心思想非常巧妙——既然圖表有兩個重要特性(空間布局和數據內容),那么就應該同時訓練AI理解這兩個方面。
研究團隊發現,傳統的AI訓練方法往往忽視了圖表的這種雙重特性。他們認為,要讓AI真正理解圖表,就必須讓它學會兩樣本領:一是能夠準確定位圖表中各種元素的位置(空間學習),二是能夠理解圖表背后的數據代碼(文本學習)。這就像教一個人讀地圖,既要讓他知道各個地標在哪里,也要讓他理解地圖符號代表的含義。
為了實現這個目標,研究團隊設計了兩個專門的學習任務。第一個任務叫做"圖表元素定位",就像教AI玩"找不同"游戲一樣,讓它學會精確定位圖表中的各種元素,比如標題、圖例、坐標軸等等。第二個任務叫做"圖表轉代碼",就像教AI學會"逆向工程",讓它能夠從圖表推斷出生成這個圖表的Python代碼,從而深入理解圖表的數據結構。
為了支持這種訓練方式,研究團隊還創建了一個特殊的數據集,叫做START-Dataset。這個數據集的制作過程非常巧妙——研究人員首先使用強大的多模態模型將真實的圖表轉換成Python代碼,然后用大語言模型對這些代碼進行改進,讓它們能夠自動識別圖表元素的位置。這種方法既保持了真實世界圖表的復雜性和多樣性,又提供了訓練AI所需的精確標注信息。
此外,研究團隊還設計了一個專門的評估基準,叫做CS-Bench(Chart Spatial understanding Benchmark)。這個基準專門用來測試AI對圖表空間結構的理解能力,填補了現有評估體系的空白。就像考試有不同科目一樣,這個基準包含兩種類型的問題:直接定位題(要求AI找到特定元素的位置)和問答定位題(先回答關于圖表的問題,再定位相關元素)。
研究團隊的實驗結果非常令人鼓舞。在多個標準測試中,START框架都表現出了顯著的優勢。特別是在圖表推理、代碼生成和空間理解方面,START模型的表現遠超之前的最佳方法。比如在ChartMimic測試中,START的表現提升了42.7個百分點,這是一個相當驚人的提升幅度。
一、圖表理解的雙重挑戰
當我們打開一份科研論文或商業報告時,往往會看到各種復雜的圖表。這些圖表不僅僅是簡單的圖像,它們承載著豐富的信息,既有視覺上的空間布局,也有深層的數據含義。研究團隊意識到,要讓AI真正理解圖表,必須同時掌握這兩個層面的信息。
空間理解就像是學會"讀圖"的基本功。當我們看到一個包含多個子圖的復雜圖表時,我們能夠迅速識別出哪一塊區域是主圖,哪里是圖例,坐標軸的標簽在什么位置。這種能力對于準確回答關于圖表的問題至關重要。比如,如果有人問"在子圖(b)中,哪個條件顯示出更大的分散性?",AI必須首先準確找到子圖(b)的位置,然后才能分析其中的數據分布。
文本理解則涉及對圖表背后數據邏輯的深度把握。每個圖表都可以用代碼來生成,這些代碼包含了數據的組織方式、繪圖的參數設置、色彩的選擇等等。通過學習這些代碼,AI能夠更好地理解圖表的構成原理,就像廚師通過學習食譜來理解菜品的制作過程一樣。
目前的AI模型在處理圖表時經常會出現各種錯誤。比如在回答關于特定子圖的問題時,它們可能會錯誤地定位到其他子圖,或者無法準確識別圖例的位置。這些錯誤的根源在于現有模型缺乏對圖表空間結構的深度理解。
研究團隊通過大量實驗發現,傳統的訓練方法往往將圖表當作普通圖像來處理,忽略了圖表獨特的雙重屬性。這就像用處理風景照片的方法來處理建筑圖紙一樣,雖然都是圖像,但需要完全不同的理解方式。
二、START框架的核心創新
START框架的核心思想是同時訓練AI的空間感知能力和文本理解能力。這種雙重訓練就像教一個學生同時學會看地圖和讀說明書,兩種技能相輔相成,共同提升對復雜信息的理解能力。
在空間學習方面,研究團隊設計了"圖表元素定位"任務。這個任務要求AI能夠精確識別圖表中各種元素的位置,包括標題、圖例、子圖、坐標軸標簽等等。訓練過程就像玩一個高精度的"找東西"游戲,AI需要給出每個元素的精確坐標范圍。這種訓練讓AI學會了像人類一樣"掃描"圖表,快速定位關鍵信息。
在文本學習方面,研究團隊引入了"圖表轉代碼"任務。這個任務要求AI能夠從圖表推斷出生成該圖表的Python代碼。這種能力非常有價值,因為代碼包含了圖表的完整構造信息,包括數據結構、繪圖參數、樣式設置等等。通過學習這種轉換能力,AI能夠深入理解圖表的內在邏輯。
這兩種學習方式并不是孤立的,而是相互促進的。空間學習幫助AI更好地理解圖表的布局結構,而文本學習則讓AI掌握圖表的生成原理。兩者結合起來,就像給AI裝上了"透視眼",既能看到表面的布局,也能理解深層的邏輯。
研究團隊在訓練過程中同時使用了監督學習和強化學習兩種方法。監督學習就像傳統的課堂教學,給AI提供標準答案讓它學習。強化學習則像是實踐訓練,通過獎勵機制讓AI在試錯中不斷改進。這種雙重訓練策略確保了AI既能學到理論知識,也能提高實踐能力。
特別值得注意的是,研究團隊還引入了"思考-回答"的訓練模式。這種模式要求AI在給出最終答案之前先進行思考推理,就像人類在解決復雜問題時會先分析情況再得出結論一樣。這種訓練方式顯著提升了AI在復雜圖表理解任務中的表現。
三、創新數據集的巧妙設計
為了支持START框架的訓練,研究團隊創建了一個獨特的數據集。這個數據集的設計理念非常巧妙,既要保持真實世界圖表的復雜性和多樣性,又要提供訓練AI所需的精確標注信息。
傳統的圖表數據集通常分為兩類:一類是基于模板生成的合成圖表,另一類是從網絡收集的真實圖表。合成圖表雖然標注精確,但往往過于簡單,缺乏真實世界的復雜性。真實圖表雖然復雜多樣,但缺乏AI訓練所需的詳細標注信息,特別是元素位置和生成代碼。
研究團隊采用了一種創新的"真實圖表逆向工程"方法。他們首先使用強大的多模態模型將真實圖表轉換成Python代碼,這個過程就像是"破解"圖表的生成秘密。然后,他們使用這些代碼重新生成圖表,確保生成的圖表與原始圖表高度相似。
接下來是最巧妙的部分——元素位置的自動標注。研究團隊開發了一種基于代碼演化的方法,讓大語言模型對生成圖表的代碼進行改進,使其能夠自動記錄各個圖表元素的精確位置。這就像給繪圖程序添加了一個"記錄員",在繪制圖表的同時自動記錄每個元素的坐標信息。
這種方法的優勢在于,它既保持了真實圖表的視覺復雜性,又提供了AI訓練所需的精確標注。生成的數據集包含了33,067張圖表,覆蓋了線圖、散點圖、熱圖等多種類型,其中34%是單子圖,49%包含2-4個子圖,17%包含4個以上子圖。這種分布更接近真實世界的圖表使用情況。
數據集還包含了370,580個問答對,涵蓋了全局推理和局部推理兩種類型。全局推理問題需要綜合分析整個圖表,而局部推理問題則專注于特定區域或元素。此外,還包含了32,903個元素位置標注,覆蓋了標題、圖例、子圖等各種圖表組件。
為了確保數據質量,研究團隊還設計了嚴格的質量控制流程。他們使用強大的AI模型來檢測和過濾不合理的問題或錯誤的答案,確保最終數據集的高質量。這種質量控制就像是多道篩選程序,只有通過所有檢查的數據才能進入最終數據集。
四、CS-Bench評估基準的突破性設計
現有的圖表理解評估基準主要關注問答能力或代碼生成能力,但缺乏對空間理解能力的專門評估。研究團隊意識到這個空白,設計了CS-Bench這個專門的評估基準,用于測試AI對圖表空間結構的理解能力。
CS-Bench包含613張精心選擇的圖表,這些圖表都具有復雜的空間結構,包含多個子圖、豐富的標注信息和多樣的布局方式。與現有基準主要關注單子圖不同,CS-Bench中22.5%的圖表包含單子圖,61.3%包含2-4個子圖,16.2%包含4個以上子圖。這種分布更能反映真實應用場景的復雜性。
評估基準設計了兩種類型的測試問題。第一種是"直接定位問題",要求AI直接找到特定圖表元素的位置,比如"定位第二行第一列的子圖"或"找到圖例的位置"。這類問題測試AI的基本空間感知能力。
第二種是"問答定位問題",這類問題更加復雜,要求AI首先回答關于圖表內容的問題,然后定位問題或答案中提及的圖表元素。比如問題可能是"在子圖(e)中,W=2.0時有多少條曲線的T_30值超過1.3?請給出答案和子圖的位置坐標。"這類問題測試AI的綜合理解能力。
CS-Bench使用了嚴格的評估指標。對于位置定位,它采用了IoU(交并比)指標,只有當AI預測的位置與真實位置的重疊度達到0.3以上時才算正確。這個標準確保了評估的嚴格性,避免了模糊或不準確的定位被認為是正確的。
特別值得注意的是,CS-Bench中的所有問題和標注都經過了人工驗證,確保了評估的公正性和準確性。這種嚴格的質量控制就像是考試中的多重審核,確保每道題目都是公平和準確的。
通過CS-Bench的評估,研究團隊發現現有的最先進AI模型在圖表空間理解方面仍有很大改進空間,而START框架在這個基準上取得了顯著的性能提升,證明了其有效性。
五、實驗驗證與顯著成果
為了驗證START框架的有效性,研究團隊進行了全面的實驗評估。他們選擇了多個權威的圖表理解基準進行測試,包括CharXiv、ChartQA、ChartQAPro、ChartMimic以及他們自己設計的CS-Bench。
實驗結果令人印象深刻。在幾乎所有測試基準上,START框架都取得了顯著的性能提升。以7B參數的模型為例,START-RL版本在CharXiv推理任務上比基礎模型提升了5.3個百分點,在ChartQAPro上提升了4.8個百分點,在ChartMimic上更是取得了21.2個百分點的巨大提升。
最令人矚目的是在CS-Bench上的表現。START-RL-7B模型達到了62.3%的召回率,比基礎模型提升了26個百分點。這個結果清楚地證明了START框架在提升AI空間理解能力方面的顯著效果。
研究團隊還進行了詳細的消融實驗,分別測試了不同組件對整體性能的貢獻。實驗發現,圖表轉代碼任務主要提升了AI對圖表細節的理解能力,在需要精確數據分析的任務中效果明顯。而圖表元素定位任務則主要改善了AI的空間推理能力,在需要精確定位的任務中表現突出。
有趣的是,當同時使用這兩種訓練任務時,它們之間產生了協同效應,整體性能的提升超過了各自貢獻的簡單相加。這說明空間理解和文本理解確實是相互促進的,驗證了START框架設計理念的正確性。
研究團隊還測試了"思考-回答"訓練模式的效果。結果顯示,這種模式在所有任務中都帶來了額外的性能提升,特別是在復雜的推理任務中效果更為明顯。這表明讓AI先思考再回答確實能夠提高其解決復雜問題的能力。
與現有最先進方法的對比顯示,START框架在多個基準上都取得了新的最佳成績。特別值得注意的是,START不僅在他們專門設計的CS-Bench上表現優異,在其他通用圖表理解基準上同樣取得了顯著改進,證明了其廣泛的適用性。
這些實驗結果不僅證明了START框架的技術優越性,也為整個圖表理解領域提供了新的研究方向。通過同時關注空間和文本兩個維度,AI可以獲得更全面、更深入的圖表理解能力。
說到底,這項研究展示了一個重要的觀點:要讓AI真正理解復雜的視覺信息,我們需要同時從多個角度進行訓練。圖表不僅僅是圖像,它們是信息的載體,需要AI具備多層次的理解能力。START框架通過創新的訓練方法和數據集設計,成功地讓AI獲得了這種多維度的理解能力。
這種進步對我們的日常生活具有重要意義。更強大的圖表理解AI可以幫助我們更好地分析數據、理解趨勢、做出決策。無論是金融分析師查看股票圖表,還是科研人員分析實驗數據,或是普通人解讀新聞中的統計圖表,都能從這種技術進步中受益。
當然,這項研究也開啟了更多可能性。未來的AI可能不僅能理解靜態圖表,還能處理動態圖表、交互式圖表,甚至能夠根據用戶需求自動生成定制化的數據可視化。這些應用將進一步改變我們與數據交互的方式,讓復雜的信息變得更加容易理解和使用。
Q&A
Q1:START框架是什么?
A:START是由威斯康星大學麥迪遜分校和亞馬遜AGI團隊開發的圖表理解框架,通過同時訓練AI的空間感知能力和文本理解能力,讓AI能夠像人類一樣既看懂圖表的布局結構,又理解其中的數據含義。
Q2:START框架為什么比傳統方法更有效?
A:傳統方法將圖表當作普通圖像處理,而START認識到圖表具有空間布局和數據內容的雙重特性,通過圖表元素定位和圖表轉代碼兩個專門任務進行訓練,讓AI獲得更全面的理解能力。
Q3:START框架的創新數據集有什么特別之處?
A:START-Dataset采用"真實圖表逆向工程"方法,將真實圖表轉換成代碼再重新生成,既保持了真實世界圖表的復雜性,又提供了AI訓練需要的精確標注信息,包含33,067張圖表和370,580個問答對。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.