普林斯頓大學(xué)發(fā)布Vero:開放式強(qiáng)化學(xué)習(xí)讓AI視覺推理能力全面升級

2026-04-14 20:24:13　來源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由普林斯頓大學(xué)領(lǐng)導(dǎo)的研究發(fā)表于2026年4月的arXiv預(yù)印本（編號arXiv:2604.04917v1），有興趣深入了解的讀者可以通過該編號查詢完整論文。研究團(tuán)隊(duì)構(gòu)建了一套完全開放的訓(xùn)練方法，讓AI在處理圖表、科學(xué)問題、空間理解等各類視覺任務(wù)時(shí)表現(xiàn)得更加出色。

想象一下，現(xiàn)在的AI就像是一個(gè)聰明但經(jīng)驗(yàn)有限的學(xué)生，能夠回答一些問題，但在面對復(fù)雜的視覺推理任務(wù)時(shí)往往表現(xiàn)不佳。比如讓它分析一張復(fù)雜的科學(xué)圖表，或者解決需要空間想象力的幾何題，它可能會顯得力不從心。更重要的是，目前最強(qiáng)大的AI系統(tǒng)都使用著不公開的訓(xùn)練方法和數(shù)據(jù)，就像是秘密配方一樣，其他研究者無法學(xué)習(xí)和改進(jìn)。

普林斯頓大學(xué)的研究團(tuán)隊(duì)決定打破這種局面。他們開發(fā)了一套名為Vero的訓(xùn)練系統(tǒng)，不僅讓AI在各種視覺推理任務(wù)上表現(xiàn)更加出色，更重要的是，他們將整套方法完全公開，包括訓(xùn)練數(shù)據(jù)、代碼和模型。這就像是把一個(gè)頂級廚師的全部食譜、制作過程和食材來源都公布出來，讓所有人都能學(xué)習(xí)和改進(jìn)。

研究團(tuán)隊(duì)的核心發(fā)現(xiàn)令人振奮：通過精心設(shè)計(jì)的強(qiáng)化學(xué)習(xí)訓(xùn)練，AI不僅在單個(gè)任務(wù)上表現(xiàn)優(yōu)異，更能夠在不同類型的視覺推理任務(wù)之間靈活切換。他們的模型在30個(gè)具有挑戰(zhàn)性的測試中平均提升了3.7到5.5分，在某些特定任務(wù)上甚至超越了使用專有數(shù)據(jù)訓(xùn)練的商業(yè)模型。

更令人驚訝的是，研究團(tuán)隊(duì)發(fā)現(xiàn)不同類型的視覺任務(wù)會激發(fā)AI產(chǎn)生完全不同的思維模式。當(dāng)面對數(shù)學(xué)題時(shí)，AI會展現(xiàn)出反復(fù)驗(yàn)證和回溯的思考方式；而在處理圖像搜索任務(wù)時(shí)，它則會采用更加直接和目標(biāo)導(dǎo)向的策略。這種現(xiàn)象表明，真正強(qiáng)大的AI系統(tǒng)需要掌握多樣化的認(rèn)知策略，而不是依賴單一的解題模式。

整個(gè)研究最有價(jià)值的地方在于其開放性。研究團(tuán)隊(duì)構(gòu)建了一個(gè)包含60萬個(gè)訓(xùn)練樣本的數(shù)據(jù)集Vero-600K，覆蓋了從圖表分析到空間推理的六大類視覺任務(wù)。他們還開發(fā)了一套巧妙的獎(jiǎng)勵(lì)機(jī)制，能夠根據(jù)不同任務(wù)類型自動調(diào)整評價(jià)標(biāo)準(zhǔn)，就像是一個(gè)經(jīng)驗(yàn)豐富的老師，知道如何針對不同學(xué)科采用不同的評分方式。

這項(xiàng)研究的意義遠(yuǎn)超技術(shù)層面。在AI發(fā)展越來越依賴大公司閉門造車的今天，普林斯頓大學(xué)選擇完全開源的做法為整個(gè)領(lǐng)域樹立了新的標(biāo)桿。他們證明了透明和開放的研究方法不僅可行，而且能夠產(chǎn)生與商業(yè)系統(tǒng)相媲美甚至更優(yōu)秀的結(jié)果。

一、強(qiáng)化學(xué)習(xí)讓AI學(xué)會像人一樣思考

傳統(tǒng)的AI訓(xùn)練方式就像是讓學(xué)生死記硬背標(biāo)準(zhǔn)答案，雖然在考試中能夠得到不錯(cuò)的分?jǐn)?shù)，但缺乏真正的理解和靈活應(yīng)對的能力。強(qiáng)化學(xué)習(xí)則完全不同，它更像是讓AI通過不斷嘗試和獲得反饋來學(xué)習(xí)，就如同人類學(xué)習(xí)新技能的過程。

在這項(xiàng)研究中，研究團(tuán)隊(duì)采用了一種叫做GSPO的強(qiáng)化學(xué)習(xí)算法。這種算法的工作原理可以用學(xué)開車來類比：當(dāng)新手司機(jī)第一次上路時(shí)，教練不會預(yù)先告訴他們每一個(gè)路口該如何轉(zhuǎn)彎，而是讓他們嘗試駕駛，然后根據(jù)結(jié)果給出反饋。開得好的時(shí)候給予鼓勵(lì)，出現(xiàn)錯(cuò)誤時(shí)指出問題。經(jīng)過反復(fù)練習(xí)，司機(jī)逐漸掌握了在各種復(fù)雜路況下的應(yīng)對策略。

GSPO算法在處理AI訓(xùn)練時(shí)采用了類似的策略。它會讓AI生成多個(gè)不同的回答，然后根據(jù)這些回答的質(zhì)量給出相應(yīng)的獎(jiǎng)勵(lì)分?jǐn)?shù)。與眾不同的是，GSPO不僅關(guān)注最終答案的正確性，還會考慮AI推理過程的合理性。這就像是不僅要求學(xué)生答對題目，還要求他們展示完整的解題思路。

研究團(tuán)隊(duì)在設(shè)計(jì)獎(jiǎng)勵(lì)機(jī)制時(shí)展現(xiàn)了極高的智慧。他們沒有采用一刀切的評分標(biāo)準(zhǔn)，而是針對不同類型的任務(wù)設(shè)計(jì)了專門的評價(jià)方法。比如在處理數(shù)學(xué)題時(shí)，系統(tǒng)會驗(yàn)證計(jì)算過程的正確性；在分析圖表時(shí)，會檢查AI是否準(zhǔn)確提取了關(guān)鍵數(shù)據(jù)；在處理開放性問題時(shí)，甚至?xí)褂昧硪粋€(gè)AI模型作為"評委"來判斷回答質(zhì)量。

這種精細(xì)化的獎(jiǎng)勵(lì)設(shè)計(jì)帶來了顯著的效果。經(jīng)過訓(xùn)練的AI不僅在準(zhǔn)確性上有了大幅提升，更重要的是學(xué)會了根據(jù)任務(wù)類型調(diào)整自己的思考方式。當(dāng)面對需要精確計(jì)算的數(shù)學(xué)問題時(shí)，它會表現(xiàn)得小心謹(jǐn)慎，反復(fù)驗(yàn)證每一步計(jì)算；而在處理需要?jiǎng)?chuàng)造性思維的描述任務(wù)時(shí)，它又能夠展現(xiàn)出豐富的想象力和表達(dá)能力。

研究團(tuán)隊(duì)還發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象：通過強(qiáng)化學(xué)習(xí)訓(xùn)練的AI會自發(fā)地產(chǎn)生一些類似人類的思維習(xí)慣。比如在遇到復(fù)雜問題時(shí)會先制定解題計(jì)劃，在不確定時(shí)會尋找更多證據(jù)，甚至?xí)诎l(fā)現(xiàn)錯(cuò)誤時(shí)主動回溯重新思考。這些行為都沒有被明確地編程進(jìn)去，而是AI在學(xué)習(xí)過程中自然涌現(xiàn)的智能行為。

二、六大任務(wù)類型訓(xùn)練全能型AI

要培養(yǎng)一個(gè)真正全能的AI，就像培養(yǎng)一個(gè)全面發(fā)展的學(xué)生一樣，不能只專注于某一個(gè)學(xué)科，而需要在多個(gè)領(lǐng)域都有所建樹。研究團(tuán)隊(duì)將視覺推理任務(wù)分為六大類別，每一類都代表著不同的認(rèn)知技能。

圖表與文檔理解類任務(wù)考驗(yàn)著AI的信息提取和分析能力。想象一下面對一張復(fù)雜的科學(xué)論文圖表，人類需要先識別圖表類型，理解坐標(biāo)軸的含義，提取關(guān)鍵數(shù)據(jù)點(diǎn)，然后分析數(shù)據(jù)之間的關(guān)系。AI在這類任務(wù)中需要展現(xiàn)出類似的能力。研究團(tuán)隊(duì)收集了包括ChartQA、InfoVQA等在內(nèi)的9個(gè)不同數(shù)據(jù)集，涵蓋了從簡單的條形圖分析到復(fù)雜的科學(xué)圖表解讀等各種場景。

STEM科學(xué)技術(shù)類任務(wù)則重點(diǎn)考查AI的邏輯推理和數(shù)學(xué)計(jì)算能力。這類任務(wù)包括幾何證明、物理問題求解、醫(yī)學(xué)圖像分析等，需要AI不僅能夠識別圖像中的關(guān)鍵信息，還要運(yùn)用科學(xué)知識進(jìn)行推理。比如在解決一個(gè)幾何題時(shí)，AI需要識別圖形中的各種元素，回憶相關(guān)的幾何定理，然后按照邏輯步驟推導(dǎo)出答案。

空間與行動類任務(wù)考驗(yàn)的是AI的空間想象力和動作規(guī)劃能力。這類任務(wù)可能涉及機(jī)器人導(dǎo)航、游戲策略制定、三維空間理解等場景。就像人類在玩拼圖游戲時(shí)需要在腦海中旋轉(zhuǎn)和移動圖塊一樣，AI也需要具備類似的空間思維能力。

知識與識別類任務(wù)結(jié)合了視覺識別和常識推理。這類任務(wù)要求AI不僅能夠識別圖像中的物體，還要運(yùn)用常識知識進(jìn)行推理。比如看到一張餐廳照片，AI不僅要識別出桌椅、食物等物體，還要理解這是一個(gè)用餐場景，并能回答關(guān)于用餐文化、食物類型等相關(guān)問題。

定位、計(jì)數(shù)與搜索類任務(wù)專注于精確的視覺定位能力。這類任務(wù)可能要求AI在復(fù)雜場景中準(zhǔn)確計(jì)數(shù)特定物體的數(shù)量，或者在圖像中精確定位某個(gè)目標(biāo)的位置。就像在人群中找到特定的人一樣，這需要AI具備敏銳的觀察力和精確的定位能力。

描述與指令執(zhí)行類任務(wù)考驗(yàn)的是AI的語言生成和指令理解能力。這類任務(wù)要求AI能夠用自然流暢的語言描述所看到的內(nèi)容，或者按照給定的指令完成特定的任務(wù)。這不僅需要視覺理解能力，還需要良好的語言表達(dá)能力。

研究團(tuán)隊(duì)的一個(gè)重要發(fā)現(xiàn)是，這六類任務(wù)之間的遷移能力遠(yuǎn)比預(yù)期的要弱。當(dāng)AI只在某一類任務(wù)上進(jìn)行訓(xùn)練時(shí)，它在其他類型任務(wù)上的表現(xiàn)往往會下降。這就像一個(gè)只專注于數(shù)學(xué)學(xué)習(xí)的學(xué)生，在面對語文或歷史問題時(shí)可能會顯得無所適從。只有通過在所有六類任務(wù)上均衡訓(xùn)練，AI才能真正成為一個(gè)全能型的視覺推理專家。

更有趣的是，研究團(tuán)隊(duì)發(fā)現(xiàn)不同類型的任務(wù)會激發(fā)AI產(chǎn)生完全不同的推理模式。在處理STEM問題時(shí)，AI傾向于采用更多的回溯和驗(yàn)證行為，體現(xiàn)出審慎和嚴(yán)謹(jǐn)?shù)乃季S特點(diǎn)；而在處理定位和搜索任務(wù)時(shí)，AI則會表現(xiàn)得更加直接和目標(biāo)導(dǎo)向，減少不必要的內(nèi)省行為。這種現(xiàn)象表明，AI正在學(xué)會像人類專家一樣，根據(jù)任務(wù)類型自動調(diào)整自己的認(rèn)知策略。

三、60萬樣本數(shù)據(jù)集的精心打造

構(gòu)建一個(gè)高質(zhì)量的訓(xùn)練數(shù)據(jù)集就像是為一場盛宴精心挑選食材，不僅要保證食材的新鮮和質(zhì)量，還要確保搭配的合理性和營養(yǎng)的均衡。研究團(tuán)隊(duì)從超過250個(gè)候選數(shù)據(jù)集中精心篩選，最終構(gòu)建了包含60萬個(gè)訓(xùn)練樣本的Vero-600K數(shù)據(jù)集。

數(shù)據(jù)收集的過程可以比作一次大規(guī)模的食材采購。研究團(tuán)隊(duì)首先從各種公開數(shù)據(jù)源收集了大量的圖像-問題-答案三元組，這些數(shù)據(jù)來自不同的研究機(jī)構(gòu)和項(xiàng)目，質(zhì)量參差不齊。就像在菜市場選購蔬菜一樣，他們需要從這些海量數(shù)據(jù)中挑選出最優(yōu)質(zhì)的部分。

第一輪篩選采用了啟發(fā)式規(guī)則，就像是對食材進(jìn)行基礎(chǔ)的外觀檢查。研究團(tuán)隊(duì)排除了樣本數(shù)量過少的數(shù)據(jù)集（少于1000個(gè)樣本），過濾掉了分辨率過低的圖像（平均像素少于20萬），還剔除了簡單的是非題，因?yàn)檫@類題目容易讓AI養(yǎng)成猜測的壞習(xí)慣。

接下來是更加嚴(yán)格的人工質(zhì)量控制環(huán)節(jié)，就像是由經(jīng)驗(yàn)豐富的廚師對食材進(jìn)行專業(yè)檢驗(yàn)。研究團(tuán)隊(duì)為每個(gè)候選數(shù)據(jù)集隨機(jī)抽取約50個(gè)樣本，從三個(gè)維度進(jìn)行評估：正確性要求圖像-問題-答案三元組的錯(cuò)誤率低于5%；明確性要求每個(gè)問題都有唯一可驗(yàn)證的答案；可驗(yàn)證性要求答案格式與獎(jiǎng)勵(lì)函數(shù)兼容。經(jīng)過這輪篩選，最終只有59個(gè)數(shù)據(jù)集通過了嚴(yán)格的質(zhì)量檢驗(yàn)。

但是篩選工作還沒有結(jié)束。即使在通過質(zhì)量檢驗(yàn)的數(shù)據(jù)集中，仍然存在大量有問題的單個(gè)樣本。研究團(tuán)隊(duì)采用了基于大語言模型的智能過濾技術(shù)，就像是請來了一位AI助手來幫忙檢查每一道食材。這個(gè)AI助手會根據(jù)五個(gè)標(biāo)準(zhǔn)來評估每個(gè)問題：圖像與問題的相關(guān)性、問題的明確性、語言的規(guī)范性、答案的可驗(yàn)證性，以及數(shù)值精度的合理性。

在問題過濾的基礎(chǔ)上，研究團(tuán)隊(duì)還進(jìn)行了答案標(biāo)準(zhǔn)化處理。這個(gè)過程就像是將不同供應(yīng)商提供的同類食材統(tǒng)一處理成標(biāo)準(zhǔn)規(guī)格。數(shù)值型答案被統(tǒng)一去除單位和貨幣符號，轉(zhuǎn)換為標(biāo)準(zhǔn)的小數(shù)形式；選擇題答案被規(guī)范化為單一的大寫字母；文本答案經(jīng)過小寫化和空白符標(biāo)準(zhǔn)化處理，以便進(jìn)行精確匹配。

在數(shù)據(jù)混合策略方面，研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)重要原則：均勻分配比智能加權(quán)更有效。他們嘗試了多種混合策略，包括基于準(zhǔn)確率的難度加權(quán)、基于推理長度的復(fù)雜度加權(quán)、基于圖像面積的信息密度加權(quán)等。然而實(shí)驗(yàn)結(jié)果表明，簡單的均勻分配策略反而取得了最好的整體效果。這就像是在烹飪時(shí)，有時(shí)候最簡單的調(diào)味方式反而能帶出食材的本真味道。

這種現(xiàn)象的背后反映了多任務(wù)學(xué)習(xí)的一個(gè)重要原理：不同類型的任務(wù)需要不同的認(rèn)知技能，而這些技能之間的相互作用非常復(fù)雜。過度偏向某一類任務(wù)可能會以犧牲其他技能為代價(jià)。均勻分配確保了AI能夠在所有類型的視覺推理任務(wù)上都獲得充分的訓(xùn)練機(jī)會，從而發(fā)展出更加平衡和全面的能力。

研究團(tuán)隊(duì)還構(gòu)建了VeroEval評估套件，包含30個(gè)具有挑戰(zhàn)性的基準(zhǔn)測試，覆蓋了所有六個(gè)任務(wù)類別。這個(gè)評估套件就像是一套全面的能力測試題，能夠客觀地衡量AI在各個(gè)方面的表現(xiàn)水平。通過在這個(gè)標(biāo)準(zhǔn)化的測試套件上進(jìn)行評估，研究團(tuán)隊(duì)能夠準(zhǔn)確地比較不同訓(xùn)練方法和數(shù)據(jù)配置的效果。

四、任務(wù)導(dǎo)向的巧妙獎(jiǎng)勵(lì)機(jī)制

設(shè)計(jì)一個(gè)有效的獎(jiǎng)勵(lì)機(jī)制就像是制定一套公正而全面的考試評分標(biāo)準(zhǔn)，既要確保不同類型題目都能得到恰當(dāng)?shù)脑u價(jià)，又要激勵(lì)學(xué)生展現(xiàn)出最佳的學(xué)習(xí)效果。研究團(tuán)隊(duì)在這方面展現(xiàn)了極高的智慧，開發(fā)了一套根據(jù)任務(wù)類型自動路由的多元化獎(jiǎng)勵(lì)系統(tǒng)。

總體獎(jiǎng)勵(lì)由三個(gè)部分組成，就像是一份綜合成績單。準(zhǔn)確性獎(jiǎng)勵(lì)占主要比重（80%），評估AI給出的最終答案是否正確；格式獎(jiǎng)勵(lì)占次要比重（20%），確保AI的回答遵循規(guī)定的格式要求；此外還有一個(gè)防止冗余的懲罰機(jī)制，避免AI產(chǎn)生過長而無意義的回答。

準(zhǔn)確性獎(jiǎng)勵(lì)的核心在于根據(jù)不同答案類型采用相應(yīng)的驗(yàn)證方法。對于數(shù)學(xué)計(jì)算類問題，系統(tǒng)使用符號解析器來驗(yàn)證數(shù)值答案的正確性，就像數(shù)學(xué)老師檢查計(jì)算過程一樣嚴(yán)格。對于選擇題，系統(tǒng)會提取單一字母并與標(biāo)準(zhǔn)答案比較。對于需要精確定位的任務(wù)，系統(tǒng)采用基于IoU（交并比）的匹配算法，就像評判射箭比賽一樣，不僅看是否射中靶心，還要考慮偏離的程度。

特別值得一提的是針對開放性任務(wù)設(shè)計(jì)的LLM評委機(jī)制。當(dāng)面對主觀性較強(qiáng)的任務(wù)，比如圖像描述或創(chuàng)意寫作時(shí)，系統(tǒng)會請來另一個(gè)大語言模型擔(dān)任評委角色。這個(gè)AI評委接受了專門的訓(xùn)練，能夠從多個(gè)維度評估回答質(zhì)量，包括內(nèi)容的準(zhǔn)確性、語言的自然性、表達(dá)的連貫性等。更重要的是，評委系統(tǒng)還內(nèi)置了反作弊機(jī)制，自動識別和懲罰那些試圖迎合評分系統(tǒng)的自夸式回答。

格式獎(jiǎng)勵(lì)確保AI學(xué)會按照要求組織自己的回答。系統(tǒng)要求AI將回答分為兩個(gè)部分：思考過程部分用特殊標(biāo)簽包圍，展示詳細(xì)的推理步驟；答案部分同樣用標(biāo)簽標(biāo)識，包含最終結(jié)果。對于需要精確答案的問題，系統(tǒng)還要求使用特定的數(shù)學(xué)符號標(biāo)記最終答案，就像在答題卡上填涂正確選項(xiàng)一樣。

防冗余機(jī)制解決了強(qiáng)化學(xué)習(xí)中常見的"話癆"問題。有些AI在訓(xùn)練過程中會學(xué)會通過產(chǎn)生冗長的回答來獲得更多獎(jiǎng)勵(lì)，就像學(xué)生為了湊字?jǐn)?shù)而寫一些無關(guān)緊要的內(nèi)容。研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)漸進(jìn)式懲罰機(jī)制，當(dāng)回答長度超過合理范圍時(shí)，會根據(jù)超出程度給予相應(yīng)的扣分。

這套獎(jiǎng)勵(lì)機(jī)制的巧妙之處在于它的自適應(yīng)性。系統(tǒng)能夠根據(jù)具體問題的類型自動選擇最合適的評估方法，就像一個(gè)經(jīng)驗(yàn)豐富的老師知道如何針對不同學(xué)科采用不同的評分標(biāo)準(zhǔn)。數(shù)學(xué)題重視計(jì)算的精確性，語文題關(guān)注表達(dá)的流暢性，美術(shù)題強(qiáng)調(diào)創(chuàng)意的獨(dú)特性。

實(shí)驗(yàn)結(jié)果證明了這種設(shè)計(jì)的有效性。與使用統(tǒng)一評估標(biāo)準(zhǔn)的基線方法相比，任務(wù)導(dǎo)向的獎(jiǎng)勵(lì)機(jī)制在各個(gè)類別上都取得了顯著的提升。特別是在描述與指令執(zhí)行類任務(wù)上，改進(jìn)效果最為明顯，從34.3分提升到70.6分，幾乎翻了一倍。這表明針對不同任務(wù)特點(diǎn)設(shè)計(jì)專門的獎(jiǎng)勵(lì)機(jī)制確實(shí)能夠激發(fā)AI在該領(lǐng)域的學(xué)習(xí)潛力。

五、思維模式的驚人差異化

研究團(tuán)隊(duì)的一個(gè)重大發(fā)現(xiàn)是，不同類型的視覺推理任務(wù)會激發(fā)AI產(chǎn)生截然不同的思維模式，這種現(xiàn)象就像人類專家在面對不同領(lǐng)域問題時(shí)會自然切換到相應(yīng)的思考方式一樣令人著迷。

為了深入理解這種現(xiàn)象，研究團(tuán)隊(duì)開發(fā)了一套基于認(rèn)知行為分析的評估框架。他們將AI的推理過程分解為34種不同的認(rèn)知行為，包括邏輯連貫性、策略選擇、回溯思考、模式識別等。這就像是為AI的大腦裝上了一套精密的監(jiān)控設(shè)備，能夠?qū)崟r(shí)觀察它在思考時(shí)各個(gè)"腦區(qū)"的活躍程度。

當(dāng)AI處理STEM科學(xué)技術(shù)類問題時(shí)，它展現(xiàn)出了明顯的審慎和嚴(yán)謹(jǐn)特征。回溯行為的出現(xiàn)頻率顯著增加，從平均的27%上升到48%，這表明AI在面對復(fù)雜的科學(xué)問題時(shí)會更頻繁地回頭檢查和驗(yàn)證自己的推理步驟。同時(shí)，自我評估行為也大幅增強(qiáng)，AI會主動質(zhì)疑自己的中間結(jié)果，尋找可能的錯(cuò)誤。這種思維模式類似于一個(gè)嚴(yán)謹(jǐn)?shù)目茖W(xué)家，每一步都要經(jīng)過反復(fù)驗(yàn)證才敢得出結(jié)論。

相比之下，在處理定位、計(jì)數(shù)與搜索類任務(wù)時(shí)，AI表現(xiàn)出了完全不同的認(rèn)知模式。自我意識行為從平均的73%下降到49%，內(nèi)省性思考明顯減少。取而代之的是更加直接和目標(biāo)導(dǎo)向的視覺搜索策略。AI會快速掃描圖像的不同區(qū)域，專注于識別和定位目標(biāo)物體，避免過多的內(nèi)在反思。這種思維模式更像是一個(gè)經(jīng)驗(yàn)豐富的偵察兵，能夠迅速鎖定目標(biāo)而不被其他信息干擾。

在圖表與文檔理解類任務(wù)中，AI展現(xiàn)出了系統(tǒng)性區(qū)域綜合的特殊能力。它會按照一定的順序遍歷圖表的不同部分，比如先看標(biāo)題，再看坐標(biāo)軸，然后分析數(shù)據(jù)點(diǎn)，最后綜合得出結(jié)論。這種有序的信息處理方式體現(xiàn)了AI在面對結(jié)構(gòu)化信息時(shí)自發(fā)形成的系統(tǒng)性思維模式。

空間與行動類任務(wù)激發(fā)了AI的感知-推理分離策略。AI會首先進(jìn)行全面的視覺信息提取，建立對整個(gè)場景的完整認(rèn)知，然后再進(jìn)行抽象的邏輯推理。這種兩階段的處理方式在其他類型任務(wù)中并不明顯，但在涉及空間關(guān)系和動作規(guī)劃的任務(wù)中表現(xiàn)得特別突出。

更令人驚訝的是，AI在不同任務(wù)中的推理長度也存在顯著差異。空間與行動類任務(wù)的平均推理長度達(dá)到1983個(gè)詞，而知識與識別類任務(wù)只有76個(gè)詞，兩者相差超過26倍。這種巨大的差異反映了不同任務(wù)對認(rèn)知資源需求的根本不同。

研究團(tuán)隊(duì)進(jìn)一步通過技能級別的分析發(fā)現(xiàn)，AI在不同領(lǐng)域訓(xùn)練后會發(fā)展出專門化的技能集合。當(dāng)專門在圖表分析任務(wù)上訓(xùn)練時(shí)，AI會掌握"坐標(biāo)軸分析"、"數(shù)據(jù)提取"、"圖例解釋"等專門技能。而在空間推理訓(xùn)練中，它則會發(fā)展出"心理模擬"、"空間關(guān)系分析"、"視角轉(zhuǎn)換"等不同的技能組合。

這些發(fā)現(xiàn)的重要意義在于揭示了多任務(wù)學(xué)習(xí)的本質(zhì)。不同類型的任務(wù)不僅需要不同的知識，更需要不同的思維模式和認(rèn)知策略。一個(gè)真正智能的AI系統(tǒng)必須像人類專家一樣，能夠根據(jù)任務(wù)特點(diǎn)自動調(diào)整自己的思考方式。這也解釋了為什么單一領(lǐng)域的訓(xùn)練往往無法產(chǎn)生真正通用的智能，只有通過多樣化的任務(wù)訓(xùn)練，AI才能發(fā)展出靈活的認(rèn)知適應(yīng)能力。

六、開放科學(xué)的示范意義

在當(dāng)今AI發(fā)展日趨商業(yè)化和封閉化的背景下，普林斯頓大學(xué)選擇完全開源的研究路徑具有重要的示范意義，這種做法就像是在知識封鎖的高墻上打開了一扇明亮的窗戶。

目前最先進(jìn)的AI視覺推理系統(tǒng)，如GPT-4V、Claude-3等，雖然性能優(yōu)異，但其訓(xùn)練方法、數(shù)據(jù)來源和技術(shù)細(xì)節(jié)都被嚴(yán)格保密。這種情況就像是有人發(fā)明了一種神奇的藥物，但拒絕公開配方和制作工藝，其他研究者只能根據(jù)效果猜測其工作原理。這種封閉性嚴(yán)重阻礙了學(xué)術(shù)界的進(jìn)步和創(chuàng)新。

相比之下，Vero項(xiàng)目采用了截然不同的開放策略。研究團(tuán)隊(duì)不僅公開了最終的模型權(quán)重，還詳細(xì)發(fā)布了訓(xùn)練數(shù)據(jù)、代碼實(shí)現(xiàn)、實(shí)驗(yàn)配置，甚至包括失敗的嘗試和調(diào)試過程。這種透明度就像是把整個(gè)研究過程都搬到了玻璃房子里，讓所有人都能看到每一個(gè)決策的依據(jù)和每一步實(shí)驗(yàn)的細(xì)節(jié)。

開放數(shù)據(jù)集Vero-600K的構(gòu)建過程本身就是一個(gè)重要貢獻(xiàn)。研究團(tuán)隊(duì)詳細(xì)記錄了從250多個(gè)候選數(shù)據(jù)集中篩選出59個(gè)高質(zhì)量數(shù)據(jù)集的全過程，包括每一個(gè)篩選標(biāo)準(zhǔn)的制定依據(jù)、人工標(biāo)注的具體流程、質(zhì)量控制的檢驗(yàn)方法等。這些信息對于其他研究者具有極高的參考價(jià)值，能夠幫助他們避免重復(fù)試錯(cuò)，快速構(gòu)建自己的訓(xùn)練數(shù)據(jù)集。

在技術(shù)方法層面，研究團(tuán)隊(duì)提供了詳盡的算法描述和實(shí)現(xiàn)細(xì)節(jié)。從強(qiáng)化學(xué)習(xí)算法的參數(shù)設(shè)置，到獎(jiǎng)勵(lì)函數(shù)的具體實(shí)現(xiàn)，再到模型架構(gòu)的設(shè)計(jì)選擇，每一個(gè)技術(shù)細(xì)節(jié)都有清晰的文檔說明。這種詳細(xì)程度確保了其他研究者能夠完全復(fù)現(xiàn)實(shí)驗(yàn)結(jié)果，并在此基礎(chǔ)上進(jìn)行進(jìn)一步的改進(jìn)和擴(kuò)展。

更值得稱贊的是，研究團(tuán)隊(duì)還公開了大量的消融實(shí)驗(yàn)和失敗案例。他們詳細(xì)記錄了在數(shù)據(jù)混合策略、獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì)、算法選擇等方面的各種嘗試，包括那些沒有成功的方案。這種坦誠的分享就像是把試驗(yàn)室的廢紙簍也公開了，讓其他研究者能夠從失敗中學(xué)習(xí)，避免走同樣的彎路。

開放性帶來的效果是立竿見影的。研究團(tuán)隊(duì)訓(xùn)練的模型在多個(gè)基準(zhǔn)測試上超越了使用專有數(shù)據(jù)的商業(yè)系統(tǒng)。特別是Vero-MiMo-7B模型，在與使用相同基礎(chǔ)模型但采用專有訓(xùn)練方法的MiMo-VL-7B-RL的對比中取得了全面勝利，證明了開放方法的可行性和有效性。

這種開放策略還促進(jìn)了更廣泛的科學(xué)合作。由于所有資源都可以自由獲取，來自不同機(jī)構(gòu)的研究者可以在Vero的基礎(chǔ)上進(jìn)行各種擴(kuò)展實(shí)驗(yàn)。有的團(tuán)隊(duì)可能專注于改進(jìn)訓(xùn)練算法，有的可能致力于擴(kuò)展數(shù)據(jù)集，還有的可能探索新的應(yīng)用場景。這種分布式的創(chuàng)新模式比單一機(jī)構(gòu)的封閉研發(fā)更有可能產(chǎn)生突破性進(jìn)展。

從更宏觀的角度看，Vero項(xiàng)目體現(xiàn)了學(xué)術(shù)界應(yīng)有的價(jià)值觀：知識共享、透明研究、合作創(chuàng)新。在AI技術(shù)日益成為社會基礎(chǔ)設(shè)施的今天，確保這些技術(shù)的發(fā)展過程公開透明，讓社會各界都能參與監(jiān)督和改進(jìn)，具有重要的社會意義。

研究團(tuán)隊(duì)的這種做法也為其他學(xué)術(shù)機(jī)構(gòu)樹立了榜樣。它證明了即使沒有大公司的龐大資源，通過精心設(shè)計(jì)的研究方法和開放合作的理念，學(xué)術(shù)界同樣能夠產(chǎn)生世界級的研究成果。這種示范效應(yīng)可能會鼓勵(lì)更多的研究團(tuán)隊(duì)選擇開放路徑，從而推動整個(gè)AI領(lǐng)域向更加開放和協(xié)作的方向發(fā)展。

七、實(shí)驗(yàn)結(jié)果與性能對比

研究團(tuán)隊(duì)在30個(gè)具有挑戰(zhàn)性的基準(zhǔn)測試上對Vero進(jìn)行了全面評估，結(jié)果就像是一場全科考試，AI在各個(gè)科目上都交出了令人滿意的答卷。整體而言，Vero在四個(gè)不同的基礎(chǔ)模型上都實(shí)現(xiàn)了穩(wěn)定的性能提升，平均提升幅度在3.7到5.5分之間。

在圖表與文檔理解類任務(wù)中，Vero展現(xiàn)出了顯著的優(yōu)勢。以ChartQA Pro這個(gè)具有挑戰(zhàn)性的圖表問答任務(wù)為例，基于Qwen3-VL-8B-Instruct訓(xùn)練的Vero模型取得了60.2分的成績，比基礎(chǔ)模型提升了15.9分，這是一個(gè)相當(dāng)可觀的進(jìn)步。在科學(xué)論文圖表理解任務(wù)CharXivReason上，Vero的提升更是達(dá)到了7.3分，充分展現(xiàn)了其在處理復(fù)雜學(xué)術(shù)圖表方面的能力。

STEM科學(xué)技術(shù)類任務(wù)的結(jié)果同樣令人印象深刻。在MMMU Pro Vision這個(gè)專門測試視覺數(shù)學(xué)推理能力的基準(zhǔn)上，Vero實(shí)現(xiàn)了15.1分的大幅提升，最終得分達(dá)到57.2分。這個(gè)結(jié)果特別有意義，因?yàn)閿?shù)學(xué)推理向來被認(rèn)為是AI系統(tǒng)最難掌握的技能之一，需要嚴(yán)密的邏輯思維和精確的計(jì)算能力。

在空間與行動類任務(wù)方面，Vero在GameQA Lite游戲邏輯推理任務(wù)上取得了18.3分的顯著提升，最終得分52.3分。這類任務(wù)通常涉及復(fù)雜的空間關(guān)系和動作序列規(guī)劃，對AI的空間想象力提出了很高要求。Vero能夠在這類任務(wù)上取得如此大的進(jìn)步，說明多任務(wù)訓(xùn)練確實(shí)有助于發(fā)展AI的空間認(rèn)知能力。

知識與識別類任務(wù)雖然提升幅度相對較小，但也展現(xiàn)了穩(wěn)定的改進(jìn)。這可能是因?yàn)檫@類任務(wù)更多依賴于預(yù)訓(xùn)練階段積累的常識知識，強(qiáng)化學(xué)習(xí)訓(xùn)練的邊際收益相對有限。不過即便如此，Vero仍然在這類任務(wù)上實(shí)現(xiàn)了平均1.0到1.1分的提升。

在定位、計(jì)數(shù)與搜索類任務(wù)中，Vero表現(xiàn)出了強(qiáng)勁的實(shí)力。在CountQA這個(gè)野外計(jì)數(shù)任務(wù)上，提升幅度達(dá)到5.4分；在ScreenSpot Pro這個(gè)高分辨率界面定位任務(wù)上，更是實(shí)現(xiàn)了13.6分的大幅提升。這些結(jié)果表明，Vero在視覺搜索和精確定位方面具備了相當(dāng)高的能力。

描述與指令執(zhí)行類任務(wù)展現(xiàn)了Vero在語言生成方面的實(shí)力。在MMIFEval這個(gè)可驗(yàn)證指令執(zhí)行任務(wù)上，Vero取得了8.5分的提升，證明了它不僅能夠理解復(fù)雜指令，還能夠按照要求生成符合特定約束的文本內(nèi)容。

特別值得注意的是Vero與其他開放模型的對比結(jié)果。在與LLaVA-OV-1.5-RL、VL-Rethinker等其他開源強(qiáng)化學(xué)習(xí)模型的比較中，Vero在幾乎所有可比較的任務(wù)上都取得了更好的性能。這種全面的優(yōu)勢表明，Vero的訓(xùn)練方法確實(shí)比現(xiàn)有的開源方案更加有效。

更令人驚喜的是，Vero甚至在某些任務(wù)上超越了使用專有數(shù)據(jù)和方法訓(xùn)練的商業(yè)模型。比如Vero-MiMo-7B在多個(gè)類別上超過了MiMo-VL-7B-RL，后者雖然使用了相同的基礎(chǔ)模型，但采用的是不公開的訓(xùn)練方法和數(shù)據(jù)。這個(gè)結(jié)果有力地證明了開放研究方法的有效性，打破了人們對商業(yè)系統(tǒng)必然更優(yōu)的固有印象。

從訓(xùn)練效率的角度來看，Vero也表現(xiàn)出色。研究團(tuán)隊(duì)提供的訓(xùn)練曲線顯示，即使在訓(xùn)練初期階段，Vero就已經(jīng)開始顯示出相對于其他開源數(shù)據(jù)集的優(yōu)勢。隨著訓(xùn)練的進(jìn)行，這種優(yōu)勢進(jìn)一步擴(kuò)大，最終在五個(gè)類別中取得領(lǐng)先，在STEM類別中也保持了與最佳開源方法相近的水平。

這些實(shí)驗(yàn)結(jié)果的重要意義不僅在于數(shù)字的提升，更在于證明了一個(gè)重要的科學(xué)假設(shè)：通過精心設(shè)計(jì)的多任務(wù)訓(xùn)練策略，AI確實(shí)能夠發(fā)展出更加全面和平衡的視覺推理能力。這為未來的AI系統(tǒng)設(shè)計(jì)提供了重要的指導(dǎo)方向，表明追求單一任務(wù)的極致性能可能不如培養(yǎng)全面均衡的多任務(wù)能力更有價(jià)值。

說到底，Vero項(xiàng)目最大的價(jià)值并不僅僅在于創(chuàng)造了一個(gè)性能優(yōu)秀的AI模型，而在于為整個(gè)學(xué)術(shù)界提供了一個(gè)完整的開放式研究范本。在AI發(fā)展日益依賴大公司資源的今天，普林斯頓大學(xué)用這項(xiàng)研究證明了學(xué)術(shù)界同樣可以產(chǎn)生世界一流的成果，關(guān)鍵在于采用正確的方法和保持開放的理念。

從技術(shù)角度來說，這項(xiàng)研究揭示了多任務(wù)學(xué)習(xí)在視覺推理領(lǐng)域的巨大潛力。不同類型的視覺任務(wù)確實(shí)會激發(fā)AI產(chǎn)生不同的認(rèn)知模式，就像人類專家在面對不同領(lǐng)域問題時(shí)會自然切換思維方式一樣。這種發(fā)現(xiàn)為我們理解AI的內(nèi)在工作機(jī)制提供了新的視角，也為設(shè)計(jì)更加智能的AI系統(tǒng)指明了方向。

研究團(tuán)隊(duì)構(gòu)建的60萬樣本數(shù)據(jù)集和配套的評估體系為后續(xù)研究奠定了堅(jiān)實(shí)基礎(chǔ)。這些資源的開放性確保了其他研究者能夠在此基礎(chǔ)上繼續(xù)探索，推動整個(gè)領(lǐng)域的進(jìn)步。這種開放合作的研究模式可能會成為未來AI研究的主流趨勢。

更重要的是，這項(xiàng)研究展現(xiàn)了透明研究的力量。通過完全公開研究過程和實(shí)現(xiàn)細(xì)節(jié)，研究團(tuán)隊(duì)不僅推進(jìn)了技術(shù)發(fā)展，也為AI研究的開放性和可重現(xiàn)性樹立了新的標(biāo)準(zhǔn)。在AI技術(shù)日益影響社會生活的今天，這種透明性對于確保技術(shù)發(fā)展的責(zé)任性和可監(jiān)督性具有重要意義。

歸根結(jié)底，Vero項(xiàng)目的成功證明了一個(gè)簡單而深刻的道理：開放共享的知識比封閉專有的技術(shù)更有力量。當(dāng)研究者們能夠自由地獲取資源、分享想法、合作創(chuàng)新時(shí)，整個(gè)領(lǐng)域的進(jìn)步速度會大大加快。這種開放精神不僅推動了技術(shù)進(jìn)步，也體現(xiàn)了學(xué)術(shù)研究應(yīng)有的社會責(zé)任和價(jià)值追求。

Q&A

Q1：Vero視覺推理系統(tǒng)與現(xiàn)有AI模型相比有什么特別之處？

A：Vero最大的特色是完全開源的多任務(wù)訓(xùn)練方法，能讓AI在圖表分析、數(shù)學(xué)推理、空間理解等六大類視覺任務(wù)間靈活切換。不同于封閉的商業(yè)系統(tǒng)，Vero公開了所有訓(xùn)練數(shù)據(jù)、代碼和方法，在多個(gè)測試中甚至超越了使用專有技術(shù)的商業(yè)模型。

Q2：Vero的強(qiáng)化學(xué)習(xí)訓(xùn)練方式有什么優(yōu)勢？

A：Vero采用類似人類學(xué)習(xí)的強(qiáng)化學(xué)習(xí)方法，讓AI通過嘗試和反饋來掌握技能，而非簡單記憶答案。特別的是它使用任務(wù)導(dǎo)向的獎(jiǎng)勵(lì)機(jī)制，針對數(shù)學(xué)題、圖表分析、開放問答等不同類型采用相應(yīng)的評價(jià)標(biāo)準(zhǔn)，這讓AI學(xué)會了根據(jù)任務(wù)類型自動調(diào)整思維模式。

Q3：普通研究者如何使用Vero的研究成果？

A：由于Vero完全開源，研究者可以免費(fèi)獲取包含60萬樣本的Vero-600K數(shù)據(jù)集、訓(xùn)練代碼、模型權(quán)重和30個(gè)基準(zhǔn)測試。這些資源可以幫助其他團(tuán)隊(duì)快速構(gòu)建自己的視覺推理系統(tǒng)，也可以在Vero基礎(chǔ)上進(jìn)行改進(jìn)和擴(kuò)展研究。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.