JarvisEvo 如何讓 Agent 像人類一樣擁有「視覺反思」能力？

2025-12-24 14:52:46　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

在邁向通用人工智能的道路上，我們一直在思考一個(gè)問題：現(xiàn)有的 Image Editing Agent，真的「懂」修圖嗎？

大多數(shù)基于 LLM/VLM 的智能體，本質(zhì)上更像是一個(gè)「盲目的指揮官」。它們能流利地寫出修圖代碼或調(diào)用 API，但在按下回車鍵之前，它們看不見畫布上的變化，也無法像人類設(shè)計(jì)師那樣，盯著屏幕皺眉說：「這張對比度拉太高了，得往回收到一點(diǎn)?！惯@種感知與決策的割裂，直接導(dǎo)致了「指令幻覺」，或者說模型在進(jìn)行盲目的「腦補(bǔ)」。由于缺乏視覺反饋，模型往往憑空想象下一步操作，導(dǎo)致結(jié)果與用戶的初衷南轅北轍。

此外，在傳統(tǒng)強(qiáng)化學(xué)習(xí)中經(jīng)常依賴于靜態(tài)的獎(jiǎng)勵(lì)模型。隨著模型的不斷訓(xùn)練，它很容易學(xué)會(huì)如何「討好」這個(gè)固定的打分器，導(dǎo)致Reward Hacking——即分?jǐn)?shù)很高，但審美并沒有真正提升。

為了打破這一僵局，JarvisEvo應(yīng)運(yùn)而生。它不僅僅是一個(gè)連接 Adobe Lightroom 的自動(dòng)化工具使用者，更是一次大膽的探索：探索 Agent 如何通過「內(nèi)省」，真正實(shí)現(xiàn)自我進(jìn)化。

論文標(biāo)題：JarvisEvo: Towards a Self-Evolving Photo Editing Agent with Synergistic Editor-Evaluator Optimization
論文地址:https://www.arxiv.org/pdf/2511.23002
項(xiàng)目主頁:https://jarvisevo.vercel.app/
Github：https://github.com/LYL1015/JarvisEvo
Huggingface Daily Paper：https://huggingface.co/papers/2511.23002
作者團(tuán)隊(duì)來自騰訊混元和廈門大學(xué)：Yunlong Lin*, Linqing Wang*, Kunjie Lin*, Zixu Lin*, Kaixiong Gong, Wenbo Li, Bin Lin, Zhenxi Li, Shiyi Zhang, Yuyang Peng, Wenxun Dai, Xinghao Ding?, Chunyu Wang?, Qinglin Lu?

核心范式轉(zhuǎn)移：

從「執(zhí)行者」到「思考者」

JarvisEvo 的核心哲學(xué)在于模仿人類專家的慢思考模式。一個(gè)資深修圖師的工作流永遠(yuǎn)是閉環(huán)的：觀察原圖 -> 構(gòu)思 -> 嘗試調(diào)整 -> 觀察結(jié)果 -> 評估/反思 -> 再調(diào)整。我們將這一直覺轉(zhuǎn)化為三大技術(shù)支柱：

iMCoT：讓思維鏈「長出眼睛」

傳統(tǒng)的思維鏈 (CoT) 是純文本的獨(dú)角戲。JarvisEvo 引入了iMCoT (Interleaved Multimodal Chain-of-Thought)，將視覺反饋強(qiáng)行插入推理循環(huán)。

打破黑盒：每執(zhí)行一步工具（例如調(diào)整色溫），系統(tǒng)立刻生成中間渲染圖。
動(dòng)態(tài)規(guī)劃：模型不再是一次性生成所有步驟，而是基于當(dāng)前的視覺狀態(tài)來決定下一步。它能「看到」上一具體操作帶來的過曝或偏色，并即時(shí)修正。

SEPO：左手畫圖，右手打分

這是 JarvisEvo 最「性感」的設(shè)計(jì)。既然外部獎(jiǎng)勵(lì)模型容易被 Hack，那為什么不讓 Agent 自己訓(xùn)練自己的審美？我們提出了SEPO (Synergistic Editor-Evaluator Policy Optimization)，讓模型在訓(xùn)練中分飾兩角：

編輯者 (Editor)：負(fù)責(zé)干活，目標(biāo)是修出好圖。
評估者 (Evaluator)：負(fù)責(zé)挑刺，目標(biāo)是精準(zhǔn)打分。

這就形成了一種類似 GAN 但更復(fù)雜的協(xié)同進(jìn)化：編輯者為了拿高分，必須提升修圖質(zhì)量；評估者為了不被人類專家「打臉」，必須提升鑒賞能力。為了防止模型「作弊」（即模型發(fā)現(xiàn)只要生成「100 分」的文本就能降低 Loss），我們設(shè)計(jì)了SLM (Selective Loss Masking)機(jī)制。這相當(dāng)于老師在改卷時(shí)，遮住了學(xué)生自己寫的「我給自己打滿分」那一行，迫使學(xué)生只能靠前面的解題過程（推理和工具使用）來真正贏得高分。

On-Policy Reflection：從錯(cuò)誤中提煉智慧

JarvisEvo 的第三個(gè)殺手锏是它的反思機(jī)制。

在 Stage 2 的訓(xùn)練中，我們構(gòu)建了一個(gè)自動(dòng)化流水線：當(dāng)模型偶然修出了一張好圖（高分軌跡），而之前某次嘗試失敗了（低分軌跡），系統(tǒng)會(huì)立刻捕捉這組對比。

通過引入「導(dǎo)師模型」（如 Gemini/GPT-4），我們讓系統(tǒng)分析：「剛才那次為什么失敗？是因?yàn)榘灼胶鈪?shù)太激進(jìn)了嗎？」

這種生成的反思數(shù)據(jù) (Reflection Data)被用于第三階段的微調(diào)。最終，JarvisEvo 習(xí)得的不僅是「如何修圖」，更是「當(dāng)修壞了時(shí)如何自救」。

硬核工程：ArtEdit 數(shù)據(jù)集與訓(xùn)練流水線

為了支撐這套邏輯，我們沒有使用通用的微調(diào)數(shù)據(jù)，而是從零構(gòu)建了 ArtEdit：

170K 專業(yè)樣本：覆蓋從風(fēng)光到人像的 10 大類攝影場景。
全工具鏈覆蓋：完美映射 Adobe Lightroom 的 200+ 個(gè)參數(shù)。
雙視角數(shù)據(jù)：既有修圖軌跡 (ArtEdit-Lr)，也有人類專家的審美評分 (ArtEdit-Eval)。

我們的訓(xùn)練并非一蹴而就，而是采用了類似人類學(xué)習(xí)的三階段課程 (Curriculum Learning)：

冷啟動(dòng) (SFT)：先學(xué)會(huì)工具怎么用，語法怎么寫。
協(xié)同進(jìn)化 (RL/SEPO)：扔掉標(biāo)準(zhǔn)答案，在自我探索中通過「左右互搏」提升上限。
反思微調(diào) (Reflection)：針對易錯(cuò)點(diǎn)進(jìn)行特訓(xùn)，學(xué)會(huì)自我糾錯(cuò)。

實(shí)驗(yàn)結(jié)果

ArtEdit-Bench 評測結(jié)果

在嚴(yán)苛的ArtEdit-Bench評測中，JarvisEvo 展現(xiàn)了統(tǒng)治力：

內(nèi)容保真度：相比商業(yè)模型 Nano-Banana，L1/L2 誤差降低了44.96%。這意味著它在修圖時(shí)不會(huì)破壞原圖的畫質(zhì)細(xì)節(jié)。
人類偏好：在盲測中，JarvisEvo 取得了49%的勝率，遠(yuǎn)超 Nano-Banana 的28%。
審美對齊：更有趣的是，作為「裁判」，JarvisEvo 對圖片質(zhì)量的打分與人類專家的相關(guān)性 (SRCC 0.7243) 甚至超過了 Gemini-2.5-Flash。

視覺效果

在視覺效果上，JarvisEvo 專為細(xì)粒度專業(yè)調(diào)色而生。得益于其深度的意圖理解、多模態(tài)推理以及獨(dú)特的自我反思閉環(huán)，JarvisEvo 在處理復(fù)雜修圖需求時(shí)，展現(xiàn)出了超越當(dāng)前所有商業(yè)及開源 AIGC 模型的顯著優(yōu)勢。

JarvisEvo vs. OpenAI X Adobe PhotoShop

出于好奇跑了一下 OpenAI 的新功能，雖然能調(diào) PS，但感覺更像是 Workflow 的搭建，缺乏垂直數(shù)據(jù)的 Training。在我們的 Benchmark 上，論指令遵循和修圖審美，目前的 JarvisEvo 表現(xiàn)明顯還是要更好很多。

結(jié)語：

不僅是修圖

JarvisEvo 的意義遠(yuǎn)超圖像編輯本身。它驗(yàn)證了一種「Actor-Critic 協(xié)同進(jìn)化」的通用范式。這種讓模型在內(nèi)部建立「自我批評家」，并通過多模態(tài)反饋不斷修正行動(dòng)路徑的方法，完全可以復(fù)用到復(fù)雜代碼生成、數(shù)學(xué)推理、機(jī)器人控制等需要長程規(guī)劃的領(lǐng)域。

我們正在見證 Agent 從「聽話的執(zhí)行者」向「會(huì)反思的創(chuàng)作者」的驚險(xiǎn)一躍。而 JarvisEvo，剛剛邁出了這一步。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.