![]()
智東西
作者|江宇
編輯|漠影
智東西12月8日報道,今日,美團正式發布并開源圖像生成模型LongCat-Image,這是一款在圖像編輯能力上達到開源SOTA水準的6B參數模型,重點瞄準文生圖與單圖編輯兩大核心場景。
![]()
▲圖源:Hugging Face
從官方披露的基準測試結果來看,LongCat-Image主要對標了Seedream4.0、Qwen-Image、HunyuanImage-3.0、Nano Banana以及FLUX.1-dev等主流開源與閉源生圖模型,其核心優化集中在“編輯可控性”和“中文文字渲染”兩項能力上。
而在實際體驗中,它在連續改圖、風格變化和材質細節上表現較好,但在復雜排版場景下,中文文字渲染仍存在不穩定的情況。在涉及復雜UI設計、游戲界面生成等任務時,模型的審美也暴露出一定短板,這或許與其不具備聯網搜索能力有關。
在體驗入口方面,美團也同步提供了多種使用方式。在移動端,LongCat APP已支持文生圖與圖生圖能力;在網頁端,用戶也可通過 https://longcat.ai/ 進入圖片生成入口進行體驗。
對于開發者而言,LongCat-Image的模型權重與代碼也已同步開源:
Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Image
GitHub:https://github.com/meituan-longcat/LongCat-Image
下面我們就來看看LongCat-Image的模型結構、評測成績和具體的實測表現。
一、從模型結構到評測成績,LongCat-Image把“編輯可控性”和“中文渲染”作為主攻方向
從模型設計上看,LongCat-Image采用了文生圖與圖像編輯同源的統一架構,并通過漸進式學習策略,在僅6B參數規模下兼顧了指令遵循精準度、生圖質量與文字渲染三項能力的協同提升。
![]()
▲模型架構
這套訓練路線并非從零開始堆參數,而是基于文生圖中期訓練模型進行初始化,并在后續階段采用文生圖與指令編輯的多任務聯合學習機制,來避免編輯能力在后訓練階段被壓縮的問題。
在圖像編輯能力上,LongCat-Image在GEdit-Bench、ImgEdit-Bench等多個編輯類基準中取得了開源SOTA成績。
![]()
▲客觀基準測試性能對比
LongCat-Image通過多源數據預訓練、指令改寫策略與人工精標SFT數據的引入,使模型在面對復雜編輯要求時更不容易出現風格漂移和結構失真。
針對中文文字渲染這一長期痛點,LongCat-Image采用了覆蓋8105個規范漢字的合成字形數據進行預訓練,并在SFT階段引入真實世界文本圖片強化排版與字體泛化能力,在RL階段還引入OCR與美學雙獎勵模型共同約束,最終在ChineseWord評測中取得90.7分的成績,領先于現有開源模型。
在真實感方面,LongCat-Image通過對抗訓練和嚴格的數據篩選機制,刻意繞開AIGC“塑料感”的紋理陷阱,并在RL階段引入AIGC檢測器作為獎勵信號,反向引導模型學習真實世界的物理紋理與光影變化。
綜合評測結果顯示,在人類主觀評分(MOS)維度上,LongCat-Image在文本對齊、視覺真實度與美學質量等多個子項中的表現已接近Seedream4.0等商業模型水平。
![]()
▲人類主觀評分(MOS)對比
![]()
▲并列對比評估勝率(SBS)
在圖像編輯任務的并列對比評估(SBS)中,LongCat-Image-Edit在綜合質量與一致性兩項關鍵指標上,對NanoBanana和Qwen-Image-Edit等模型均取得較高勝率。
整體來看,LongCat-Image在圖像編輯任務上已逼近部分閉源模型水平,在文生圖基礎能力上也保持在開源頭部陣營。
二、從漫畫重繪到玩偶產品渲染,連續編輯穩定,但中文渲染仍是短板
從實際體驗過程來看,LongCat-Image在“連續指令可編輯性”上的表現是較為穩定的,我們直接拿近期大火的《瘋狂動物城2》相關圖片進行測試,在同一角色基礎上連續進行多輪修改。
![]()
▲參考圖
指令:修改為像素風格作品。
![]()
指令:重繪為彩色,保留像素質感。
![]()
指令:圖片角色重繪為模仿樂高積木主題的動物。
![]()
在漫畫圖像測試中,通過像素風、彩色像素重繪以及模仿樂高積木動物主題的連續重繪指令,模型可以保持角色結構穩定,同時完成風格與材質的多輪遷移。多次修改過程中,人物輪廓和構圖基本未出現明顯錯誤。
在此基礎上,我們也進一步嘗試了電影海報的制作場景,用同一角色圖進行主視覺海報生成與多語言標題渲染測試。
指令:電影《瘋狂動物城2》的宣傳海報,海報的主畫面是電影主角的精彩場面,主標題用藝術手寫字體“瘋狂動物城2”,下面附上英文名“Zootopia”,另外附上電影海報需要的其他小字,文字清晰可辨認。
![]()
在電影海報場景中,模型對參考圖的繼承能力較為穩定,無論是角色形象還是動態姿勢,都能與原始圖片保持較高一致度,中英文標題的主標題表現也較為清晰。不過在“小字”區域,一系列細節文字仍然存在亂碼與英文混雜的問題,說明中文文字渲染在復雜排版場景下依然存在不穩定性。
進一步測試人物檔案式中文海報時,模型可以正確渲染部分核心字段信息,但仍不可避免地出現中英文錯位與局部亂碼。
指令:生成動畫電影角色的人物檔案式宣傳海報,用文字體現以下信息: 尼克?王爾德(Nick Wilde),是一只在迪士尼動畫電影《瘋狂動物城》中出場的狐貍。 中文名:尼克狐尼克。 外文名:Nick Wilde。 原型:赤狐。 職業:從騙子到警察。 搭檔:兔子警官朱迪。 經典臺詞:“傷了你的小心臟?”
![]()
在產品級渲染測試中,朱迪警官玩偶在影棚光、臺燈暖光、自然光客廳與床品光照等多個現實場景下的質感表現相對穩定。短絨毛的細節、眼睛的高光反射、沙發布料與玩偶絨毛之間的材質對比都能夠被較為準確地表現出來,整體更接近商業產品渲染效果。
![]()
相比之下,在主流模型較為擅長的游戲界面生成場景中,LongCat-Image的短板更為明顯。無論是卡牌游戲、射擊游戲,還是MOBA類第一視角界面,整體風格都偏向十多年前的UI設計審美,與當下主流游戲產品存在明顯代差。
指令:生成一個卡牌游戲界面。
![]()
指令:生成一個射擊游戲界面。
![]()
指令:生成一個英雄聯盟的游戲界面。
![]()
指令:生成一個王者榮耀第一視角的游戲界面。
![]()
從本次測試結果來看,LongCat-Image在改圖與產品渲染類任務中的可用性更高,而在游戲界面與復雜排版場景中的表現相對一般。
結語:開源圖像模型進入“可控編輯”競賽,AI生圖戰況升級
從LongCat-Image的整體定位來看,美團并沒有試圖用更大的參數規模去正面沖擊旗艦級生圖模型,而是明確選擇在可控性、連續編輯和中文渲染這幾個方向上深挖。
圖像模型的競爭焦點,正在快速向“能否真正進入設計、產品、品牌等具體生產流程”的實用能力集中。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.