![]()
作者|冰拿鐵
編輯|星奈
媒體|AI大模型工場
你有沒有這種經歷:讓AI幫忙找一張圖片,輸入“茶幾上放著一杯冒著熱氣的咖啡,旁邊有本翻開的書和一副紅色眼鏡”的圖片,主流AI或許能給你一堆有茶幾和咖啡的圖,但“冒著熱氣”、“翻開的書頁”和“眼鏡的顏色”這些決定成敗的細節,它很可能就選擇性地忽視了,把你氣個半死。
這不是AI笨,而是它眼鏡度數不夠!給AI提供“眼鏡”的底層模型CLIP(對比式語言-圖像預訓練模型),神經比較大條,拙于“明察秋毫”。
這個短板,也成為阻礙AI在電商、安防、工業質檢等領域落地“最后一公里”棘手難題,好比一個近視的人,卻無法勝任需要“顯微鏡級視力”的精密工作。
但現在,有人已經攻克了這個難題:
360人工智能研究院最新開源的FG-CLIP2模型(360視覺語言對齊模型),在涵蓋圖文檢索、目標檢測、圖像分類等8大類29個公開權威基準測試中,全面超越了行業巨頭Google的SigLIP 2和Meta的MetaCLIP 2,在中文和英文任務中均取得了最佳性能,可以說是全球最強圖文跨模態VLM模型。這一次,大模型終于對齊了“視覺顆粒度”!
![]()
有圈內人評價,這相當于給AI戴上了一副“高精度光學顯微鏡”,讓它從“看得見”進化到了“看得清”。也讓我們感慨,讓AI“看懂”圖片與文字關聯的核心賽道上,來自中國的模型首次實現了全方位的領先!
01
破局:CLIP模型的“近視病”與“生長痛”
回顧CLIP模型誕生之初,是具有革命性意義的,其通過海量圖文數據對比學習,讓AI獲得了前所未有的通用圖文理解能力,好比為AI安裝了一套標準的“視覺-語言”聯通系統。
然而,這套系統有個天生的“分辨率”限制,像個近視眼,短板很明顯:
讓它找“貓”,沒問題;但讓它找“一只正在伸懶腰的、尾巴翹起的橘貓”,就犯了難。具體而言,它無法精準描述圖片里的細節特征,如衣物紋理、物品材質,無法理解復雜的方位關系,比如“A放在B后面,被C部分遮擋”。更糟心的是,模型也難以有效區分語義相近的文字說明如“奔跑”與“疾馳”,導致理解過于籠統。
特別是由于中文語意的靈活性與復雜性,傳統模型更是顯得力不從心,難以處理豐富的語境和靈活表達。這背后深層原因是,CLIP模型的訓練數據和目標函數更側重于全局語義的匹配,而缺乏對圖像中局部區域、物體屬性、空間關系等細節進行精準對齊的強制要求。
這種能力缺失直接制約了AI的上層應用,例如,在電商平臺,用戶搜索“領口帶藍色條紋的白色襯衫”,傳統模型可能只匹配到“白色襯衫”,導致搜索結果不精準,影響轉化率;在內容安全領域,模型可能能識別出“刀”,但無法精確判斷是“廚具”還是“兇器”,依賴于整體畫面氛圍,容易誤判或漏判。
FG-CLIP2要解決的,正是這些“像素級”對齊的難題,它的目標不是成為一個參數更大的模型,而是成為一個“更精細”的模型。其名稱中的“FG”即“細粒度”,讓AI應用有望從“可用”走向“好用”和“精準用”。
來看“一只貍花貓和屏幕中的英短對視”圖,讓你清晰地get到FG-CLIP2的“火眼金睛”:
![]()
FG-CLIP2能清晰讀懂這張圖,所展現的能力是層次遞進的。首先,它能夠精準分辨貓的種類;其次,在存在視覺遮擋的復雜情況下,它能清晰辨別物體的空間層次,搞清楚屏幕內外,對三維空間關系有深刻理解;此外,模型對貓的毛發屬性和狀態敏感。
換言之,FG-CLIP2能處理現實中充滿遮擋、層次和細節的復雜場景,實現了從“識別物體”到“理解場景”的關鍵躍升,難怪它能登頂SOTA,超越一系列競爭對手。
那么,背后的底層邏輯是什么?訓練過程中,360用了哪些“黑科技”?
02
登頂SOTA,FG-CLIP2的技術“三重門”
FG-CLIP2帶來一套組合拳式的“技術革新”,覆蓋了數據、算法和架構三大核心層面。
首先,是數據基石,如果說數據是AI的“糧食”,那么FG-CLIP2吃上的就是精心配比的“營養餐”。團隊構建了名為FineHARD的大規模高質量中英雙語數據集。這個數據集牛在,它不僅有常規的圖片簡短描述,還創新性地為每張圖片生成了長達150詞以上的詳細“小作文”,描述場景背景、物體屬性和空間關系。這就好比學習時,不僅看章節標題,還精讀詳細內容,極大提升了模型的全局語義密度。
![]()
更重要的是,它實現了真正意義上的“局部細粒度對齊”:數據集包含了高達4000萬個bounding box及其對應的區域描述文本。
這意味著,模型不僅看整張圖,還會被訓練去關注圖中每一個重要小區域,像偵探一樣掃描每張圖像,“地毯式搜索”,精準定位出所有值得關注的目標實體,并為每個小細節都配上了專門的、描述其細節的文本。
通俗點解釋,模型學習時,不僅看整張風景照,還會被專門要求去“精讀”照片里的樹、湖面上的船、遠處的山,每個元素都有獨立注釋。
通過這種方式,模型被強制訓練去建立圖像局部區域和文本特定詞匯之間的精確關聯,從而變成細節狂魔!
最絕的是,團隊還利用大語言模型“制造”了1000萬組“細粒度難負樣本”,故意用來“刁難”模型,訓練它辨別極其相似表述的“火眼金睛”。這套數據組合拳,為模型的卓越表現打下了堅如磐石的基礎。
第二重創新,是算法創新,有了好糧食,還要有科學的“烹飪方法”。FG-CLIP2采用了兩階段訓練策略:先讓模型通過長短文本學習建立不錯的全局感知,再進入“高級進修班”,專門學習區域對齊和細節分辨。
其中的點睛之筆,是獨家TIC損失函數,這個函數就像一個極其苛刻的考官,專門盯著那些語義相近、容易混淆的文本描述,如“微笑”和“咧嘴笑”,加大模型區分它們的難度和獎勵。這意味著,模型在訓練過程中被不斷逼著提升“辨微”能力,從而在面對真實世界的復雜描述時,能做出更精準的判斷。
第三重創新,是架構優勢,FG-CLIP2選擇了經典的、圖像和文本編碼器分離的顯式雙塔結構。在搜索引擎、廣告推薦等需要處理海量請求、對延遲極其敏感的業務中,雙塔結構允許預先提取和緩存海量圖片和文本的特征,實現毫秒級的匹配響應。
![]()
這意味著,FG-CLIP2從設計之初,就不僅僅是為了刷榜,更是為了能夠真正落地,承受億級用戶并發考驗的。
03
一雙火眼金睛,從“刷榜SOTA”到“賦能千行百業”
基礎模型的突破,歸根結底是為了應用服務,要在千行百業的廣闊天地間彰顯價值。FG-CLIP2的“細粒度”能力,正為眾多行業帶來新的可能。
比如,電商行業,搜索“寶媽夏季純棉透氣連衣裙”,結果將不再是泛泛的“連衣裙”,而是精準匹配材質、受眾和季節的商品,這意味著更低的退貨率和更高的購買轉化;
AIGC內容生成領域,當文生圖模型有了FG-CLIP2作為“裁判”,生成的圖片細節將更逼真,更能“聽懂人話”,你說“生成一張logo在左上角的宣傳圖”,它就不會給你放到右下角,有效避免“生成偏差”。
而在守護萬家燈火的安防監控領域,FG-CLIP2也在“捉賊”賽道立大功,因為它支持用自然語言進行高效精準的視頻檢索。
例如,調查人員可以直接輸入“尋找背著黑色雙肩包、穿藍色T恤的男子”這樣的復雜描述,模型能夠理解多個細節屬性的組合,快速在海量視頻數據中定位到目標線索。這種強大的跨模態檢索能力降低了對預設結構化標簽的依賴,尤其適用于動態復雜環境下的應急響應和案情分析。
不止于此,FG-CLIP2的精密視覺語言對齊能力,也為時下火熱的具身智能賽道發展打開了新的空間:
在機器人執行任務時,它能幫助機器更準確地理解細粒度的語言指令。比如,當接收到“拿餐桌上的紅色水杯”這樣的命令時,機器人需要從多個杯子中識別出指定顏色和目標;在完成“把玩具放進綠色收納箱”的任務時,需精準區分顏色和容器類型。
相比傳統模型,FG-CLIP2更能理解“臟的抹布”、“打開的抽屜”等對物體狀態的描述,從而顯著提升機器人在家庭服務、倉儲物流等真實場景中的感知能力和操作準確性。
FG-CLIP2的成功,也清晰地傳遞出一個信號:AI基礎模型的發展路徑,正在從一味追求參數規模的“大力出奇跡”,轉向追求精度、效率和實用性的“精益求精”。
那么,360憑什么能在高手林立的行業交出如此亮眼的成績單?
答案藏在兩大核心動因里,首先,是前瞻性的戰略“押寶”。作為一家擁有海量用戶和豐富產品生態的公司,360比誰都清楚,要想在未來競爭中不掉隊,就必須掌握底層的AI基座能力。因此,它很早就開始全力投入AI基礎設施的建設。
無論是FG-CLIP系列,還是此前入選ICCV的PlanGEN、LMM-Det等模型,都是360為構建自家“AI基座”播下的種子。
FG-CLIP2的爆發,并非偶然,而是長期布局后水到渠成的結果。
其次,是“回歸基礎”的行業趨勢,正好撞上了360的“技術彈藥庫”,360人工智能研究院自2021年就開始默默耕耘“視覺-語言跨模態理解”,并同步推進視覺AIGC生成、多模態大模型以及獨特的開放世界目標檢測研究。
這些積累,在國內幾乎是獨一份,為今天FG-CLIP2能夠“看懂”復雜場景奠定了堅實基礎。
換句話說,當行業開始呼吁“回歸基礎”時,360早已在自己選擇的賽道上積累了深厚的“家底”。
日拱一卒無有盡,功不唐捐終入海。在決定未來AI高度的基礎模型戰場上,360不僅沒有缺席,反而已經在其關鍵細分領域走到了世界前列,其正通過扎實的工程實現和前沿的學術創新,穩步強化其作為中國AI領域重要技術貢獻者的“明星標簽”。
這一次,是“細粒度”的勝利,也是“長期主義”的勝利。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.