大數(shù)據(jù)文摘出品
近日,騰訊研究團(tuán)隊(duì)打造了一款新型圖像生成模型X-Omni。技術(shù)上,采用了強(qiáng)化學(xué)習(xí)重構(gòu)混合模型架構(gòu);性能上,直接對(duì)標(biāo)OpenAI的GPT-4o。
![]()
地址:https://arxiv.org/pdf/2507.22058
這款模型不僅在中英文文字渲染方面刷新了已有基準(zhǔn),還在多個(gè)圖像生成任務(wù)中擊敗了商用大模型。
它的核心技術(shù)來(lái)自不同開(kāi)源社區(qū),甚至包括直接競(jìng)爭(zhēng)者,展現(xiàn)出一種“拼圖式”AI構(gòu)建思路。
混合架構(gòu)的斷層,被強(qiáng)化學(xué)習(xí)縫合
![]()
圖像生成AI領(lǐng)域,始終存在一個(gè)核心難題:如何在語(yǔ)義理解和圖像還原之間找到平衡。
目前主流做法,是采用“混合模型”架構(gòu):一部分使用自回歸模型來(lái)生成語(yǔ)義token,另一部分用擴(kuò)散模型來(lái)還原圖像。
這種架構(gòu)的優(yōu)勢(shì)是互補(bǔ),但也帶來(lái)了新的問(wèn)題:語(yǔ)義token與擴(kuò)散解碼器之間“語(yǔ)言不通”。
兩部分常常各說(shuō)各話,生成結(jié)果的質(zhì)量不穩(wěn)定,尤其在遇到復(fù)雜文本或高精度場(chǎng)景時(shí),錯(cuò)誤容易累積。
騰訊的X-Omni摒棄了傳統(tǒng)混合架構(gòu)“各自訓(xùn)練、強(qiáng)行拼接”的模式,引入統(tǒng)一的強(qiáng)化學(xué)習(xí)流程,通過(guò)RL對(duì)齊兩部分、提升協(xié)同。
![]()
首先,由自回歸模型生成語(yǔ)義token;接著,擴(kuò)散模型FLUX.1-dev負(fù)責(zé)根據(jù)token生成圖像;再由一個(gè)綜合評(píng)價(jià)系統(tǒng)給出反饋,指導(dǎo)自回歸模型更精準(zhǔn)地輸出token。
這個(gè)評(píng)價(jià)系統(tǒng)由三部分組成:人工美學(xué)偏好評(píng)分、高分辨率圖像質(zhì)量評(píng)分模型,以及視覺(jué)-語(yǔ)言模型Qwen2.5-VL-32B。
同時(shí),為驗(yàn)證圖像中文字是否準(zhǔn)確,系統(tǒng)還引入GOT-OCR-2.0與PaddleOCR做比對(duì)。
在約200步RL訓(xùn)練后,模型指標(biāo)已超過(guò)SFT+Best-of-N的最佳結(jié)果。
結(jié)果顯示,在相同訓(xùn)練輪數(shù)下,X-Omni的輸出圖像質(zhì)量超過(guò)常規(guī)訓(xùn)練方式所得最佳結(jié)果。
文本是關(guān)鍵,中文才是戰(zhàn)場(chǎng)
![]()
在與GPT-4o的對(duì)比中,X-Omni在最難的環(huán)節(jié),圖像中的文字渲染場(chǎng)景中,獲得了優(yōu)勢(shì)。
圖像文字生成一直是大模型的痛點(diǎn),越長(zhǎng)的文本越容易錯(cuò)漏、變形,甚至無(wú)法識(shí)別。
為此,騰訊團(tuán)隊(duì)專門(mén)構(gòu)建了名為“LongText-Bench”的測(cè)試基準(zhǔn),用以測(cè)評(píng)在長(zhǎng)段文字下的圖像渲染穩(wěn)定性。
結(jié)果顯示,X-Omni在英文文本準(zhǔn)確率上達(dá)到了0.901,超越所有同類模型。
而在中文文本渲染方面,在OneIG中文任務(wù)上,X-Omni超過(guò)了GPT-4o,與Seedream 3.0表現(xiàn)相當(dāng);在中文長(zhǎng)文本(LongText-Bench)評(píng)測(cè)中,X-Omni取得第一。
X-Omni采用的是一種叫SigLIP-VQ的tokenizer,不再以像素為單位構(gòu)建圖像,而是將圖像編碼為16,384個(gè)語(yǔ)義token。
這些token更貼近“概念”,而非圖像細(xì)節(jié),使模型更擅長(zhǎng)理解語(yǔ)言并在圖像中復(fù)現(xiàn)。
整個(gè)系統(tǒng)的語(yǔ)言能力依托于Qwen2.5-7B,這是由阿里巴巴開(kāi)源的一款語(yǔ)言模型。
騰訊團(tuán)隊(duì)在其基礎(chǔ)上增加了圖像理解與生成模塊,使X-Omni具備圖文雙向通感能力。
這意味著,無(wú)論是菜單、海報(bào)、UI界面,還是演講稿、說(shuō)明書(shū),都可以被自然地轉(zhuǎn)化為高質(zhì)量圖像。
對(duì)中國(guó)本土市場(chǎng)而言,這種能力至關(guān)重要。開(kāi)源對(duì)壘商用,生態(tài)之戰(zhàn)才剛開(kāi)始
雖然X-Omni在多個(gè)關(guān)鍵維度上表現(xiàn)優(yōu)異,但它并未宣稱“碾壓”GPT-4o。評(píng)測(cè)顯示,改進(jìn)幅度有限,非革命性躍遷。GPT-4o依然在綜合性能上具備強(qiáng)大競(jìng)爭(zhēng)力。
X-Omni的最大意義在于,它將來(lái)自多個(gè)組織、多個(gè)生態(tài)的開(kāi)源技術(shù)融為一體,拼出了一個(gè)“模塊化大模型”的可能形態(tài)。
它的擴(kuò)散模型來(lái)自德國(guó)初創(chuàng)公司Black Forest Labs。語(yǔ)言模型來(lái)自阿里巴巴。評(píng)價(jià)系統(tǒng)與OCR系統(tǒng)則綜合多個(gè)開(kāi)源庫(kù)構(gòu)建而成。
這一切被整合進(jìn)一個(gè)由騰訊發(fā)布的開(kāi)源代碼與模型,并已在Hugging Face與GitHub上全面開(kāi)放。
這和OpenAI閉源的GPT-4o構(gòu)成了鮮明對(duì)照。
后者雖然強(qiáng)大,但本質(zhì)上仍是“黑箱”。當(dāng)GPT-4o在ChatGPT上線圖像生成功能,引發(fā)業(yè)界驚嘆之時(shí),
X-Omni則代表著另一條路徑:開(kāi)放、拼接、重構(gòu)、調(diào)優(yōu)。
這種路線或許無(wú)法一步登天,卻為AI產(chǎn)業(yè)生態(tài)提供了另一種可持續(xù)發(fā)展模式。“后發(fā)者”可以通過(guò)策略、工程能力和生態(tài)協(xié)作縮小差距。
作者長(zhǎng)期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù),歡迎對(duì)這些方向感興趣的朋友添加微信Q1yezi,共同交流行業(yè)動(dòng)態(tài)與技術(shù)趨勢(shì)!
GPU 訓(xùn)練特惠!
H100/H200 GPU算力按秒計(jì)費(fèi),平均節(jié)省開(kāi)支30%以上!
掃碼了解詳情?
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.