網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

騰訊開(kāi)源 X-Omni：RL縫合混合架構(gòu)，對(duì)標(biāo) GPT-4o，中文文本渲染登頂

2025-08-19 18:58:00　來(lái)源: 大數(shù)據(jù)文摘

北京舉報(bào)

分享至

大數(shù)據(jù)文摘出品

近日，騰訊研究團(tuán)隊(duì)打造了一款新型圖像生成模型X-Omni。技術(shù)上，采用了強(qiáng)化學(xué)習(xí)重構(gòu)混合模型架構(gòu)；性能上，直接對(duì)標(biāo)OpenAI的GPT-4o。

地址：https://arxiv.org/pdf/2507.22058

這款模型不僅在中英文文字渲染方面刷新了已有基準(zhǔn)，還在多個(gè)圖像生成任務(wù)中擊敗了商用大模型。

它的核心技術(shù)來(lái)自不同開(kāi)源社區(qū)，甚至包括直接競(jìng)爭(zhēng)者，展現(xiàn)出一種“拼圖式”AI構(gòu)建思路。

混合架構(gòu)的斷層，被強(qiáng)化學(xué)習(xí)縫合

圖像生成AI領(lǐng)域，始終存在一個(gè)核心難題：如何在語(yǔ)義理解和圖像還原之間找到平衡。

目前主流做法，是采用“混合模型”架構(gòu)：一部分使用自回歸模型來(lái)生成語(yǔ)義token，另一部分用擴(kuò)散模型來(lái)還原圖像。

這種架構(gòu)的優(yōu)勢(shì)是互補(bǔ)，但也帶來(lái)了新的問(wèn)題：語(yǔ)義token與擴(kuò)散解碼器之間“語(yǔ)言不通”。

兩部分常常各說(shuō)各話，生成結(jié)果的質(zhì)量不穩(wěn)定，尤其在遇到復(fù)雜文本或高精度場(chǎng)景時(shí)，錯(cuò)誤容易累積。

騰訊的X-Omni摒棄了傳統(tǒng)混合架構(gòu)“各自訓(xùn)練、強(qiáng)行拼接”的模式，引入統(tǒng)一的強(qiáng)化學(xué)習(xí)流程，通過(guò)RL對(duì)齊兩部分、提升協(xié)同。

首先，由自回歸模型生成語(yǔ)義token；接著，擴(kuò)散模型FLUX.1-dev負(fù)責(zé)根據(jù)token生成圖像；再由一個(gè)綜合評(píng)價(jià)系統(tǒng)給出反饋，指導(dǎo)自回歸模型更精準(zhǔn)地輸出token。

這個(gè)評(píng)價(jià)系統(tǒng)由三部分組成：人工美學(xué)偏好評(píng)分、高分辨率圖像質(zhì)量評(píng)分模型，以及視覺(jué)-語(yǔ)言模型Qwen2.5-VL-32B。

同時(shí)，為驗(yàn)證圖像中文字是否準(zhǔn)確，系統(tǒng)還引入GOT-OCR-2.0與PaddleOCR做比對(duì)。

在約200步RL訓(xùn)練后，模型指標(biāo)已超過(guò)SFT+Best-of-N的最佳結(jié)果。

結(jié)果顯示，在相同訓(xùn)練輪數(shù)下，X-Omni的輸出圖像質(zhì)量超過(guò)常規(guī)訓(xùn)練方式所得最佳結(jié)果。

文本是關(guān)鍵，中文才是戰(zhàn)場(chǎng)

在與GPT-4o的對(duì)比中，X-Omni在最難的環(huán)節(jié)，圖像中的文字渲染場(chǎng)景中，獲得了優(yōu)勢(shì)。

圖像文字生成一直是大模型的痛點(diǎn)，越長(zhǎng)的文本越容易錯(cuò)漏、變形，甚至無(wú)法識(shí)別。

為此，騰訊團(tuán)隊(duì)專門(mén)構(gòu)建了名為“LongText-Bench”的測(cè)試基準(zhǔn)，用以測(cè)評(píng)在長(zhǎng)段文字下的圖像渲染穩(wěn)定性。

結(jié)果顯示，X-Omni在英文文本準(zhǔn)確率上達(dá)到了0.901，超越所有同類模型。

而在中文文本渲染方面，在OneIG中文任務(wù)上，X-Omni超過(guò)了GPT-4o，與Seedream 3.0表現(xiàn)相當(dāng)；在中文長(zhǎng)文本（LongText-Bench）評(píng)測(cè)中，X-Omni取得第一。

X-Omni采用的是一種叫SigLIP-VQ的tokenizer，不再以像素為單位構(gòu)建圖像，而是將圖像編碼為16,384個(gè)語(yǔ)義token。

這些token更貼近“概念”，而非圖像細(xì)節(jié)，使模型更擅長(zhǎng)理解語(yǔ)言并在圖像中復(fù)現(xiàn)。

整個(gè)系統(tǒng)的語(yǔ)言能力依托于Qwen2.5-7B，這是由阿里巴巴開(kāi)源的一款語(yǔ)言模型。

騰訊團(tuán)隊(duì)在其基礎(chǔ)上增加了圖像理解與生成模塊，使X-Omni具備圖文雙向通感能力。

這意味著，無(wú)論是菜單、海報(bào)、UI界面，還是演講稿、說(shuō)明書(shū)，都可以被自然地轉(zhuǎn)化為高質(zhì)量圖像。

對(duì)中國(guó)本土市場(chǎng)而言，這種能力至關(guān)重要。開(kāi)源對(duì)壘商用，生態(tài)之戰(zhàn)才剛開(kāi)始

雖然X-Omni在多個(gè)關(guān)鍵維度上表現(xiàn)優(yōu)異，但它并未宣稱“碾壓”GPT-4o。評(píng)測(cè)顯示，改進(jìn)幅度有限，非革命性躍遷。GPT-4o依然在綜合性能上具備強(qiáng)大競(jìng)爭(zhēng)力。

X-Omni的最大意義在于，它將來(lái)自多個(gè)組織、多個(gè)生態(tài)的開(kāi)源技術(shù)融為一體，拼出了一個(gè)“模塊化大模型”的可能形態(tài)。

它的擴(kuò)散模型來(lái)自德國(guó)初創(chuàng)公司Black Forest Labs。語(yǔ)言模型來(lái)自阿里巴巴。評(píng)價(jià)系統(tǒng)與OCR系統(tǒng)則綜合多個(gè)開(kāi)源庫(kù)構(gòu)建而成。

這一切被整合進(jìn)一個(gè)由騰訊發(fā)布的開(kāi)源代碼與模型，并已在Hugging Face與GitHub上全面開(kāi)放。

這和OpenAI閉源的GPT-4o構(gòu)成了鮮明對(duì)照。

后者雖然強(qiáng)大，但本質(zhì)上仍是“黑箱”。當(dāng)GPT-4o在ChatGPT上線圖像生成功能，引發(fā)業(yè)界驚嘆之時(shí)，

X-Omni則代表著另一條路徑：開(kāi)放、拼接、重構(gòu)、調(diào)優(yōu)。

這種路線或許無(wú)法一步登天，卻為AI產(chǎn)業(yè)生態(tài)提供了另一種可持續(xù)發(fā)展模式。“后發(fā)者”可以通過(guò)策略、工程能力和生態(tài)協(xié)作縮小差距。

作者長(zhǎng)期關(guān)注 AI 產(chǎn)業(yè)與學(xué)術(shù)，歡迎對(duì)這些方向感興趣的朋友添加微信Q1yezi，共同交流行業(yè)動(dòng)態(tài)與技術(shù)趨勢(shì)！

GPU 訓(xùn)練特惠！

H100/H200 GPU算力按秒計(jì)費(fèi)，平均節(jié)省開(kāi)支30%以上！

掃碼了解詳情?

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

騰訊按下AI加速鍵，人才、組織、開(kāi)源動(dòng)作密集

機(jī)器之心Pro 2025-12-25 14:18:24
0 跟貼 0
Mini-Omni-Reasoner：實(shí)時(shí)推理，定義下一代端到端對(duì)話模型

機(jī)器之心Pro 2025-09-22 14:01:53
0 跟貼 0

張一鳴押注、豆包加持！字節(jié)AR眼鏡外觀圖曝光

雷科技 2025-12-25 18:40:03
6 跟貼 6

2025聯(lián)想天禧AI生態(tài)伙伴大會(huì)：讓AI“思你所想，行你所愿”

雷科技 2025-12-27 10:39:51
0 跟貼 0
無(wú)需再訓(xùn)練微調(diào)，一個(gè)輔助系統(tǒng)讓GPT-5.2準(zhǔn)確率飆到創(chuàng)紀(jì)錄的75%

機(jī)器之心Pro 2025-12-25 14:25:42
0 跟貼 0

告別「面癱」配音，InfiniteTalk開(kāi)啟從口型同步到全身表達(dá)新范式

機(jī)器之心Pro 2025-08-28 14:12:20
0 跟貼 0

拒絕智能手機(jī)，炮轟ChatGPT，沒(méi)有他就沒(méi)有今天的互聯(lián)網(wǎng)

DeepTech深科技 2025-12-26 18:07:26
0 跟貼 0
刷屏全網(wǎng)的開(kāi)源鴻蒙智慧病房長(zhǎng)啥樣？帶你們探個(gè)究竟！

雷科技 2025-11-28 18:08:01
0 跟貼 0

沒(méi)想到，音頻大模型開(kāi)源最徹底的，居然是小紅書(shū)

機(jī)器之心Pro 2025-09-17 17:45:17
0 跟貼 0
Dexmal原力靈機(jī)開(kāi)源Dexbotic

機(jī)器之心Pro 2025-10-22 15:52:26
0 跟貼 0
人工智能，重新定義“打醬油”

吳曉波頻道 2025-12-27 08:34:12
0 跟貼 0
【喜報(bào)】實(shí)豐文化斬獲騰訊廣告游戲「向陽(yáng)獎(jiǎng)?年度商業(yè)突破獎(jiǎng)」

新浪財(cái)經(jīng) 2025-12-26 20:24:55
0 跟貼 0
黃仁勛：中國(guó)的AI市場(chǎng)無(wú)論有沒(méi)有英偉達(dá)都會(huì)進(jìn)步與華為是競(jìng)爭(zhēng)對(duì)手不是敵人

財(cái)聯(lián)社 2025-07-21 10:22:14
7 跟貼 7
Snapchat提出Canvas-to-Image：一張畫(huà)布集成 ID、姿態(tài)與布局

機(jī)器之心Pro 2025-12-09 14:14:17
0 跟貼 0
首富馬斯克最新身家7519億美元超第二近5000億美元

魯中晨報(bào) 2025-12-26 17:05:03
2394 跟貼 2394
余承東：我有一個(gè)夢(mèng)想馬路上的所有車(chē)?yán)锒加腥A為的技術(shù)

每日經(jīng)濟(jì)新聞 2025-07-23 17:06:16
297 跟貼 297
網(wǎng)易官宣游戲業(yè)務(wù)“一把手”丁迎峰退休，已任職23年

南方都市報(bào) 2025-12-27 12:06:05
1 跟貼 1
“2025星光大賞”解讀：綜強(qiáng)劇弱，騰訊視頻內(nèi)容生態(tài)失衡的一年？

讀娛 2025-12-24 22:30:02
1 跟貼 1
小伙去餐廳吃飯，老板拿中國(guó)地圖當(dāng)做菜單，端上菜品時(shí)瞬間無(wú)語(yǔ)

荊門(mén)晚報(bào) 2025-12-23 10:16:11
33 跟貼 33
蔚來(lái)李斌：讓每一個(gè)蔚來(lái)車(chē)主都覺(jué)得購(gòu)買(mǎi)蔚來(lái)的車(chē)是正確選擇

每日經(jīng)濟(jì)新聞 2025-07-07 17:30:53
0 跟貼 0
比亞迪王傳福：做大產(chǎn)業(yè)，做出中國(guó)制造業(yè)應(yīng)有的位置

每日經(jīng)濟(jì)新聞 2025-07-22 17:51:59
0 跟貼 0
201米！40億！騰訊西南總部，世界“第一扭”摩天樓

GA環(huán)球建筑 2025-12-25 23:00:32
636 跟貼 636
騰訊混元3D-Omni

機(jī)器之心Pro 2025-09-29 16:00:09
0 跟貼 0
ETC領(lǐng)域首個(gè)AI助手上線，騰訊混元提供技術(shù)支持

界面新聞 2025-12-25 11:07:13
0 跟貼 0
老板監(jiān)視員工微信只需300元！實(shí)測(cè)：全程監(jiān)控

究竟視頻 2025-12-27 12:19:19
0 跟貼 0
澤連斯基提出"和平計(jì)劃" 俄方最新回應(yīng)：戰(zhàn)場(chǎng)上見(jiàn)

魯中晨報(bào) 2025-12-26 13:05:09
27868 跟貼 27868
輕量高效，即插即用：Video-RAG為長(zhǎng)視頻理解帶來(lái)新范式

機(jī)器之心Pro 2025-10-20 18:23:17
0 跟貼 0
【ai agent智能體架構(gòu)躍遷】1小時(shí)吃透 Agent 核心（設(shè)計(jì)模式全解析+代碼實(shí)戰(zhàn)）新手也能

盧菁老師 2025-12-24 17:13:20
0 跟貼 0
視頻生成DeepSeek時(shí)刻!清華&生數(shù)開(kāi)源框架提速200倍,一周2k Star

機(jī)器之心Pro 2025-12-26 14:21:00
0 跟貼 0
英偉達(dá)巧用8B模型秒掉GPT-5 開(kāi)源了

量子位 2025-12-06 14:07:18
21 跟貼 21
天塹變通途！極氪001車(chē)隊(duì)首批穿越天山勝利隧道，南北疆從此邁入“一日往返”時(shí)代

魯中晨報(bào) 2025-12-26 19:16:51
14968 跟貼 14968
黑老大2名表超5千萬(wàn)成交深圳原政法委書(shū)記是其保護(hù)傘

每日經(jīng)濟(jì)新聞 2025-12-26 20:34:51
2370 跟貼 2370
GPT-5編程成績(jī)有貓膩！自刪23道測(cè)試題，關(guān)鍵基準(zhǔn)還是自己提的

量子位 2025-08-12 13:12:51
15 跟貼 15
【報(bào)告】智駕行業(yè)專題：Robotaxi有望在2028年迎來(lái)商業(yè)化曙光（附33頁(yè)P(yáng)DF文件下載）

新浪財(cái)經(jīng) 2025-12-25 11:00:02
0 跟貼 0
殲-36尾部改造，疑似換裝渦扇15，揭示航發(fā)“過(guò)渡期”策略

星落山間 2025-12-26 02:09:11
0 跟貼 0
關(guān)于比特幣，你可能不知道的（三）

虎嗅APP 2025-09-06 00:23:15
19 跟貼 19
火鍋店老板吐糟自家貓咪客人進(jìn)店不問(wèn)菜單先問(wèn)貓咪在哪找貓咪一起吃火鍋結(jié)賬還主動(dòng)加錢(qián)

重慶城市TV 2025-12-24 16:01:42
0 跟貼 0
每個(gè)模型都是回不去的故鄉(xiāng)！00后小伙用模型還原客戶心中的“老家”，大學(xué)期間創(chuàng)辦公司 4年賺900萬(wàn)

河南都市頻道 2025-12-24 16:34:25
0 跟貼 0
兒童賽道之〈圣誕快樂(lè)〉治愈系動(dòng)畫(huà)片｜《Grok + Suno + GPT + 剪映｜零基礎(chǔ)零成本｜全

AI次世代 2025-12-26 17:53:33
0 跟貼 0
兩岸開(kāi)戰(zhàn)最慘的一定是臺(tái)灣，努力讓兩岸和平架構(gòu)不會(huì)倒退

戰(zhàn)場(chǎng)科技館 2025-12-26 13:28:17
0 跟貼 0

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

騰訊開(kāi)源 X-Omni：RL縫合混合架構(gòu)，對(duì)標(biāo) GPT-4o，中文文本渲染登頂

小米也漲價(jià)了！業(yè)界稱終端再不漲明年必虧

賈國(guó)龍首次回應(yīng)西貝風(fēng)波 稱自己連續(xù)40天靠安眠藥入睡

賈國(guó)龍首次回應(yīng)西貝風(fēng)波 稱自己連續(xù)40天靠安眠藥入睡

NBA教練圈的布朗尼，花了22年證明自己

劉宇寧：我的價(jià)值不需要靠番位來(lái)證明

注意，開(kāi)始拉物價(jià)了！

好音響比大屏更重要？車(chē)企開(kāi)始“聽(tīng)”用戶的

態(tài)度原創(chuàng)

毛主席致徐悲鴻信件曝光，書(shū)法風(fēng)格引關(guān)注。

HKC惠科全球首創(chuàng)1080Hz HD極致高刷電競(jìng)顯示器

格調(diào)時(shí)尚 智慧品質(zhì)居所

《拳皇98》版不知火舞最新雕像 性感無(wú)雙背壓巨大

賈國(guó)龍首次回應(yīng)西貝風(fēng)波稱自己連續(xù)40天靠安眠藥入睡

賈國(guó)龍首次回應(yīng)西貝風(fēng)波稱自己連續(xù)40天靠安眠藥入睡

格調(diào)時(shí)尚智慧品質(zhì)居所

《拳皇98》版不知火舞最新雕像性感無(wú)雙背壓巨大