網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

多模態(tài)不是拼模塊，千問新模型證明了最關(guān)鍵的一件事

2026-04-01 15:45:37　來源: AppSo

廣東舉報(bào)

分享至

林俊旸離職了，但 Qwen 不能停。最近 Qwen3.5-Omni 發(fā)布，一個(gè)原生全模態(tài)大模型，文本、圖片、音頻、視頻的理解與生成，集于一身。

這不是第一個(gè)試圖「什么都做」的模型。過去兩年，多模態(tài)是所有大模型公司都在講的故事。大多數(shù)方案的本質(zhì)是拼接：語音進(jìn)來先轉(zhuǎn)文字，文字處理完再轉(zhuǎn)語音，圖片走一條獨(dú)立通道，視頻又是另一條。模塊之間的信息在翻譯中不斷損耗。

Qwen3.5-Omni 走了另一條路。它的 Thinker-Talker 架構(gòu)讓所有模態(tài)在同一個(gè)模型內(nèi)原生處理——Thinker 負(fù)責(zé)跨模態(tài)的深度推理，Talker 負(fù)責(zé)實(shí)時(shí)語音輸出，兩者共享同一套表征空間。

結(jié)果是：在音頻、視頻、推理和交互任務(wù)上拿下 215 項(xiàng)子任務(wù)的 SOTA 成績(jī)，音頻理解/推理/識(shí)別/翻譯/對(duì)話全面超越 Gemini-3.1 Pro，同時(shí)視覺和文本能力保持同尺寸 Qwen3.5 的水平，沒有退化。

比數(shù)字更值得看的，是 Qwen 團(tuán)隊(duì)在發(fā)布頁上放出的那批演示視頻，不是做題，也不是跑分，而是在展示「和 AI 互動(dòng)」這件事可以是什么樣。

看見你看見的

Qwen3.5-Omni 處理視頻素材是多管齊下：自動(dòng)切片，標(biāo)注時(shí)間戳，識(shí)別畫面中的人物、動(dòng)作與空間關(guān)系，同時(shí)分析音軌中的背景音效和對(duì)話內(nèi)容。模型真正在做的，對(duì)時(shí)間線上視聽信息的同步解析。像下面的視頻片段來自《舌尖上的中國》，3.5-Omni 能生成的是結(jié)構(gòu)化的細(xì)粒度描述。

更復(fù)雜的場(chǎng)景里，模型處理的是電影片段：多人、多鏡頭、復(fù)雜音效疊加。它能區(qū)分不同角色的對(duì)話，識(shí)別背景音樂的情緒色彩，描述鏡頭調(diào)度和場(chǎng)景切換。

這些能力可以用在什么場(chǎng)景下呢？一個(gè)偏向應(yīng)用的演示是內(nèi)容合規(guī)審查：給模型一段游戲視頻，它自動(dòng)按時(shí)間段輸出違規(guī)類型、風(fēng)險(xiǎn)等級(jí)和具體描述，生成完整的合規(guī)預(yù)警摘要表。傳統(tǒng)方案需要人工逐幀審核，這里模型直接給出結(jié)構(gòu)化結(jié)果。

聽懂你說的

如果說上面的演示展示的是模型「看」的能力，下面這組則展示了它「進(jìn)入場(chǎng)景」的能力。

博客上的一個(gè)演示是多輪對(duì)話與智能打斷：用戶舉著手機(jī)和模型共讀一篇論文，隨時(shí)插話提問。模型基于 Omni 架構(gòu)原生支持語義打斷，區(qū)分用戶的有意打斷和無意義的背景音，不會(huì)在你清嗓子的時(shí)候停下來。這依賴于模型對(duì) turn-taking 意圖的實(shí)時(shí)識(shí)別，而不是簡(jiǎn)單的音量閾值檢測(cè)。

另一個(gè)令人印象深刻的演示是歌詞字幕生成：一首糅合了多種方言的 rap 被送入模型，輸出是帶精確時(shí)間戳的逐句歌詞。并且沒有「翻譯」的調(diào)整，比如在識(shí)別粵語歌詞時(shí)，返送的就是粵語行文，沒有自作主張轉(zhuǎn)換成普通話。Qwen3.5-Omni 支持 113 種語言的語音識(shí)別和 36 種方言的語音生成，這個(gè)覆蓋面本身就是一個(gè)值得注意的信號(hào)。

模型在海量文本、視覺以及超過1億小時(shí)的音視頻數(shù)據(jù)上進(jìn)行原生多模態(tài)預(yù)訓(xùn)練。相比上一代 Qwen3-Omni，多語言能力大幅增強(qiáng)：語音識(shí)別從此前的版本躍升至 113 種語言，語音生成覆蓋 36種方言。

從「看視頻」到「寫代碼」

最出人意料的一組演示來自 Qwen 團(tuán)隊(duì)稱為「Audio-Visual Vibe Coding」的能力。

第一個(gè)案例：用戶展示一段音樂游戲的視頻，模型觀察游戲畫面和音效后，直接生成可運(yùn)行的游戲代碼。不是描述游戲邏輯，而是寫出代碼。

第二個(gè)案例更接近實(shí)際產(chǎn)品開發(fā)：用戶展示一個(gè)產(chǎn)品原型的演示視頻，模型將視覺設(shè)計(jì)和交互邏輯轉(zhuǎn)化為前端代碼。

Qwen 團(tuán)隊(duì)在技術(shù)報(bào)告中指出，這種「看視頻寫代碼」的能力并不在模型的訓(xùn)練目標(biāo)中——它是原生多模態(tài) Scaling 過程中涌現(xiàn)出來的。當(dāng)視覺、聽覺和語言的表征被聯(lián)合訓(xùn)練到足夠深度時(shí)，模型自發(fā)地學(xué)會(huì)了在模態(tài)之間建立因果關(guān)系，而不僅僅是相關(guān)性。

支撐這些能力的，是 Qwen3.5-Omni 的 Hybrid-Attention MoE 架構(gòu)，在同一潛空間內(nèi)聯(lián)合訓(xùn)練所有模態(tài)的 token。這意味著模型在「思考」時(shí)，文字、圖像、聲音是同一種東西，不存在模態(tài)間的翻譯損耗。

以往的語音大模型要么思考慢但回答深，要么響應(yīng)快但內(nèi)容淺。但今天 Qwen 發(fā)布的這些演示視頻，比任何 benchmark 數(shù)字都更能說明，全模態(tài) AI 在 2026 年能做到什么。

我們正在招募伙伴

簡(jiǎn)歷投遞郵箱 hr@ifanr.com

?? 郵件標(biāo)題 「姓名+崗位名稱」（請(qǐng)隨簡(jiǎn)歷附上項(xiàng)目/作品或相關(guān)鏈接）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.