林俊旸離職了,但 Qwen 不能停。最近 Qwen3.5-Omni 發(fā)布,一個(gè)原生全模態(tài)大模型,文本、圖片、音頻、視頻的理解與生成,集于一身。
![]()
這不是第一個(gè)試圖「什么都做」的模型。過去兩年,多模態(tài)是所有大模型公司都在講的故事。大多數(shù)方案的本質(zhì)是拼接:語音進(jìn)來先轉(zhuǎn)文字,文字處理完再轉(zhuǎn)語音,圖片走一條獨(dú)立通道,視頻又是另一條。模塊之間的信息在翻譯中不斷損耗。
Qwen3.5-Omni 走了另一條路。它的 Thinker-Talker 架構(gòu)讓所有模態(tài)在同一個(gè)模型內(nèi)原生處理——Thinker 負(fù)責(zé)跨模態(tài)的深度推理,Talker 負(fù)責(zé)實(shí)時(shí)語音輸出,兩者共享同一套表征空間。
![]()
結(jié)果是:在音頻、視頻、推理和交互任務(wù)上拿下 215 項(xiàng)子任務(wù)的 SOTA 成績(jī),音頻理解/推理/識(shí)別/翻譯/對(duì)話全面超越 Gemini-3.1 Pro,同時(shí)視覺和文本能力保持同尺寸 Qwen3.5 的水平,沒有退化。
比數(shù)字更值得看的,是 Qwen 團(tuán)隊(duì)在發(fā)布頁上放出的那批演示視頻,不是做題,也不是跑分,而是在展示「和 AI 互動(dòng)」這件事可以是什么樣。
看見你看見的
Qwen3.5-Omni 處理視頻素材是多管齊下:自動(dòng)切片,標(biāo)注時(shí)間戳,識(shí)別畫面中的人物、動(dòng)作與空間關(guān)系,同時(shí)分析音軌中的背景音效和對(duì)話內(nèi)容。模型真正在做的,對(duì)時(shí)間線上視聽信息的同步解析。像下面的視頻片段來自《舌尖上的中國》,3.5-Omni 能生成的是結(jié)構(gòu)化的細(xì)粒度描述。
![]()
更復(fù)雜的場(chǎng)景里,模型處理的是電影片段:多人、多鏡頭、復(fù)雜音效疊加。它能區(qū)分不同角色的對(duì)話,識(shí)別背景音樂的情緒色彩,描述鏡頭調(diào)度和場(chǎng)景切換。
![]()
這些能力可以用在什么場(chǎng)景下呢?一個(gè)偏向應(yīng)用的演示是內(nèi)容合規(guī)審查:給模型一段游戲視頻,它自動(dòng)按時(shí)間段輸出違規(guī)類型、風(fēng)險(xiǎn)等級(jí)和具體描述,生成完整的合規(guī)預(yù)警摘要表。傳統(tǒng)方案需要人工逐幀審核,這里模型直接給出結(jié)構(gòu)化結(jié)果。
![]()
聽懂你說的
如果說上面的演示展示的是模型「看」的能力,下面這組則展示了它「進(jìn)入場(chǎng)景」的能力。
博客上的一個(gè)演示是多輪對(duì)話與智能打斷:用戶舉著手機(jī)和模型共讀一篇論文,隨時(shí)插話提問。模型基于 Omni 架構(gòu)原生支持語義打斷,區(qū)分用戶的有意打斷和無意義的背景音,不會(huì)在你清嗓子的時(shí)候停下來。這依賴于模型對(duì) turn-taking 意圖的實(shí)時(shí)識(shí)別,而不是簡(jiǎn)單的音量閾值檢測(cè)。
![]()
另一個(gè)令人印象深刻的演示是歌詞字幕生成:一首糅合了多種方言的 rap 被送入模型,輸出是帶精確時(shí)間戳的逐句歌詞。并且沒有「翻譯」的調(diào)整,比如在識(shí)別粵語歌詞時(shí),返送的就是粵語行文,沒有自作主張轉(zhuǎn)換成普通話。Qwen3.5-Omni 支持 113 種語言的語音識(shí)別和 36 種方言的語音生成,這個(gè)覆蓋面本身就是一個(gè)值得注意的信號(hào)。
模型在海量文本、視覺以及超過1億小時(shí)的音視頻數(shù)據(jù)上進(jìn)行原生多模態(tài)預(yù)訓(xùn)練。相比上一代 Qwen3-Omni,多語言能力大幅增強(qiáng):語音識(shí)別從此前的版本躍升至 113 種語言,語音生成覆蓋 36種方言。
從「看視頻」到「寫代碼」
最出人意料的一組演示來自 Qwen 團(tuán)隊(duì)稱為「Audio-Visual Vibe Coding」的能力。
第一個(gè)案例:用戶展示一段音樂游戲的視頻,模型觀察游戲畫面和音效后,直接生成可運(yùn)行的游戲代碼。不是描述游戲邏輯,而是寫出代碼。
![]()
第二個(gè)案例更接近實(shí)際產(chǎn)品開發(fā):用戶展示一個(gè)產(chǎn)品原型的演示視頻,模型將視覺設(shè)計(jì)和交互邏輯轉(zhuǎn)化為前端代碼。
![]()
Qwen 團(tuán)隊(duì)在技術(shù)報(bào)告中指出,這種「看視頻寫代碼」的能力并不在模型的訓(xùn)練目標(biāo)中——它是原生多模態(tài) Scaling 過程中涌現(xiàn)出來的。當(dāng)視覺、聽覺和語言的表征被聯(lián)合訓(xùn)練到足夠深度時(shí),模型自發(fā)地學(xué)會(huì)了在模態(tài)之間建立因果關(guān)系,而不僅僅是相關(guān)性。
支撐這些能力的,是 Qwen3.5-Omni 的 Hybrid-Attention MoE 架構(gòu),在同一潛空間內(nèi)聯(lián)合訓(xùn)練所有模態(tài)的 token。這意味著模型在「思考」時(shí),文字、圖像、聲音是同一種東西,不存在模態(tài)間的翻譯損耗。
以往的語音大模型要么思考慢但回答深,要么響應(yīng)快但內(nèi)容淺。但今天 Qwen 發(fā)布的這些演示視頻,比任何 benchmark 數(shù)字都更能說明,全模態(tài) AI 在 2026 年能做到什么。
![]()
我們正在招募伙伴
簡(jiǎn)歷投遞郵箱 hr@ifanr.com
?? 郵件標(biāo)題 「姓名+崗位名稱」(請(qǐng)隨簡(jiǎn)歷附上項(xiàng)目/作品或相關(guān)鏈接)
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.