![]()
Sora 2 的與奧特曼對話的音畫同步視頻生成,還有 Nano Banana Pro 的風格化生圖狂歡熱潮還沒過去,多模態 AI 領域又有重磅更新上場:
阿里的千問 APP 在 12 月初悄然完成了一次關鍵版本更新,接入國內最強 AI 生視頻模型 Wan 2.5,以及全球開源領先 AI 生圖模型的特供滿血版 Qwen-Image 2511,更重要的是,生圖功能直接拉滿免費不限次,徹底降低用戶的使用門檻。
在此之前,我們曾深度測評過 Wan 2.5 的網頁版(詳見網頁鏈接{從 SD 到 Wan2.5-Preview,AI 視頻 2025 質變啟示錄}),當時就覺得這模型實用到不像當下 AI 圈的東西:沒有追 1 分鐘長視頻的噱頭,也沒講各種用戶根本看不懂的參數。就專注一件事:把 10 秒內的音畫同步、細節還原做到了極致。
如今它下放到手機端,再配上 Qwen-Image 2511 這張 免王牌」一同下放到千問 APP,可以說,這是阿里將 B 端沉淀的多模態技術向 C 端場景落地的重要嘗試。
那么 APP 端視頻生成的體驗究竟是否能像此前網頁端一樣驚艷?還有,卷了這么多年的圖片生成大模型,這次千問+ Qwen-Image 2511 又能帶來什么驚喜?
帶著兩個核心疑問,我們用一周時間把這兩個功能用到了極致,試圖為大家解決以下問題:
Qwen-Image 2511 是否能真正解決傳統 AI 生圖的人物崩臉、中文亂碼等行業痛點?Wan 2.5 在音畫同步、長視頻敘事上與國際主流模型的差距是否縮小?免費模式背后,阿里又在構建怎樣的 AI 生態閉環?
01
視頻能力實測:
Wan 2.5背后國產模型的實用主義路線
Wan 2.5 是誰,相信很多了解過 AI 視頻生成的朋友已經對此并不陌生。
作為為數不多能夠對標谷歌Veo3 的視頻生成大模型,Wan 2.5 核心突破在于音畫同步與 10 秒長視頻生成以及更精細、好看的畫面。
說的更直白一點,Wan2.5 不僅是 2025 年國內最先進的多模態生成模型之一,絕對也是你用過最具性價比的一梯隊 AI 視頻生成產品。
接下來,我們從音畫同步、場景化功能、細節表現三個層面,解析其實際表現。
測試一:音畫同步、時長
音畫不同步、短時長限制、細節不突出,是過去國產視頻模型與 Sora、Veo3 等國際模型的主要差距。針對以上問題,我們直接讓 Wan2.5 生成:在復雜場景中,生成兩個不同風格人物對話的劇情。
提示詞如下:
暮春午后,石質柱廊蜿蜒延伸,青灰色石板映著斑駁光影,階前青草點綴,風拂過荀子身著玄色寬袍腰束素帶,與身披淺灰亞麻袍、赤足踏石的蘇格拉底相對而立。鏡頭先以全景定格,隨即推進至荀子中近景,他廣袖一揚,特寫中眼神如炬,沉凝有力地擲出:「人性本惡!爭則亂,亂則窮!」鏡頭橫切至蘇格拉底,中近景里他雙手自然攤開,指尖輕叩石面,眉宇從容,溫和卻帶鋒芒地反駁:「人性本善,無人有意作惡。」最后鏡頭從兩人面部拉遠,回歸全景,柱廊光影流轉,風拂衣袂,兩人對立的身影在古意場景中定格。
看似簡單,但這段提示詞里,實際埋了三個坑:
第一,風格沖突:需兼顧古風與西方兩種人物風格,避免不同穿著人物實際共用一張臉的情況;
第二,音畫同步:兩個角色的臺詞「人性本惡!爭則亂,亂則窮」「人性本善,無人有意作惡」要對口型,還要匹配動作,并且兩人的語氣與神情各不相同。
第三,復雜畫面,元素不丟:石質柱廊,青灰色石板、斑駁光影、階前青草點綴,不能隨著鏡頭的切換憑空消失。
最終生成效果如下:
網頁鏈接
可以看到,Wan2.5 的音畫同步準確率相當不錯,而且我們一開始擔心各種問題,Wan2.5 都解決的很好。首先是高度一致的音畫同步,細節上,不僅人物揮動衣袖的動作、身體、音畫同步自然流暢,就連場景也有很高的一致性,整體畫面切換調度也頗有動畫電影的水平。
測試二:細節控制
如果說卡通測試是基礎題,那電影級寫實測試就是附加題。
此前在 Wan2.5-Preview 時期,我們就已經見識到了它在細節還原、氛圍打造上的厲害之處。不過這次,我們讓難度再升級,從黃昏樹林中靜止的男生,變成真實復雜場景中,兩個運動中的主角。
提示詞:【風格設定】電影級寫實風格,畫面干凈通透,兼具溫柔氛圍感與高級電影感;線條細膩,質感真實。【人物 + 動物+動作設定】
人物:20 歲年輕白人女孩,輪廓分明,皮膚白皙,長發微卷,眼神清澈帶一絲溫柔沉思;穿著米白色棉麻長裙(領口微敞,袖口隨意卷起),衣料有自然褶皺,質感輕薄透氣。
動物:一只溫順的小鹿(毛色淺棕帶白色斑點,鹿角短小圓潤),頭部輕靠女子左臂,眼神柔和,耳朵偶爾輕微晃動,與女子互動自然不僵硬。
動作:女孩牽著鹿從森林中緩緩走來
【場景設定】黃昏稀疏落葉林,樹干筆直修長,樹葉泛黃帶綠(秋夏交替質感),地面覆蓋少量淺棕色落葉;時間為日落前 1 小時,天色呈暖橙與淡紫漸變,空氣通透無霧氣。
【鏡頭與光影核心要求】
鏡頭參數:長鏡頭(無切換),中景構圖(人物 + 小鹿占畫面 60%),中心構圖(人物與小鹿位于畫面正中心),干凈單人 + 動物鏡頭(無多余路人 / 雜物);背景虛化(景深 f/2.8),突出主體,虛化后背景呈斑駁圓形光斑。
光影層次:
逆光:太陽位于人物后方偏左側,形成金色輪廓光(勾勒發絲、肩膀、襯衫邊緣),輪廓光寬度 1-2cm,柔和不刺眼;
側光:右側補柔和側光,照亮人物半張臉,避免面部全黑,形成「半明半暗」的層次感;
柔光:整體光線經過樹葉過濾,呈漫射效果,無硬邊陰影。
網頁鏈接
先說結論,這是最近各種 AI 視頻測試中,最讓我感到驚喜的一個。
先看必答題:女孩的棉麻長裙,袖口卷起的地方有自然的褶皺,不是熨燙平整的假質感;小鹿的頭靠在女孩手臂上時,耳朵會輕輕晃動,不是 焊死在頭上;逆光的金色輪廓光,剛好勾勒在發絲和肩膀邊緣,沒有糊成一片。女孩轉彎前真實的眼神變化,走路時自然飄動的發絲,真實到仿佛電影畫面。背景虛化后的光斑是圓形斑駁,不是呆板的圓形光斑,這細節已經能吊打不少 老法師了。
然后是彩蛋:我忘記了在提示詞里寫任何聲音,但視頻里居然有 咔嚓咔嚓女孩和小鹿踩過落葉時的腳步聲,聲音會隨著步伐的快慢變化;背景里還有清脆且有空間遠近層進的鳥叫聲。
據了解,這種畫面審美突破的核心在于,Wan 2.5 通過引入人類反饋的強化學習(RLHF),把用戶對畫面質感、動態效果、指令匹配度的反饋用于優化模型,從而徹底讓 AI 視頻生成擺脫了過去詭異中帶著點賽博丑陋的標簽。
測試三:場景化功能體驗
不同于國際模型側重各種技術極限,Wan 2.5 更注重實用場景適配,此前通義推出的全民舞王一度讓全中國的奶牛貓都突然站立開始跳印度舞,雖然魔性,但直指普通用戶的創作痛點。
這里的測試,我們不再采用固定的模版,而是玩了個 腦洞測試:上傳一張小貓的照片,讓它馱著孫悟空在非洲大草原狂奔。
這個需求的難點在于雙重動態:小貓跑步時的肌肉形變、孫悟空的絲帶飄動,還要保持小貓的原長相。畢竟,很多 AI 處理圖生視頻 + 復雜動作時,會把主體搞成橡皮泥,要么肌肉不動,要么臉崩了。
效果如下:
網頁鏈接
可以看到,這里的測試效果依然很穩定,小貓已經馱著孫悟空在非洲大草原奔馳,會有肌肉的運動,孫悟空的絲帶飄向風的方向,不是 360 度亂轉;最關鍵的是,小貓的臉和我上傳的照片幾乎一致——耳朵的弧度、眼睛的顏色,甚至額頭的精細花紋全都沒丟。
02
生圖實測:
免費工具的專業度上限有多高
原本測完視頻能力之后,我已經覺得不會有更多超出的驚喜出現了,但萬萬沒想到 Qwen-Image 2511 模型的能力,同樣打了我個措手不及。
官方資料顯示,Qwen-Image 2511 模型在 Huggingface 趨勢榜登頂數周,開源生態貢獻度全球第一,AI arena 競技場排名僅次于閉源模型 nano banana 與 seedream 4.0。
不過這些數據對用戶而言,其實價值意義不大,還需轉化為實際使用體驗才能被認可,我們依然通過三組核心測試驗證其落地能力。
測試一:連續創作過程中的人物一致性。
AI 生圖的核心痛點之一,是無法在多輪生成中保持人物特征穩定性,經常是更換場景、調整動作后,人物面部特征易出現崩臉、換臉問題。這就導致,AI 出神圖容易,但是用在生產環境穩定出圖反而是個問題,而 Qwen-Image 2511 很好的解決了這個問題。
我們以同一人物(動物)多場景生成為測試場景,來「嫁禍」一只小貓咪:
輸入素材:一張金漸層小貓的照片
生成指令:給小貓穿上粉色裙子、給小貓面前放個花瓶小貓推花瓶、讓花瓶碎在小貓面前
可以看到,Qwen-Image 2511 完整保留了測試對象也就是金漸層的面部特征之外,穿上的衣服也與小貓的身形完美符合,一個有些有意思的細節是,每次 Qwen-Image 2511 生圖都是四張,而這四組圖片中,小貓的裙子顏色、花的顏色與款式,都是完全一一對應的,細節滿分。
網頁鏈接
測試二:中文文字+商用場景適配
對中小商家而言,AI 生圖的核心價值在于降低商用素材制作成本——能否生成符合平臺規范的商品圖、海報圖,直接決定工具的實用價值。
此外,中文場景下,當前市面上的其他 AI 生圖常出現文字亂碼、字體錯位問題,說白了就是像鬼畫符。其中,表現差一點的,完全看不出來文字到底是什么;表現稍好一點的,也會出現某個字少個偏旁,缺了一橫,或者多了一豎。總之,模型對中文語義與排版邏輯的理解始終弱于英文。
這次,我們測試直接上難度,不只要能寫漢字,還要有排版,寫的好看,并且還要搭配復雜商用級別畫面。
提示詞:做一個海報,核心主題「天然無谷狗糧 | 狗狗健康成長的能量源泉」
視覺主體:純種金毛,6-12 個月幼犬,毛發蓬松有光澤,眼神靈動,正低頭大口啃食狗糧(嘴角帶少量糧屑,呈現「適口性極佳」的真實感),姿態放松愉悅(如趴在草地 / 地毯上,尾巴輕搖)
產品呈現:打開的狗糧包裝袋(透明開窗設計,可見顆粒分明的狗糧,顆粒呈不規則六邊形,顏色為淺棕 + 深棕漸變),袋身斜靠在木質托盤上,,標注「無谷配方」「鮮肉含量≥85%」「益生菌添加」核心賣點。輔助元素為:旁邊擺放 1 個陶瓷食盆(裝滿狗糧,少量顆粒散落在食盆邊緣),1 片新鮮胡蘿卜 / 西蘭花(呼應「天然食材」),1 滴透明魚油(暗示「美毛護膚」功效)
場景氛圍:戶外場景:青翠草地 + 藍天白云,狗狗趴在野餐墊上進食,周圍點綴幾朵小雛菊,遠處有模糊的樹木輪廓,整體色調清新自然
風格與質感:超寫實質感,細節拉滿(狗狗毛發根根分明,狗糧顆粒的紋理、油脂光澤,食盆的陶瓷磨砂質感均清晰可見),避免卡通化或模糊處理
色彩搭配:暖橙色(傳遞「溫暖」「食欲」)+ 淺草綠(呼應「天然」)+ 原木色(增強「安全」「質樸」感)
![]()
測試結果顯示,Qwen-Image 2511 在基礎測試中完全規避了文字截斷、字體混淆問題,不僅實現了海報標題的精準呈現,畫中畫的狗糧包裝袋上文字依然精準呈現。此外,畫面中胡蘿卜的大小、狗糧的質感,幼犬的形態、狗毛的真實毛絨質感還原也非常到位,可以直接用于電商平臺上架。
此外,更驚喜的是,Qwen-Image 2511 生圖時支持一鍵調整比例(1:1/2:3/3:4/9:16/4:3/16:9/3:2),無需借助第三方工具裁剪。此外在后期,Qwen-Image 2511 還支持局部改字/改色、擴圖、修改尺寸等等修改,而這對生產級場景來說,非常重要:畢竟 AI 生圖,一次性得到滿意結果的概率并不大,往往需要非常精細、復雜的后期修改。而現在這件事情,已經可以徹底交給 AI,精準修改。
![]()
對比一些付費生圖工具,Qwen-Image 2511 不僅在紋理還原度上表現更優,而且成本直接降為零,這對需批量制作素材的中小商家而言,具備極強的實用價值。
03
國產 AI 的實用主義突圍
測完千問 APP 的兩個新功能,我突然明白阿里這次升級的 野心:
無論是 Qwen-Image 2511 解決中文生圖痛點,還是 Wan 2.5 補齊國產視頻音畫同步短板,千問的此次升級,其實背后正是國產 AI 模型的差異化突圍范本:
Wan 2.5 的環境音自適應、元素 ID 鎖定,不僅能用于阿里電商的 短視頻帶貨場景,也能讓普通人享受和家里寵物跨物種對話的神奇;
Qwen-Image 2511 的 中文渲染以及精細控制能力,不僅能夠造福各種中小商家,也能讓沒有作圖能力的手殘黨感受創作的快樂。
當這些 B 端技術被改造成 C 端用戶能輕松上手甚至免費的功能時,AI 才真正從實驗室走進了日常生活。而伴隨創作成本大幅降低,國產 AI 工具也才有了成為新時代內容創作的標準的可能,而這才是真正的 AI 普惠。
*頭圖來源:視覺中國
本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.