網易首頁 > 網易號 > 正文申請入駐

千問上線阿里版Banana2和Veo3.1，我挖出了十種新玩法

2025-12-02 19:37:35　來源: 卡爾的AI沃茨

北京舉報

分享至

能看出來阿里做千問的決心了，

這兩天視頻模型Wan-2.5和圖像模型Qwen-Image-Edit已經上線了，

Qwen-Image-Edit沒有使用限制

Wan-2.5免費用戶一天可以生成10個

所以這次我從Nano Banana Pro和Veo3.1各自選出了5種適合千問的玩法，包括影片空鏡，角色一致性，互動場景，短視頻，以及廣告分鏡；多圖融合與編輯，文字排版與信息圖，真人換裝，IP周邊設計，以及肖像照風格轉換。

一樣是有打包好的提示語和生成效果，公眾號后臺發“千問”就好了

先說Wan2.5吧，

音畫同步，10s時長1080P，支持上傳參考圖片，但自帶的參考音頻這次展示沒有更新到千問App上

一個中年男子坐在溫馨書房的木桌前，周圍是書架和溫暖的燈光。他打開一本舊書，用平靜而深沉的聲音朗讀："歷史教給我們的不僅僅是事實……它向我們展示了我們是誰。"房間里有細微的背景音：翻書聲、時鐘微弱的滴答聲，以及遠處窗外的雨聲。

生成的視頻里中年男人的口型是跟這旁白走的，而且我刻意打的“……”在視頻里面也是有停頓的表現。

再來看一個更難的。

一位自信美麗的年輕美國女性手持麥克風站在舞臺上，背景是播放著抽象視覺效果的大型LED屏幕。她微笑著向觀眾們說道："Good evening everyone. Tonight, I want to share three powerful lessons about leadership and innovation." 她的口型與聲音完美同步，說話時輔以富有表現力的手勢動作。

這個Case主要測的是英文口型和肢體語言的協調性。Wan-2.5處理得非常自然，手勢沒有亂飛，口型也對上了。

除了音畫同步，我還參考了Grok在X上目前排名最火的5個使用場景，來了一波橫向測評。這五個場景分別是，影片空鏡，角色一致性，互動場景，短視頻，以及廣告分鏡。

第一種，影片空鏡。這通常用于電影的故事續寫，或者給視頻做特效增強。

黃昏時分的未來城市景觀，通過添加在摩天大樓間穿梭的飛行汽車來擴展場景，平滑過渡，電影感光照，4K 分辨率。

生成的畫面里，光影的過渡非常絲滑，汽車飛過的噴氣聲是會從近到遠的，在樓宇間穿梭的軌跡也很符合物理邏輯。接下來的角色一致性生成是經典case了，為的是保持多鏡頭對話和系統視頻里面我們用的主角是一樣的。

一個有著銀色長發和綠色長袍的年輕巫師在森林中施法，保持場景間形象一致，添加對話：'Expecto Patronum!'，情緒表達：專注和堅定。

第三種互動場景也是高頻使用了，通常是包含基本動作、互動和人物情緒的。

兩個朋友在雨中跑過街道，笑著濺起水洼，包括跳過障礙物，快樂情緒，關鍵時刻慢動作，城市背景。

這里面涉及到了跑步、跳躍、水花飛濺，還有慢動作。千問生成的視頻里，兩個人手拉手一起運行也沒有融合或者重疊，腳踩進水里的物理反饋也基本正確，那種快樂的情緒通過慢動作和音效傳遞得很到位。

排名第四的短視頻，我第一時間想起來之前看到的紅外監控系列，

一群可愛的兔子在臥室的床上跳躍，模仿紅外監控攝像頭風格，活潑而混亂，可循環 10 秒。

出來的效果有那種深夜監控實錄的感覺，而且滿足無限循環的特點，

兔子的動作過于活潑而顯得有點鬼畜。。。

OK，來個廣告分鏡，這個場景不僅考畫面，還考文字生成能力。

NBA 總決賽宣傳視頻：籃球運動員慢動作扣籃，觀眾歡呼，添加字幕'Champion'，配樂同步

這里比較難的是文字疊加和切換鏡頭。以前的AI視頻里，字都是亂碼。但這次Wan-2.5生成的畫面里，Champion這幾個字雖然還是有點AI味，但已經基本可讀了，鏡頭切換也完成了提示語的要求，氛圍感很強。

聊完視頻，再來看看那個沒有使用限制的Qwen-Image-Edit。

支持多圖融合，還原生支持ControlNet，可通過關鍵點圖改變人物姿勢。最經典的例子就是相機角度控制，又可以叫快速切換視角。

Qwen-Image-Edit當然不止這些能力，所以我還用來挑戰多圖融合與編輯，文字排版與信息圖，真人換裝，IP周邊設計，以及肖像照風格轉換。某書上面最近在火的人物拆解圖反而在X上沒翻出多大水花。

先看多圖融合，

將賽博朋克城市與寧靜森林融合，邊緣無縫銜接，為樹木添加霓虹燈，高細節，8K 分辨率。

生成的圖片里，霓虹燈纏繞在古樹上，

科技與自然那種沖突又和諧的美感，被處理得很細膩，邊緣沒有明顯的拼接痕跡。

再看文字排版。這個是我最想測的，Banana2這次我印象最深的幾種效果就有寫故事，

請為“采菊東籬下，悠然見南山。”這首詩配圖。

Qwen-Image-Edit有中文生成能力，但實話實話還不能做到在一張圖里面塞一整首詩。

接著是真人換裝，本質上也是多元素組合，

將這張平鋪的當季連衣裙變成一位穿著它在T臺上走秀的亞洲女性，優雅姿勢，真實光線，照片般逼真。

模特穿上了參考圖里的裙子，皮鞋，袋子，絲巾等元素，避開了雜志圖里面作為干擾項的墨鏡。

然后是IP周邊設計，

為哆啦 A 夢設計商品：T 恤，圖案為角色手持道具，藍色配色方案，可愛風格，包含中文文字'任意門'。

這其實是在考模型的世界知識，看看它知不知道哆啦 A 夢是什么，對于比較日常成熟的主題Qwen-Image-Edit是可以準確畫出來的，但是復雜加倍的產品拆解圖還是值得優化的空間。

最后是肖像照風格轉換。

職業裝年輕女性肖像，影棚燈光，逼真皮膚質感，添加微妙微笑，企業背景。

這個中景的皮膚細節，服裝和背景的虛化，我覺得用來做脈脈頭像，簡歷照片，甚至是工牌照，都可以用。

這次我用了不一樣的case收集思路，

上面的提示語基本都是老外寫的提示語翻譯過來的，通過這些case可以看出來他們關注的重點，

反過來用來測試國產圖像模型，挑戰其實會更大。

記得上次我寫千問的時候，

評論區里就有朋友催更Qwen-Image-Edit。我懷疑千問開發組天天看評論區上新。

這幾年，Qwen開源了很多超好用的模型。

但說實話，對于普通用戶來說，門檻還是太高了。

你得去HuggingFace，去GitHub，得會部署，得有顯卡。很多好東西，因為沒有一個簡單的界面，導致很多人根本沒用上。

千問App這次的更新，

屬于是雙向奔赴了。

真心希望能繼續保持這個節奏，

把更多好玩好用的功能加進去，

變成我們手機里新的AI入口。

@ 作者 / 卡爾

最后，感謝你看到這里如果喜歡這篇文章，不妨順手給我們點贊｜在看｜轉發｜評論

如果想要第一時間收到推送，不妨給我個星標

更多的內容正在不斷填坑中……

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.