能看出來阿里做千問的決心了,
這兩天視頻模型Wan-2.5和圖像模型Qwen-Image-Edit已經上線了,
![]()
Qwen-Image-Edit沒有使用限制
![]()
![]()
![]()
Wan-2.5免費用戶一天可以生成10個
所以這次我從Nano Banana Pro和Veo3.1各自選出了5種適合千問的玩法,包括影片空鏡,角色一致性,互動場景,短視頻,以及廣告分鏡;多圖融合與編輯,文字排版與信息圖,真人換裝,IP周邊設計,以及肖像照風格轉換。
一樣是有打包好的提示語和生成效果,公眾號后臺發“千問”就好了
先說Wan2.5吧,
音畫同步,10s時長1080P,支持上傳參考圖片,但自帶的參考音頻這次展示沒有更新到千問App上
一個中年男子坐在溫馨書房的木桌前,周圍是書架和溫暖的燈光。他打開一本舊書,用平靜而深沉的聲音朗讀:"歷史教給我們的不僅僅是事實……它向我們展示了我們是誰。"房間里有細微的背景音:翻書聲、時鐘微弱的滴答聲,以及遠處窗外的雨聲。
生成的視頻里中年男人的口型是跟這旁白走的,而且我刻意打的“……”在視頻里面也是有停頓的表現。
再來看一個更難的。
一位自信美麗的年輕美國女性手持麥克風站在舞臺上,背景是播放著抽象視覺效果的大型LED屏幕。她微笑著向觀眾們說道:"Good evening everyone. Tonight, I want to share three powerful lessons about leadership and innovation." 她的口型與聲音完美同步,說話時輔以富有表現力的手勢動作。
這個Case主要測的是英文口型和肢體語言的協調性。Wan-2.5處理得非常自然,手勢沒有亂飛,口型也對上了。
除了音畫同步,我還參考了Grok在X上目前排名最火的5個使用場景,來了一波橫向測評。這五個場景分別是,影片空鏡,角色一致性,互動場景,短視頻,以及廣告分鏡。
第一種,影片空鏡。這通常用于電影的故事續寫,或者給視頻做特效增強。
黃昏時分的未來城市景觀,通過添加在摩天大樓間穿梭的飛行汽車來擴展場景,平滑過渡,電影感光照,4K 分辨率。
生成的畫面里,光影的過渡非常絲滑,汽車飛過的噴氣聲是會從近到遠的,在樓宇間穿梭的軌跡也很符合物理邏輯。接下來的角色一致性生成是經典case了,為的是保持多鏡頭對話和系統視頻里面我們用的主角是一樣的。
一個有著銀色長發和綠色長袍的年輕巫師在森林中施法,保持場景間形象一致,添加對話:'Expecto Patronum!',情緒表達:專注和堅定。
第三種互動場景也是高頻使用了,通常是包含基本動作、互動和人物情緒的。
兩個朋友在雨中跑過街道,笑著濺起水洼,包括跳過障礙物,快樂情緒,關鍵時刻慢動作,城市背景。
這里面涉及到了跑步、跳躍、水花飛濺,還有慢動作。千問生成的視頻里,兩個人手拉手一起運行也沒有融合或者重疊,腳踩進水里的物理反饋也基本正確,那種快樂的情緒通過慢動作和音效傳遞得很到位。
排名第四的短視頻,我第一時間想起來之前看到的紅外監控系列,
一群可愛的兔子在臥室的床上跳躍,模仿紅外監控攝像頭風格,活潑而混亂,可循環 10 秒。
出來的效果有那種深夜監控實錄的感覺,而且滿足無限循環的特點,
兔子的動作過于活潑而顯得有點鬼畜。。。
OK,來個廣告分鏡,這個場景不僅考畫面,還考文字生成能力。
NBA 總決賽宣傳視頻:籃球運動員慢動作扣籃,觀眾歡呼,添加字幕'Champion',配樂同步
這里比較難的是文字疊加和切換鏡頭。以前的AI視頻里,字都是亂碼。但這次Wan-2.5生成的畫面里,Champion這幾個字雖然還是有點AI味,但已經基本可讀了,鏡頭切換也完成了提示語的要求,氛圍感很強。
聊完視頻,再來看看那個沒有使用限制的Qwen-Image-Edit。
支持多圖融合,還原生支持ControlNet,可通過關鍵點圖改變人物姿勢。最經典的例子就是相機角度控制,又可以叫快速切換視角。
Qwen-Image-Edit當然不止這些能力,所以我還用來挑戰多圖融合與編輯,文字排版與信息圖,真人換裝,IP周邊設計,以及肖像照風格轉換。某書上面最近在火的人物拆解圖反而在X上沒翻出多大水花。
先看多圖融合,
將賽博朋克城市與寧靜森林融合,邊緣無縫銜接,為樹木添加霓虹燈,高細節,8K 分辨率。
![]()
生成的圖片里,霓虹燈纏繞在古樹上,
科技與自然那種沖突又和諧的美感,被處理得很細膩,邊緣沒有明顯的拼接痕跡。
再看文字排版。這個是我最想測的,Banana2這次我印象最深的幾種效果就有寫故事,
請為“采菊東籬下,悠然見南山。”這首詩配圖。
![]()
Qwen-Image-Edit有中文生成能力,但實話實話還不能做到在一張圖里面塞一整首詩。
接著是真人換裝,本質上也是多元素組合,
將這張平鋪的當季連衣裙變成一位穿著它在T臺上走秀的亞洲女性,優雅姿勢,真實光線,照片般逼真。
![]()
![]()
模特穿上了參考圖里的裙子,皮鞋,袋子,絲巾等元素,避開了雜志圖里面作為干擾項的墨鏡。
然后是IP周邊設計,
為哆啦 A 夢設計商品:T 恤,圖案為角色手持道具,藍色配色方案,可愛風格,包含中文文字'任意門'。
![]()
這其實是在考模型的世界知識,看看它知不知道哆啦 A 夢是什么,對于比較日常成熟的主題Qwen-Image-Edit是可以準確畫出來的,但是復雜加倍的產品拆解圖還是值得優化的空間。
![]()
最后是肖像照風格轉換。
職業裝年輕女性肖像,影棚燈光,逼真皮膚質感,添加微妙微笑,企業背景。
![]()
![]()
![]()
這個中景的皮膚細節,服裝和背景的虛化,我覺得用來做脈脈頭像,簡歷照片,甚至是工牌照,都可以用。
這次我用了不一樣的case收集思路,
上面的提示語基本都是老外寫的提示語翻譯過來的,通過這些case可以看出來他們關注的重點,
反過來用來測試國產圖像模型,挑戰其實會更大。
記得上次我寫千問的時候,
評論區里就有朋友催更Qwen-Image-Edit。我懷疑千問開發組天天看評論區上新。
![]()
這幾年,Qwen開源了很多超好用的模型。
但說實話,對于普通用戶來說,門檻還是太高了。
你得去HuggingFace,去GitHub,得會部署,得有顯卡。很多好東西,因為沒有一個簡單的界面,導致很多人根本沒用上。
千問App這次的更新,
屬于是雙向奔赴了。
真心希望能繼續保持這個節奏,
把更多好玩好用的功能加進去,
變成我們手機里新的AI入口。
@ 作者 / 卡爾
最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉發|評論
如果想要第一時間收到推送,不妨給我個星標
更多的內容正在不斷填坑中……
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.