網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

實(shí)測(cè)千問最新AI視頻、AI生圖，Qwen“最強(qiáng)”二字落地

2025-12-02 13:09:06　來源: 藍(lán)媒匯

天津舉報(bào)

分享至

作者 | 葉二編輯 | 魏曉

半個(gè)月前，阿里全新集團(tuán)戰(zhàn)略項(xiàng)目千問，正式對(duì)外公測(cè)。在官方的介紹中，在千問上，學(xué)習(xí)工作可以一站式搞定。而底氣，則正是基于阿里最強(qiáng)模型、全球開源第一的模型 Qwen 。

AI助手的能力，來自于模型基座。道理是這個(gè)道理，只是Qwen雖說早在B端展現(xiàn)出強(qiáng)大的技術(shù)實(shí)力，征服了一眾海內(nèi)外的開發(fā)者，但此前在面向普通消費(fèi)者的C端，并沒有太多建樹。

這也使得千問的強(qiáng)大，總歸是欠缺了直觀感知。

而現(xiàn)在，完全不一樣了。

就在今天，千問進(jìn)行了更新，一口氣接入AI生圖Qwen-Image最新模型和AI視頻模型Wan2.5等，這都是目前Qwen發(fā)布的面向AIGC創(chuàng)作領(lǐng)域的最新模型，尤其是前者，更是當(dāng)下全球最強(qiáng)的圖像開源模型，并且更夸張的是，免費(fèi)開放。

是的，沒看錯(cuò)，免費(fèi)。

與此同時(shí)，隨著這一系列多模態(tài)能力，以及文生圖、圖生視頻等生成式AI功能在千問上的集中釋放，Qwen的底層實(shí)力也第一次真正“可視化”地呈現(xiàn)在大眾面前。

AI藍(lán)媒匯第一時(shí)間也進(jìn)行了實(shí)測(cè)，體驗(yàn)下來，只想說兩句話。

一句是，千問果然沒唬人，Qwen不愧是 “最強(qiáng)開源大模型”，一出手就知有沒有。另一句是，這么好的產(chǎn)品，阿里為什么不早點(diǎn)拿出來給C端用。

“所想即所得”的創(chuàng)意世界

先看下千問此次加入的Wan2.5 AI生視頻能力，要知道，視頻作為信息密度最高、表現(xiàn)力最強(qiáng)的媒介之一，是模型能力最直觀的展示。

AI藍(lán)媒匯通過千問搭載的Wan2.5 AI生視頻，以一張靜態(tài)美女圖為主體，讓鏡頭圍繞其360度旋轉(zhuǎn)，然后空中飄下彩帶，定格，并選擇5S視頻（另一個(gè)選項(xiàng)是10S）、設(shè)置好清晰度，打開了智能配音，開啟生成。

在差不多3分鐘左右的時(shí)間，這樣一個(gè)視頻便做好了。

看看效果。

視頻不僅完整繼承了原始圖像中女孩的外貌特征、服裝細(xì)節(jié)，并且AI進(jìn)一步還原了女孩的整個(gè)面部，展現(xiàn)了Wan2.5模型的智能補(bǔ)全與重建能力。

原圖中，女孩呈現(xiàn)“一睜眼、一閉眼”的非對(duì)稱狀態(tài)；而AI在生成動(dòng)態(tài)視頻時(shí)，自動(dòng)推演并補(bǔ)全了閉合眼瞼的自然睜開過程，使面部表情過渡流暢、五官比例協(xié)調(diào)，整體觀感極為自然，毫無違和感。

同時(shí)模型具備較強(qiáng)的語義理解和場(chǎng)景推理能力，生成的場(chǎng)景，與AI藍(lán)媒匯想要達(dá)成的效果基本一致。在動(dòng)作方面，其中，彩帶從天而降，飄落軌跡也非常合理，符合現(xiàn)實(shí)物理規(guī)律。

更大的亮點(diǎn)還在于，Wan2.5可以在生成時(shí)選擇智能配音，可以自動(dòng)匹配符合場(chǎng)景情緒的語音或音效，并實(shí)現(xiàn)音畫同步——口型、表情、動(dòng)作與聲音節(jié)奏相互呼應(yīng)。

本視頻中便匹配了一個(gè)節(jié)奏前期快速，然后中期轉(zhuǎn)折變得舒緩的音效，極大提升了內(nèi)容的沉浸感與傳播力。

這種是貼近現(xiàn)實(shí)風(fēng)的，現(xiàn)在來試試“幻想風(fēng)格”的。

將一張小狗的圖，變成一個(gè)巫師小狗的視頻，騎著魔杖，飛行在霍格沃茨的城堡中，生成條件，5S，未打開智能配音。

效果還是很像那么回事。一個(gè)原本還在花叢中的小狗，搖身一變就成為了巫師小狗，畫面過渡非常自然，場(chǎng)景切換也比較絲滑。值得注意的是，畫面中的巫師斗篷，一直在隨風(fēng)飄動(dòng)，非常真實(shí)，顯示出高速飛行下的速度感。

再搞點(diǎn)有意思的。

千問AI視頻創(chuàng)作，還上線了AI跳舞功能的迭代版“全民唱跳2.0”，還是這個(gè)狗狗，我們?cè)囍屗鼘?duì)口型，唱一下哈基米之歌。都知道，對(duì)口型AI創(chuàng)作原本為人類語音設(shè)計(jì)，對(duì)動(dòng)物嘴型的適配屬于“跨域遷移”，難度相對(duì)比較大。

從千問生成的這段視頻來看，整體看下來，狗狗對(duì)口型的準(zhǔn)確度，達(dá)到了90%左右，嘴型、眼睛、乃至舌頭，都隨著“發(fā)聲”，實(shí)現(xiàn)了相應(yīng)匹配，達(dá)到了 “能玩、有趣”的水平。

再換個(gè)歷史人物，讓莎士比亞穿越到現(xiàn)在，跳一首歡快的舞蹈。

好了，現(xiàn)在再試試，一句話生成視頻，看看效果。

“夜晚的未來都市，全息廣告牌閃爍，一只機(jī)械貓眨眼，‘歡迎來到賽博天津’文字滾動(dòng)。虛擬偶像在跳舞。”

描述還是很寬泛，缺乏明顯參照?qǐng)D等關(guān)鍵信息，不過Wan2.5還是盡可能地構(gòu)建出一個(gè)具有辨識(shí)度的賽博朋克城市片段。細(xì)節(jié)方面，其中機(jī)械貓以銀色金屬質(zhì)感呈現(xiàn)，眼部采用發(fā)光矩陣設(shè)計(jì)，具備自然眨眼動(dòng)畫，賦予角色生命力。核心文字也非常清晰，從右向左滾動(dòng)，節(jié)奏穩(wěn)定。畫面光影層次豐富，同時(shí)搭配科幻感BGM，沉浸感強(qiáng)。

整體測(cè)下來，千問AI生視頻的能力，還是挺出乎人意料的。

市場(chǎng)普遍都知道，過去在AI視頻生成這個(gè)賽道上，阿里產(chǎn)品相對(duì)比較低調(diào)，名聲并不突出，但沒想到，默默發(fā)育，能力已經(jīng)涌現(xiàn)到如此程度了，生成質(zhì)量和適配性均達(dá)到國際頂尖水平。

超高一致性的生產(chǎn)力工具

視頻讓人“所想即所得”之外，再來看看“千問”此次搭載的AI生圖模型實(shí)戰(zhàn)效果。

公開資料顯示，Qwen-Image在Huggingface趨勢(shì)榜登頂數(shù)周，開源全球第一，在AI arena競(jìng)技場(chǎng)，排名僅次于閉源模型nano banana、seedream 4.0，是全球最強(qiáng)圖像開源模型。

而據(jù)說此次千問搭載的是Qwen-Image最新模型，是Qwen-Image 2511，是Qwen-Image給千問定制的特供滿血版本。

那來看看，全球最強(qiáng)圖像開源模型到底是怎么個(gè)全球最強(qiáng)？特供滿血版，又是怎樣的火力全開？

以用戶合影需求為例。

AI藍(lán)媒匯以上文中的小狗圖，以及一張人物圖，做了測(cè)試，“把狗狗放到人物圖中”，Qwen-Image 2511直接生成了一張狗狗坐在人物懷里的圖，保持了高度一致性。無論是人物，還是動(dòng)物，都保持了高度一致：狗狗毛色和體型在全新圖片中保持一致，確保了主體形象的統(tǒng)一。人物也同樣如此。

并且，AI很好的理解了用戶的意圖，將狗狗與人物的位置關(guān)系，處理的非常自然和諧。

換個(gè)姿勢(shì)，“讓人物站著抱著小狗”。

這個(gè)指令，相當(dāng)于無論是人物，還是小狗，其姿態(tài)都需要發(fā)生變化。但生成出來的圖片，人物姿態(tài)轉(zhuǎn)換流暢，抱狗的肢體動(dòng)作也符合人體工學(xué)，并且一如既往，保持了超高的人物、動(dòng)物一致性。

還可以，再加個(gè)索尼FL效果濾鏡，一下子質(zhì)感就出來了。

這種超高的一致性，也直接讓千問更是能成為一個(gè)提升生產(chǎn)力的工具。

AI藍(lán)媒匯先讓AI為辦公室放著的一個(gè)蘇打餅干包裝添加藍(lán)媒匯主題英文標(biāo)識(shí)logo，logo的字體風(fēng)格、印刷質(zhì)感與餅干包裝的材質(zhì)、色調(diào)高度貼合，無明顯的違和感。

后續(xù)基于該包裝圖生成雙十二圣誕主題促銷海報(bào)，AI將餅干主體與圣誕元素（圣誕樹、雪花、禮盒）融合自然，中文促銷信息排版清晰，整體視覺風(fēng)格契合食品類海報(bào)的營銷調(diào)性，效果達(dá)標(biāo)。

腦洞再大點(diǎn)，一張圣誕主題的像素蘋果海報(bào)。

從生成效果來看，Qwen-Image 2511具備非常強(qiáng)的文字處理能力，與排版理解能力。這意味著它能“畫圖”，還能“做設(shè)計(jì)”。

比如一張模特圖，與一張商品圖，實(shí)現(xiàn)“換裝”。

又或者，一句話生成一張商品促銷海報(bào)。

等等，可以清楚看出，此次千問上線的Qwen-Image最新模型不僅僅是一個(gè)幫助用戶將創(chuàng)意轉(zhuǎn)化為現(xiàn)實(shí)的工具，它同樣也能直接應(yīng)用于商業(yè)環(huán)境中，展現(xiàn)出其在品牌視覺延展與電商內(nèi)容生成場(chǎng)景中的落地價(jià)值。

對(duì)了，最最最重要的一點(diǎn)，這些功能目前都免費(fèi)開放，無論是文生圖，還是圖生圖，甚至是過去在修圖軟件上需要付費(fèi)的包括P圖精修、多元風(fēng)格濾鏡的一應(yīng)功能，全部免費(fèi)。主打就是一個(gè)全面開放，免費(fèi)開放，讓人人可及、即想即用。

整體來看，此次“千問”接入了Wan2.5和Qwen-Image 2511等最新大模型，從原本的ChatBot直接躍升至全棧式AIGC創(chuàng)意助手。

Qwen的強(qiáng)大，也直觀呈現(xiàn)在大眾面前，不再只是工程師口中的“最強(qiáng)開源大模型”，而是化身為普通人觸手可及的創(chuàng)意伙伴——只需一句自然語言，就精準(zhǔn)還原生活場(chǎng)景、生成高一致性角色，并賦予畫面以流暢動(dòng)作與真實(shí)聲效，真正實(shí)現(xiàn)了“想得到，就看得見、聽得真、用得上”。

而對(duì)于“千問”本身而言，這也直接意味著，其將Qwen大模型的底層實(shí)力，變成了普通人也能輕松駕馭的創(chuàng)造力、生產(chǎn)力。

基于最強(qiáng)開源大模型Qwen打造的千問，果然沒唬人。相信接下來，Qwen的更多先進(jìn)強(qiáng)大的能力，還將持續(xù)封裝進(jìn)入千問。一個(gè)萬能的AI助手，越來越近了。

（文中圖片、視頻，均為千問AI生成）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.