![]()
作者 | 葉二 編輯 | 魏曉
半個(gè)月前,阿里全新集團(tuán)戰(zhàn)略項(xiàng)目千問,正式對(duì)外公測(cè)。在官方的介紹中,在千問上,學(xué)習(xí)工作可以一站式搞定。而底氣,則正是基于阿里最強(qiáng)模型、全球開源第一的模型 Qwen 。
AI助手的能力,來自于模型基座。道理是這個(gè)道理,只是Qwen雖說早在B端展現(xiàn)出強(qiáng)大的技術(shù)實(shí)力,征服了一眾海內(nèi)外的開發(fā)者,但此前在面向普通消費(fèi)者的C端,并沒有太多建樹。
這也使得千問的強(qiáng)大,總歸是欠缺了直觀感知。
而現(xiàn)在,完全不一樣了。
就在今天,千問進(jìn)行了更新,一口氣接入AI生圖Qwen-Image最新模型和AI視頻模型Wan2.5等,這都是目前Qwen發(fā)布的面向AIGC創(chuàng)作領(lǐng)域的最新模型,尤其是前者,更是當(dāng)下全球最強(qiáng)的圖像開源模型,并且更夸張的是,免費(fèi)開放。
是的,沒看錯(cuò),免費(fèi)。
![]()
與此同時(shí),隨著這一系列多模態(tài)能力,以及文生圖、圖生視頻等生成式AI功能在千問上的集中釋放,Qwen的底層實(shí)力也第一次真正“可視化”地呈現(xiàn)在大眾面前。
AI藍(lán)媒匯第一時(shí)間也進(jìn)行了實(shí)測(cè),體驗(yàn)下來,只想說兩句話。
一句是,千問果然沒唬人,Qwen不愧是 “最強(qiáng)開源大模型”,一出手就知有沒有。另一句是,這么好的產(chǎn)品,阿里為什么不早點(diǎn)拿出來給C端用。
“所想即所得”的創(chuàng)意世界
先看下千問此次加入的Wan2.5 AI生視頻能力,要知道,視頻作為信息密度最高、表現(xiàn)力最強(qiáng)的媒介之一,是模型能力最直觀的展示。
AI藍(lán)媒匯通過千問搭載的Wan2.5 AI生視頻,以一張靜態(tài)美女圖為主體,讓鏡頭圍繞其360度旋轉(zhuǎn),然后空中飄下彩帶,定格,并選擇5S視頻(另一個(gè)選項(xiàng)是10S)、設(shè)置好清晰度,打開了智能配音,開啟生成。
在差不多3分鐘左右的時(shí)間,這樣一個(gè)視頻便做好了。
看看效果。
視頻不僅完整繼承了原始圖像中女孩的外貌特征、服裝細(xì)節(jié),并且AI進(jìn)一步還原了女孩的整個(gè)面部,展現(xiàn)了Wan2.5模型的智能補(bǔ)全與重建能力。
原圖中,女孩呈現(xiàn)“一睜眼、一閉眼”的非對(duì)稱狀態(tài);而AI在生成動(dòng)態(tài)視頻時(shí),自動(dòng)推演并補(bǔ)全了閉合眼瞼的自然睜開過程,使面部表情過渡流暢、五官比例協(xié)調(diào),整體觀感極為自然,毫無違和感。
同時(shí)模型具備較強(qiáng)的語義理解和場(chǎng)景推理能力,生成的場(chǎng)景,與AI藍(lán)媒匯想要達(dá)成的效果基本一致。在動(dòng)作方面,其中,彩帶從天而降,飄落軌跡也非常合理,符合現(xiàn)實(shí)物理規(guī)律。
更大的亮點(diǎn)還在于,Wan2.5可以在生成時(shí)選擇智能配音,可以自動(dòng)匹配符合場(chǎng)景情緒的語音或音效,并實(shí)現(xiàn)音畫同步——口型、表情、動(dòng)作與聲音節(jié)奏相互呼應(yīng)。
本視頻中便匹配了一個(gè)節(jié)奏前期快速,然后中期轉(zhuǎn)折變得舒緩的音效,極大提升了內(nèi)容的沉浸感與傳播力。
這種是貼近現(xiàn)實(shí)風(fēng)的,現(xiàn)在來試試“幻想風(fēng)格”的。
將一張小狗的圖,變成一個(gè)巫師小狗的視頻,騎著魔杖,飛行在霍格沃茨的城堡中,生成條件,5S,未打開智能配音。
效果還是很像那么回事。一個(gè)原本還在花叢中的小狗,搖身一變就成為了巫師小狗,畫面過渡非常自然,場(chǎng)景切換也比較絲滑。值得注意的是,畫面中的巫師斗篷,一直在隨風(fēng)飄動(dòng),非常真實(shí),顯示出高速飛行下的速度感。
再搞點(diǎn)有意思的。
千問AI視頻創(chuàng)作,還上線了AI跳舞功能的迭代版“全民唱跳2.0”,還是這個(gè)狗狗,我們?cè)囍屗鼘?duì)口型,唱一下哈基米之歌。都知道,對(duì)口型AI創(chuàng)作原本為人類語音設(shè)計(jì),對(duì)動(dòng)物嘴型的適配屬于“跨域遷移”,難度相對(duì)比較大。
從千問生成的這段視頻來看,整體看下來,狗狗對(duì)口型的準(zhǔn)確度,達(dá)到了90%左右,嘴型、眼睛、乃至舌頭,都隨著“發(fā)聲”,實(shí)現(xiàn)了相應(yīng)匹配,達(dá)到了 “能玩、有趣”的水平。
再換個(gè)歷史人物,讓莎士比亞穿越到現(xiàn)在,跳一首歡快的舞蹈。
好了,現(xiàn)在再試試,一句話生成視頻,看看效果。
“夜晚的未來都市,全息廣告牌閃爍,一只機(jī)械貓眨眼,‘歡迎來到賽博天津’文字滾動(dòng)。虛擬偶像在跳舞。”
描述還是很寬泛,缺乏明顯參照?qǐng)D等關(guān)鍵信息,不過Wan2.5還是盡可能地構(gòu)建出一個(gè)具有辨識(shí)度的賽博朋克城市片段。細(xì)節(jié)方面,其中機(jī)械貓以銀色金屬質(zhì)感呈現(xiàn),眼部采用發(fā)光矩陣設(shè)計(jì),具備自然眨眼動(dòng)畫,賦予角色生命力。核心文字也非常清晰,從右向左滾動(dòng),節(jié)奏穩(wěn)定。畫面光影層次豐富,同時(shí)搭配科幻感BGM,沉浸感強(qiáng)。
整體測(cè)下來,千問AI生視頻的能力,還是挺出乎人意料的。
市場(chǎng)普遍都知道,過去在AI視頻生成這個(gè)賽道上,阿里產(chǎn)品相對(duì)比較低調(diào),名聲并不突出,但沒想到,默默發(fā)育,能力已經(jīng)涌現(xiàn)到如此程度了,生成質(zhì)量和適配性均達(dá)到國際頂尖水平。
超高一致性的生產(chǎn)力工具
視頻讓人“所想即所得”之外,再來看看“千問”此次搭載的AI生圖模型實(shí)戰(zhàn)效果。
公開資料顯示,Qwen-Image在Huggingface趨勢(shì)榜登頂數(shù)周,開源全球第一 ,在AI arena競(jìng)技場(chǎng),排名僅次于閉源模型nano banana、seedream 4.0,是全球最強(qiáng)圖像開源模型。
而據(jù)說此次千問搭載的是Qwen-Image最新模型,是Qwen-Image 2511,是Qwen-Image給千問定制的特供滿血版本。
那來看看,全球最強(qiáng)圖像開源模型到底是怎么個(gè)全球最強(qiáng)?特供滿血版,又是怎樣的火力全開?
以用戶合影需求為例。
![]()
AI藍(lán)媒匯以上文中的小狗圖,以及一張人物圖,做了測(cè)試,“把狗狗放到人物圖中”,Qwen-Image 2511直接生成了一張狗狗坐在人物懷里的圖,保持了高度一致性。無論是人物,還是動(dòng)物,都保持了高度一致:狗狗毛色和體型在全新圖片中保持一致,確保了主體形象的統(tǒng)一。人物也同樣如此。
![]()
并且,AI很好的理解了用戶的意圖,將狗狗與人物的位置關(guān)系,處理的非常自然和諧。
換個(gè)姿勢(shì),“讓人物站著抱著小狗”。
![]()
這個(gè)指令,相當(dāng)于無論是人物,還是小狗,其姿態(tài)都需要發(fā)生變化。但生成出來的圖片,人物姿態(tài)轉(zhuǎn)換流暢,抱狗的肢體動(dòng)作也符合人體工學(xué),并且一如既往,保持了超高的人物、動(dòng)物一致性。
還可以,再加個(gè)索尼FL效果濾鏡,一下子質(zhì)感就出來了。
![]()
這種超高的一致性,也直接讓千問更是能成為一個(gè)提升生產(chǎn)力的工具。
AI藍(lán)媒匯先讓AI為辦公室放著的一個(gè)蘇打餅干包裝添加藍(lán)媒匯主題英文標(biāo)識(shí)logo,logo的字體風(fēng)格、印刷質(zhì)感與餅干包裝的材質(zhì)、色調(diào)高度貼合,無明顯的違和感。
![]()
后續(xù)基于該包裝圖生成雙十二圣誕主題促銷海報(bào),AI將餅干主體與圣誕元素(圣誕樹、雪花、禮盒)融合自然,中文促銷信息排版清晰,整體視覺風(fēng)格契合食品類海報(bào)的營銷調(diào)性,效果達(dá)標(biāo)。
腦洞再大點(diǎn),一張圣誕主題的像素蘋果海報(bào)。
![]()
從生成效果來看,Qwen-Image 2511具備非常強(qiáng)的文字處理能力,與排版理解能力。這意味著它能“畫圖”,還能“做設(shè)計(jì)”。
比如一張模特圖,與一張商品圖,實(shí)現(xiàn)“換裝”。
![]()
![]()
又或者,一句話生成一張商品促銷海報(bào)。
![]()
![]()
![]()
等等,可以清楚看出,此次千問上線的Qwen-Image最新模型不僅僅是一個(gè)幫助用戶將創(chuàng)意轉(zhuǎn)化為現(xiàn)實(shí)的工具,它同樣也能直接應(yīng)用于商業(yè)環(huán)境中,展現(xiàn)出其在品牌視覺延展與電商內(nèi)容生成場(chǎng)景中的落地價(jià)值。
對(duì)了,最最最重要的一點(diǎn),這些功能目前都免費(fèi)開放,無論是文生圖,還是圖生圖,甚至是過去在修圖軟件上需要付費(fèi)的包括P圖精修、多元風(fēng)格濾鏡的一應(yīng)功能,全部免費(fèi)。主打就是一個(gè)全面開放,免費(fèi)開放,讓人人可及、即想即用。
整體來看,此次“千問”接入了Wan2.5和Qwen-Image 2511等最新大模型,從原本的ChatBot直接躍升至全棧式AIGC創(chuàng)意助手。
Qwen的強(qiáng)大,也直觀呈現(xiàn)在大眾面前,不再只是工程師口中的“最強(qiáng)開源大模型”,而是化身為普通人觸手可及的創(chuàng)意伙伴——只需一句自然語言,就精準(zhǔn)還原生活場(chǎng)景、生成高一致性角色,并賦予畫面以流暢動(dòng)作與真實(shí)聲效,真正實(shí)現(xiàn)了“想得到,就看得見、聽得真、用得上”。
而對(duì)于“千問”本身而言,這也直接意味著,其將Qwen大模型的底層實(shí)力,變成了普通人也能輕松駕馭的創(chuàng)造力、生產(chǎn)力。
基于最強(qiáng)開源大模型Qwen打造的千問,果然沒唬人。相信接下來,Qwen的更多先進(jìn)強(qiáng)大的能力,還將持續(xù)封裝進(jìn)入千問。一個(gè)萬能的AI助手,越來越近了。
(文中圖片、視頻,均為千問AI生成)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.