雞你太美,很絲滑??
上線不到兩周半,千問(wèn)APP又進(jìn)化了:多模態(tài)創(chuàng)作能力全面升級(jí)。
視頻方面,基于Wan 2.5的音視頻同出能力,一張圖+一段提示詞就能輸出各種唱跳、表演視頻。
生圖方面,全新升級(jí)了圖片生成與編輯模型Qwen-Image-Edit,有著超強(qiáng)的一致性,擅長(zhǎng)生圖、修圖、多視角轉(zhuǎn)換、多圖融合和多模態(tài)推理。
省流:最新、最強(qiáng)的多模態(tài)模型,已上線千問(wèn)APP。
Ps,千問(wèn)APP需要升級(jí)至5.1.0版本以上,才能體驗(yàn)。
![]()
實(shí)測(cè)體驗(yàn)
我們,這就來(lái)實(shí)測(cè)體驗(yàn)。
首先出場(chǎng)的,是我們四川文旅的當(dāng)紅炸子雞:三星堆。
這是一張商青銅立人像,看起來(lái)就像在練著某種武功秘籍,有沒(méi)有?
![]()
我拍的時(shí)候,游客太多了,用千問(wèn)把他們通通消掉。
把圖片背景里的人都去掉。
![]()
注意看,左下角那兩張掛在墻上的展圖和右后方的玻璃展柜,全部是由模型自己推理出來(lái)的,與原畫很貼合,非常牛逼。
把背景改為純黑色背景,用于藏品展示。
![]()
生成左視角圖片。
![]()
生成右視角圖片。
![]()
生成手辦。
![]()
Prompt:turn this photo into a character figure. Behind it, place a box with the character’s image printed on it, and a computer showing the Blender modeling process on its screen. In front of the box, add a round plastic base with the character figure standing on it. Make the PVC material look clear, and set the scene indoors if possible.
我把完整的對(duì)話截圖,放在這里了,大家可以看下整個(gè)生成過(guò)程。
(可上下滑動(dòng),查看全圖)
圖片有了,我們也可以讓它生成視頻,用這句提示詞:
幫我生成視頻,圖中的主體一邊練著武功,一邊說(shuō):松而不懈,緊而不僵,氣沉丹田,意守其中。
畫面、臺(tái)詞、字幕,全由千問(wèn)直接生成。
哈哈,我就說(shuō)他是在練武功吧,這回可算找著證據(jù)了(眾所周知視頻是不能P的)。
而且,千問(wèn)還能存實(shí)況圖片,發(fā)朋友圈裝x的本事又學(xué)到了,hhh~
![]()
千問(wèn)之所以能整活,主要是背后有兩個(gè)頂尖的模型。
一是全新升級(jí)的Qwen-Image-Edit,相較上一代版本,新Qwen-Image-Edit模型在多項(xiàng)性能上都有所增強(qiáng):
圖片編輯,大幅減輕了主體偏移問(wèn)題,生圖不模糊、更穩(wěn)定;
提升主體一致性,多圖融合更穩(wěn)定;
語(yǔ)義理解增強(qiáng),既能看懂圖片,也能改好圖片。
尤其擅長(zhǎng)改圖(顏色、場(chǎng)景、材質(zhì)和局部修改)、多視角轉(zhuǎn)換、多圖融合和多模態(tài)推理(比如做幾何題)。
比如,可以讓圖1變換為圖2的姿勢(shì)。
或者,給圖1的角色穿上圖2的衣服。
二是最新的Wan2.5視頻模型。這是業(yè)界少有的具備音畫同出能力的視頻模型,可以生成和畫面匹配的人聲、音效和音樂(lè)BGM。
無(wú)論是真人照片、萌寵、二次元角色,還是文物、卡通形象,千問(wèn)APP都支持“一張照片就能跳舞”的創(chuàng)意玩法,可以生成口型精準(zhǔn)、動(dòng)作絲滑的“邊唱邊跳”視頻。
最長(zhǎng),支持10S、1080P。
比如,可以跳孤身?yè)u。
提示詞:幫我生成跳舞視頻,讓圖片中的人物跳孤身?yè)u。
以及,橘貓和小狗主持的播客節(jié)目。
提示詞:一檔貓咩和小狗主持的播客節(jié)目,橘貓開(kāi)心的說(shuō):“今天心情不錯(cuò),因?yàn)槲覄偝晒ν狄u了一只激光筆。”接著,小狗補(bǔ)充:“我也心情不錯(cuò),因?yàn)槲規(guī)湍銏?bào)了仇,把那支激光筆咬斷了,哈哈哈。”說(shuō)完它們兩對(duì)視一眼,開(kāi)心大笑。
也可以清唱:明月幾時(shí)有。
提示詞:圖中的人物一邊跳舞,一邊唱:明月幾時(shí)有,把酒問(wèn)青天。
![]()
更多玩法
基于這些模型,千問(wèn)APP其實(shí)有很多玩法。
1)生圖-生視頻
先讓千問(wèn)幫我畫圖,然后再用畫的圖生成視頻,全在一個(gè)Chat框里搞定。
![]()
這是用第一張圖生成的視頻,很有宮崎駿的味道。
2)改圖-生視頻
也可以讓千問(wèn)先改圖再生成視頻,比如我仿制的瑪麗蓮·夢(mèng)露風(fēng)格廣告大片。
![]()
這是用第二張圖生成的視頻。
以及,老黃和奧特曼合唱《中國(guó)話》。
![]()
3)連續(xù)性改圖
同時(shí),千問(wèn)也是支持連續(xù)性改圖的,這一致性保持得非常不錯(cuò)。
![]()
如果你不會(huì)寫提示詞,還可以直接讓千問(wèn)生成繪圖提示詞,然后讓千問(wèn)用繪圖提示詞生成圖片,再基于生成的圖片生成視頻。
這鏈路,齊活了。
![]()
上線兩周半,千問(wèn)的動(dòng)作還是挺快的。
基本上,最新、最強(qiáng)的模型都會(huì)第一時(shí)間上千問(wèn)。而且它是徹底的All in One——一個(gè)Chat窗口解決所有input問(wèn)題,沒(méi)有單獨(dú)的入口,也無(wú)需點(diǎn)膠囊按鈕,直接一句指令,全都搞定。
比如,幫我生成視頻、幫我創(chuàng)建圖片、幫我改圖、幫我翻譯、幫我寫HTML、幫我寫PPT……
這次的千問(wèn),它真的把“復(fù)雜留給模型,簡(jiǎn)單留給用戶”做到了極致。
上周四,我到阿里巴巴北京總部參加夸克AI眼鏡發(fā)布會(huì),千問(wèn)負(fù)責(zé)人吳嘉現(xiàn)場(chǎng)透露:千問(wèn)公測(cè)僅一周,下載量已突破1000萬(wàn)。
![]()
這速度,就很阿里,也很中國(guó)。
而這,或許只是這場(chǎng)智能革命的開(kāi)始。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.