網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

千問(wèn)太離譜：我隨手一張圖，它給我整出個(gè)唱跳視頻

2025-12-02 16:53:05　來(lái)源: 沃垠AI

四川舉報(bào)

分享至

雞你太美，很絲滑??

上線不到兩周半，千問(wèn)APP又進(jìn)化了：多模態(tài)創(chuàng)作能力全面升級(jí)。

視頻方面，基于Wan 2.5的音視頻同出能力，一張圖+一段提示詞就能輸出各種唱跳、表演視頻。

生圖方面，全新升級(jí)了圖片生成與編輯模型Qwen-Image-Edit，有著超強(qiáng)的一致性，擅長(zhǎng)生圖、修圖、多視角轉(zhuǎn)換、多圖融合和多模態(tài)推理。

省流：最新、最強(qiáng)的多模態(tài)模型，已上線千問(wèn)APP。

Ps，千問(wèn)APP需要升級(jí)至5.1.0版本以上，才能體驗(yàn)。

實(shí)測(cè)體驗(yàn)

我們，這就來(lái)實(shí)測(cè)體驗(yàn)。

首先出場(chǎng)的，是我們四川文旅的當(dāng)紅炸子雞：三星堆。

這是一張商青銅立人像，看起來(lái)就像在練著某種武功秘籍，有沒(méi)有？

我拍的時(shí)候，游客太多了，用千問(wèn)把他們通通消掉。

把圖片背景里的人都去掉。

注意看，左下角那兩張掛在墻上的展圖和右后方的玻璃展柜，全部是由模型自己推理出來(lái)的，與原畫很貼合，非常牛逼。

把背景改為純黑色背景，用于藏品展示。

生成左視角圖片。

生成右視角圖片。

生成手辦。

Prompt：turn this photo into a character figure. Behind it, place a box with the character’s image printed on it, and a computer showing the Blender modeling process on its screen. In front of the box, add a round plastic base with the character figure standing on it. Make the PVC material look clear, and set the scene indoors if possible.

我把完整的對(duì)話截圖，放在這里了，大家可以看下整個(gè)生成過(guò)程。

（可上下滑動(dòng)，查看全圖）

圖片有了，我們也可以讓它生成視頻，用這句提示詞：

幫我生成視頻，圖中的主體一邊練著武功，一邊說(shuō)：松而不懈，緊而不僵，氣沉丹田，意守其中。

畫面、臺(tái)詞、字幕，全由千問(wèn)直接生成。

哈哈，我就說(shuō)他是在練武功吧，這回可算找著證據(jù)了（眾所周知視頻是不能P的）。

而且，千問(wèn)還能存實(shí)況圖片，發(fā)朋友圈裝x的本事又學(xué)到了，hhh~

千問(wèn)之所以能整活，主要是背后有兩個(gè)頂尖的模型。

一是全新升級(jí)的Qwen-Image-Edit，相較上一代版本，新Qwen-Image-Edit模型在多項(xiàng)性能上都有所增強(qiáng)：

圖片編輯，大幅減輕了主體偏移問(wèn)題，生圖不模糊、更穩(wěn)定；
提升主體一致性，多圖融合更穩(wěn)定；
語(yǔ)義理解增強(qiáng)，既能看懂圖片，也能改好圖片。

尤其擅長(zhǎng)改圖（顏色、場(chǎng)景、材質(zhì)和局部修改）、多視角轉(zhuǎn)換、多圖融合和多模態(tài)推理（比如做幾何題）。

比如，可以讓圖1變換為圖2的姿勢(shì)。

或者，給圖1的角色穿上圖2的衣服。

二是最新的Wan2.5視頻模型。這是業(yè)界少有的具備音畫同出能力的視頻模型，可以生成和畫面匹配的人聲、音效和音樂(lè)BGM。

無(wú)論是真人照片、萌寵、二次元角色，還是文物、卡通形象，千問(wèn)APP都支持“一張照片就能跳舞”的創(chuàng)意玩法，可以生成口型精準(zhǔn)、動(dòng)作絲滑的“邊唱邊跳”視頻。

最長(zhǎng)，支持10S、1080P。

比如，可以跳孤身?yè)u。

提示詞：幫我生成跳舞視頻，讓圖片中的人物跳孤身?yè)u。

以及，橘貓和小狗主持的播客節(jié)目。

提示詞：一檔貓咩和小狗主持的播客節(jié)目，橘貓開(kāi)心的說(shuō)：“今天心情不錯(cuò)，因?yàn)槲覄偝晒ν狄u了一只激光筆。”接著，小狗補(bǔ)充：“我也心情不錯(cuò)，因?yàn)槲規(guī)湍銏?bào)了仇，把那支激光筆咬斷了，哈哈哈。”說(shuō)完它們兩對(duì)視一眼，開(kāi)心大笑。

也可以清唱：明月幾時(shí)有。

提示詞：圖中的人物一邊跳舞，一邊唱：明月幾時(shí)有，把酒問(wèn)青天。

更多玩法

基于這些模型，千問(wèn)APP其實(shí)有很多玩法。

1）生圖-生視頻

先讓千問(wèn)幫我畫圖，然后再用畫的圖生成視頻，全在一個(gè)Chat框里搞定。

這是用第一張圖生成的視頻，很有宮崎駿的味道。

2）改圖-生視頻

也可以讓千問(wèn)先改圖再生成視頻，比如我仿制的瑪麗蓮·夢(mèng)露風(fēng)格廣告大片。

這是用第二張圖生成的視頻。

以及，老黃和奧特曼合唱《中國(guó)話》。

3）連續(xù)性改圖

同時(shí)，千問(wèn)也是支持連續(xù)性改圖的，這一致性保持得非常不錯(cuò)。

如果你不會(huì)寫提示詞，還可以直接讓千問(wèn)生成繪圖提示詞，然后讓千問(wèn)用繪圖提示詞生成圖片，再基于生成的圖片生成視頻。

這鏈路，齊活了。

上線兩周半，千問(wèn)的動(dòng)作還是挺快的。

基本上，最新、最強(qiáng)的模型都會(huì)第一時(shí)間上千問(wèn)。而且它是徹底的All in One——一個(gè)Chat窗口解決所有input問(wèn)題，沒(méi)有單獨(dú)的入口，也無(wú)需點(diǎn)膠囊按鈕，直接一句指令，全都搞定。

比如，幫我生成視頻、幫我創(chuàng)建圖片、幫我改圖、幫我翻譯、幫我寫HTML、幫我寫PPT……

這次的千問(wèn)，它真的把“復(fù)雜留給模型，簡(jiǎn)單留給用戶”做到了極致。

上周四，我到阿里巴巴北京總部參加夸克AI眼鏡發(fā)布會(huì)，千問(wèn)負(fù)責(zé)人吳嘉現(xiàn)場(chǎng)透露：千問(wèn)公測(cè)僅一周，下載量已突破1000萬(wàn)。

這速度，就很阿里，也很中國(guó)。

而這，或許只是這場(chǎng)智能革命的開(kāi)始。

聲明：包含AI生成內(nèi)容

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.