最近AI圈熱鬧的像過年了一樣。
Google和Gemini合體,Moltbot熱度一波接一波,大模型也發(fā)了一堆,世界模型也來了,真有點科技春晚的感覺了。。。
而音樂模型這邊,也出了一個很夯的新貨。
就是Minimax昨天推出的音樂模型,Minimax Music 2.5。
![]()
說起來這個時間點非常巧。
因為最近正好有個粉絲看了我的Prompt心法那篇文章,給我發(fā)了一個他自己開發(fā)的小工具,可以上傳歌曲文件來反推曲風的提示詞,很強很方便。
![]()
而我呢,自從兩個月前發(fā)了b站鬼畜文藝復興的那篇文章之后,也已經(jīng)有一陣子沒做過音樂了,正好想做點好玩的。
正好,也借著這個機會,就試了一下MiniMax的Music 2.5。
說實話,試了之后,我當時就說出了一句臥槽。
他的真實感,實在太強了,而且,中文,真的無敵。
所以這次,我用Minimax Music 2.5,搭配這個反推提示詞的小工具,又做了一首展現(xiàn)一下最近人生狀態(tài)的一首歌,做完以后,有點靈感,于是配了一個小mv。
人味真的太強了。
體驗下來,我覺得Minimax的這次更新,還是很驚喜的。
這次給我印象最深刻的是,人聲的真實感。
我自己有一個很喜歡的樂隊,叫林肯公園,是玩搖滾的,之前的老主唱就是那種不可多得的搖滾嗓,爆發(fā)極強,有一個絕招就是炸音嘶吼,非常有沖擊力,就是那種在你耳邊突然核爆的感覺。
這種嗓音在現(xiàn)實中都屬于提著燈籠找不著,當年我年少無知想要模仿,毫無成果還導致嗓子疼了一周。
AI就更唱不出來這種嗓音了。我們很多時候說一首歌有AI味,和嗓音都有脫不開的關系。AI唱高音經(jīng)常直直愣愣地就頂上去了,一點都沒有人類那種血肉之嗓的爆發(fā)力。
但是這次的Minimax,不太一樣。。。
我強烈建議身邊有耳機的朋友,可以戴上耳機,聽一下這首歌49秒之后的那句高潮。
真的是一瞬間炸開,聲如裂帛,有點驚到我了。
這真是AI能發(fā)出的聲音嗎。。。
不僅如此。
你還能在這首歌里聽到人聲的磨砂感和顆粒感。
能聽到每一次吐字的口齒摩擦,每一句之間的吸氣呼氣。
雖然說和林肯公園主唱的嗓音還是沒法比,但是在一眾AI里,說吊打也是沒什么問題。
然后再聽一下這首。
這次我換了一個溫柔點的風格,講的是人機戀。
但是帶給我的震撼感并沒有減弱半分,直接給我整的有點起雞皮疙瘩,我單曲循環(huán)聽了無數(shù)遍。
因為我一直都是戴耳機聽的,本來就能感受到更多聲音的細節(jié),然后它開頭的那個哼唱又帶著很強的氣息感,就真的有點像是,在我耳邊唱歌。。。
我甚至能感覺到歌手唱的時候把嘴貼到了麥邊上,再近點都要噴麥了。。。
然后再往下聽,轉音,真假音切換,換氣,每一個處理都做得很自然,很舒服。
不會出現(xiàn)之前我在聽AI唱歌時常有的擔心,不會沒氣嗎,怎么還不換氣。
就,MiniMax不愧是聲音做的最牛逼的,他們對聲音的真實感這一塊的把控真的還是很強的。
另一個讓我印象深刻的,是它的咬字能力,口齒真不是一般的清楚。
一開始我以為它只是中文很強。
就拿這次我做的這個MV舉例,我一直在讓MiniMax試各種曲風,搞了好幾個版本。
![]()
每一個版本,可能都會有這樣那樣的問題,但rap部分,基本上都是一遍過。。。
我給你們放其中一個版本,你可以直接空降到45秒之后,感受一下它的中文rap實力。
之前我用Suno生成這樣長段的中文,我往往會用一個小技巧,就是如果模型識別不出來某一個比較復雜的中文字,就換成拼音,或者換成一個更簡單的同音字。
這個技巧還是我之前寫Suno那篇時總結出來的,Suno的旋律確實牛逼,但是認字程度屬實是有點令人發(fā)指了,景陽岡的岡字,它經(jīng)常讀錯,我必須要打成景陽剛= =
而這次,我基本沒咋用上這個技巧。
MiniMax的中文能力,無須多言了。。。
網(wǎng)址在此,非常推薦大家去試試:
https://www.minimaxi.com/audio/music
而且還不只是中文,我偶然間發(fā)現(xiàn)它甚至能說維語。
因為我們公司有同事是維族的,我就順手生成了一首維語歌,讓她聽聽是不是那么回事。
她在求證了一番家人之后,給我的說法是這樣的:
![]()
除了幾個需要連讀的地方之外,其他都沒啥問題。
懂維語的朋友也可以品鑒一下,把想法打在評論區(qū)。
至于粵語,吳語這些,就也都不在話下了。
這是粵語。
這是吳語。
我們至今仍不知道MiniMax在這方面的家底到底有多厚。。。
下一趴,是風格和編曲能力。
正好可以借這一趴和你們聊一下我前面提過的粉絲做的那個提取曲風的小工具。
搭配Minimax Music 2.5一起用,就是一個1+1大于二的效果,非常爽。
網(wǎng)址是這個:www.aimusic-tools.com
點進去之后找到左側邊欄,點分析工具里面的音樂理解,就能看到這個界面了。
![]()
上傳一段視頻之后,點一下開始分析,它就會把歌詞曲風都拆解出來,歌詞放在左下角的框里,提示詞放在右下角的框里。
然后你只需要點一下復制,就可以直接拿到曲風的提示詞。
![]()
接下來,再把這個曲風復制給Music 2.5就行。
這次靠著這個小東西,我試了很多曲風,有些曲風我之前都不知道專業(yè)的說法是什么,但現(xiàn)在上傳了音頻,就能直接拿到我想要的提示詞。
真的是非常好用的一個利器。
接下來,是一批不同曲風的純享版,大家可以感受一下。
R&B加Dream Pop風,曲風來自蜘蛛俠平行宇宙的插曲,Sunflower。
音樂劇風,來自音樂劇漢密爾頓。
techno電音,來自Anyma音樂節(jié)的Eternity。
雷鬼風格。
其實還試了很多,但公眾號里放不下了。
幾乎每一個風格都給了我不一樣的驚喜。
真的挺過癮的。
想玩的話,直接去官網(wǎng)就行。
打開之后把模型切換到2.5,就可以開始愉快地玩耍了。
![]()
整個網(wǎng)頁非常簡潔,就兩個功能區(qū),歌詞,和風格。
![]()
作為小白如何控制歌詞和風格我在之前的文章里寫過了,這里再講一下。
歌詞方面,核心是理解歌曲的結構。
拿MiniMax這個歌詞區(qū)來舉例,在歌詞框里打一個/,就能看到它有14種段落結構。
![]()
正常的歌曲結構,基礎點就是前奏-主歌-副歌-主歌-副歌-尾奏,復雜點就是前奏-主歌-預副歌-副歌-再一段主歌-副歌-橋段-副歌-尾奏。
然后,你要把歌詞按照結構填進去。
![]()
曲風方面,之前我會教你用一個結構化的提示詞和AI聊,像這樣。
性別(男聲、女聲)但現(xiàn)在,用我上面提到的那個小工具也完全沒問題。
再說一下價格的事。36塊錢10萬積分,300積分一首歌,沒算錯的話,差不多就是一毛錢一首歌。
再加上,初始用戶還有10000積分,像我這種玩家,再買一個10萬積分也就是36塊錢每月的套餐,基本上就完全夠用了。
![]()
還挺香的。
這次MiniMax唯一讓我覺得美中不足的是,模型能力在線,但是功能還太少了,我想要的那些類似Suno的段落編輯功能,上傳音樂remix功能,音軌分離功能,現(xiàn)在都還沒有。
還有就是什么時候能開放mcp功能,這樣我就能把寫歌這件事真的封裝成skills了。
跪求下個版本更新。。。
做音樂,真的是一件非常快樂的事情。
相信我。
當歌曲出來的那一刻,你也一定可以找到屬于你的快樂。
以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。
>/ 作者:卡茲克、水杉、路標、Tashi
>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.