
文 | 闌夕
今天聽到一首歌,旋律隱隱熟悉,似乎有成為爆款BGM的潛質(zhì)。
從開始的古箏起始,隨著鼓點(diǎn)加入,進(jìn)到古風(fēng)歌詞——幾段正歌人聲清雋,副歌部分悠長(zhǎng)不絕,訴說一個(gè)久遠(yuǎn)的故事……
請(qǐng)中央音樂學(xué)院的博士好友一聽,他評(píng)價(jià)編曲、作詞都還不錯(cuò),也認(rèn)真給出了一點(diǎn)建議。
然而,這首三分多鐘的完整歌曲,是只用了一句提示詞、通過MiniMax Music生成的。
知此情形,音樂博士好友很受震撼;而真正親歷、見證了這幾年AI音樂發(fā)展的人士,深度體驗(yàn)后,內(nèi)心的波瀾大概不亞于他。
一曲一世界,一句一乾坤。
MiniMax Music測(cè)評(píng):曲風(fēng)由你
AI音樂之乾坤,唯創(chuàng)作才有發(fā)言權(quán)。使用MiniMax Music消耗數(shù)千積分后,淺談些感受。
生成上一首歌曲的提示詞并不艱深:「模仿周杰倫的旋律,寫一首愛情相關(guān)的歌,有古風(fēng)元素,模仿《七里香》和《說好的幸福呢》旋律結(jié)合」。而效果聽來卻有意外之喜,尤其對(duì)幾乎從未嘗試過獨(dú)立音樂創(chuàng)作的普通朋友,易上手程度可以說已接近「0門檻」。
![]()
用到的模型是MiniMax最新更新的自研音樂模型 Music 1.5,產(chǎn)品功能很簡(jiǎn)潔,分為簡(jiǎn)單模式(Simple)和高級(jí)模式(Advanced)兩種。前者可以「一句成曲」,而后者「專業(yè)可控」。
簡(jiǎn)單模式下,仍輸入較簡(jiǎn)單的提示詞,輸出結(jié)果卻是曲風(fēng)突變。
「創(chuàng)作一首有爵士風(fēng)格、R&B元素的流行歌曲,表達(dá)年輕一代創(chuàng)業(yè)者的先鋒和創(chuàng)新態(tài)度,用電吉他、Bass、架子鼓等,混合搖滾特征和現(xiàn)代音樂獨(dú)創(chuàng)性。」
首先必須承認(rèn),Music 1.5的指令依循性很好。提示詞涉及的電吉他、貝斯、架子鼓,特征都很鮮明,前奏先聲奪人譜出跳動(dòng)感,樂器本身音色特點(diǎn)和想要的歌曲風(fēng)格匹配度高。
而隨著人聲的注入,爵士、R&B、搖滾和現(xiàn)代的風(fēng)格得以彰顯,起調(diào)明亮的樂器聲作為伴奏則是稍稍后移,在間奏和結(jié)尾又自然呈現(xiàn)。
要知道,如果把提示詞作為「命題作業(yè)」給到音樂學(xué)院的學(xué)生,單獨(dú)一個(gè)音軌的吉他伴奏,錄音棚中便是不知多少次的從頭再來。
而今天,實(shí)現(xiàn)如上一首完整作品,所需僅僅一段話、一模型、數(shù)積分而已。
那么,如果更進(jìn)一步細(xì)化結(jié)構(gòu)層次和指令顆粒度呢?
![]()
用Markdown形式和更代碼化的提示詞,效果也沒讓我失望。最長(zhǎng)的提示詞,帶來了近期我最滿意的一首AI音樂作品。
不過需要注意的是,簡(jiǎn)單模式下,長(zhǎng)提示詞需要控制在300字符內(nèi),這也讓我自然而然開啟了高級(jí)模式的探索。
![]()
在高級(jí)模式下,指令篇幅來到了3000字符。輸入「 / 」會(huì)有編曲的分層提示。
![]()
完成了前奏、主歌、副歌等的設(shè)計(jì)后,在設(shè)置中可以一鍵選擇風(fēng)格、情緒、場(chǎng)景等。
![]()
按照官方表達(dá),Music 1.5 支持 「16種風(fēng)格 × 11種情緒 × 10個(gè)場(chǎng)景」 自定義音樂特征,理論上有1760種不同的樂曲類型組合。
相比之前「一句話成曲」能進(jìn)一步感受到控制力的提升。如果把音樂創(chuàng)作拆解為工作流,此刻Music 1.5已經(jīng)用公式化的結(jié)構(gòu)和標(biāo)簽,讓曾經(jīng)的節(jié)點(diǎn)和Pipeline變成的一個(gè)個(gè)的可點(diǎn)擊選項(xiàng)。

因?yàn)槭窍嗤P偷脑颍枨旧淼难堇[完成度和藝術(shù)性,比起之前的幾個(gè)測(cè)試案例,變化似乎并不顯著;但在高級(jí)模式下,能根據(jù)需要選擇樂器類型、歌詞內(nèi)容、風(fēng)格搭配……相比簡(jiǎn)單模式下用提示詞控制,明顯會(huì)更有掌控感。
哪怕以音樂學(xué)院博士的眼光來評(píng)判,選項(xiàng)的細(xì)分程度也已經(jīng)達(dá)到了專業(yè)水準(zhǔn)。可以想見,在MiniMax Music團(tuán)隊(duì),必然有樂理專家和職業(yè)音樂人的支持。
唯一發(fā)現(xiàn)的暫時(shí)還不夠可控的,是純音樂選項(xiàng),在當(dāng)前最新版本中不論提示詞如何強(qiáng)調(diào),依然無法消除人聲。通過增加選擇按鈕的方式等,并不是難題,預(yù)計(jì)也將很快得到完善或取舍。
總體來看,模型的控制力和音樂性,是衡量音樂模型質(zhì)量的兩個(gè)核心指標(biāo)。
從控制力來說,Music 1.5能在4分鐘的音樂中保持高完成度,其背后對(duì)于Long Context的編排,可類比2023年Kimi橫空出世的長(zhǎng)文本。音樂全鏈路、多場(chǎng)景,都達(dá)到了超出業(yè)余的水準(zhǔn)。
從音樂性講,無論風(fēng)格的典型性還是編曲層次感,再或者人聲的自然度、結(jié)構(gòu)的動(dòng)態(tài)變化,都堪稱令人喜悅。
當(dāng)然,相比Suno細(xì)分功能的豐富度,MiniMax Music尚顯簡(jiǎn)陋,生成的音樂結(jié)尾處理略生硬,存在戛然而止、聲音突然中斷的抽卡現(xiàn)象。但作為中國(guó)的AI之聲,其肉眼可見的進(jìn)步速度,更值得我們期待。
![]()
AI音樂,不止重塑音樂行業(yè)
相較于處于AI舞臺(tái)中央的大語(yǔ)言模型、視頻模型,AI音樂的戰(zhàn)場(chǎng)似乎并未被充分重視。
然而,一款再先進(jìn)的視頻模型,沒有聲音也只是默片;沒有音樂的注入,即便有了文字、圖片、視頻,靈魂仍然殘缺。
在MiniMax的技術(shù)圖譜內(nèi),聲音模型一直被擺在重要位置,并和其他模型彼此促進(jìn)。從技術(shù)發(fā)展初期,在行業(yè)玩家尚未察覺之時(shí),就下重注長(zhǎng)線布局,這也是今天MiniMax的模型矩陣都能占據(jù)領(lǐng)先位置的原因。
看MiniMax的全棧AI能力生態(tài),從算力到數(shù)據(jù)、從模型到應(yīng)用,不僅能發(fā)揮協(xié)同效應(yīng)、產(chǎn)模一體自閉環(huán),同時(shí)可以憑借對(duì)外賦能、API邏輯、出海經(jīng)驗(yàn),在商業(yè)上真正全面落地。
![]()
不要忘了,MiniMax在語(yǔ)音上已經(jīng)是全球雙榜第一,這意味著它在「聲音」領(lǐng)域的技術(shù)積累有天然優(yōu)勢(shì)。
今年的上海WAIC,開幕式的主講嘉賓是諾獎(jiǎng)得主、AI教父辛頓,而另一位啟幕嘉賓則是閆俊杰,MiniMax的創(chuàng)始人。二者演講內(nèi)容的一個(gè)共同點(diǎn)是,都站在了AI與全人類關(guān)系的立場(chǎng)上。相比Hinton,MiniMax更加樂觀,相信AI屬于每個(gè)人,一定會(huì)更普惠地服務(wù)大眾。在AGI的道路上,看似是「微小拼圖」的AI音樂,也終究會(huì)在人類科技史、藝術(shù)史上書寫天籟的一筆。
早在2023年,a16z已經(jīng)旗幟鮮明提出,AI將重塑音樂全產(chǎn)業(yè)鏈。從23年初谷歌的MusicLM文生音樂,到Meta開源MusicGen。再之后,Suno橫空出世,憑借其音樂審美和產(chǎn)品完成度,第一次在音樂生成領(lǐng)域樹立標(biāo)桿。
a16z甚至展示了AI音樂的行業(yè)應(yīng)用光譜,從即時(shí)交互的音樂信息流,到專業(yè)級(jí)的音樂工具、技術(shù)棧,不同于Spotify的新一代音樂媒介正在誕生。AI音樂專輯、互動(dòng)式音樂平臺(tái)等形態(tài),也將不再是癡人說夢(mèng)。
![]()
對(duì)MiniMax Audio來說,性價(jià)比就是最永恒的優(yōu)勢(shì)。效果可媲美Suno、局部亮點(diǎn)突出,價(jià)格僅為suno的一半不到。具體來看,Suno V3.5的單價(jià)大概是3毛,一首歌要幾十美金,這是Suno的問題,也是機(jī)會(huì)窗口。
正如海螺AI在不到一年的時(shí)間里反超Sora,類似的戲碼似乎也正在MiniMax Music和Suno之間上演。
在產(chǎn)品設(shè)計(jì)和控制功能上,正視當(dāng)前存在的差距和不足,堅(jiān)定落地「低價(jià)高質(zhì)策略」也將帶來真正的行業(yè)革新。
從產(chǎn)業(yè)來看,虛擬陪伴、AI偶像、音樂電臺(tái)、影視娛樂……都將隨著AI音樂能力的注入,讓多模態(tài)交互和體驗(yàn)升級(jí)產(chǎn)生新的可能。
不妨讓想象更狂野一點(diǎn):人類和AI正在建立新的合作范式,而協(xié)作創(chuàng)作音樂就是一個(gè)極致的開始。
人類擅長(zhǎng)情感表達(dá)與審美判斷,AI 擅長(zhǎng)結(jié)構(gòu)生成與無限延展。當(dāng)二者結(jié)合,創(chuàng)作不再是單向度的勞動(dòng),而是碳基與硅基的共創(chuàng),既具備技術(shù)的精確性,又不失人性的溫度。
純粹的AI音樂作品仍顯生硬,而人類藝術(shù)家的特權(quán)和創(chuàng)造力也正在喪失。通過「碳基+硅基」的組合,MiniMax讓我看到了硅碳合一的未來。
![]()
從2023年的Talkie讓我看到多模態(tài)融合陪伴,到海螺AI的一念成真、視覺重塑,以及MiniMax Agent對(duì)效率生產(chǎn)方式的重新組織,再到今天的Music 1.5,正在書寫音樂新歷史。
原本的設(shè)想里, AI 音樂有機(jī)會(huì)真正走進(jìn)B 端與 C 端的雙重舞臺(tái):
B 端:廣告、游戲、影視配樂,AI 音樂能顯著降低成本。C 端:個(gè)人用戶、短視頻創(chuàng)作者、樂隊(duì)玩家,隨手生成高質(zhì)量的原創(chuàng)曲,不再受限于版權(quán)與門檻。
現(xiàn)在想來,碳基和硅基邊界的重新厘定、人和AI的融合創(chuàng)作與消費(fèi),都將徹底顛覆現(xiàn)有的一切。十年后回看,今天的作曲家、音樂制作人,也許和千百年前的樂師沒有本質(zhì)區(qū)別,而迥乎不同的,是AI音樂。
最后分享一個(gè)小彩蛋:把DeepSeek瘋狂思考輸出的名場(chǎng)面寫成一首歌。
![]()
AI時(shí)代,你的歌,你說了算……
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.