
文 | 闌夕
今天聽到一首歌,旋律隱隱熟悉,似乎有成為爆款BGM的潛質。
從開始的古箏起始,隨著鼓點加入,進到古風歌詞——幾段正歌人聲清雋,副歌部分悠長不絕,訴說一個久遠的故事……
請中央音樂學院的博士好友一聽,他評價編曲、作詞都還不錯,也認真給出了一點建議。
然而,這首三分多鐘的完整歌曲,是只用了一句提示詞、通過MiniMax Music生成的。
知此情形,音樂博士好友很受震撼;而真正親歷、見證了這幾年AI音樂發展的人士,深度體驗后,內心的波瀾大概不亞于他。
一曲一世界,一句一乾坤。
MiniMax Music測評:曲風由你
AI音樂之乾坤,唯創作才有發言權。使用MiniMax Music消耗數千積分后,淺談些感受。
生成上一首歌曲的提示詞并不艱深:「模仿周杰倫的旋律,寫一首愛情相關的歌,有古風元素,模仿《七里香》和《說好的幸福呢》旋律結合」。而效果聽來卻有意外之喜,尤其對幾乎從未嘗試過獨立音樂創作的普通朋友,易上手程度可以說已接近「0門檻」。
![]()
用到的模型是MiniMax最新更新的自研音樂模型 Music 1.5,產品功能很簡潔,分為簡單模式(Simple)和高級模式(Advanced)兩種。前者可以「一句成曲」,而后者「專業可控」。
簡單模式下,仍輸入較簡單的提示詞,輸出結果卻是曲風突變。
「創作一首有爵士風格、R&B元素的流行歌曲,表達年輕一代創業者的先鋒和創新態度,用電吉他、Bass、架子鼓等,混合搖滾特征和現代音樂獨創性。」
首先必須承認,Music 1.5的指令依循性很好。提示詞涉及的電吉他、貝斯、架子鼓,特征都很鮮明,前奏先聲奪人譜出跳動感,樂器本身音色特點和想要的歌曲風格匹配度高。
而隨著人聲的注入,爵士、R&B、搖滾和現代的風格得以彰顯,起調明亮的樂器聲作為伴奏則是稍稍后移,在間奏和結尾又自然呈現。
要知道,如果把提示詞作為「命題作業」給到音樂學院的學生,單獨一個音軌的吉他伴奏,錄音棚中便是不知多少次的從頭再來。
而今天,實現如上一首完整作品,所需僅僅一段話、一模型、數積分而已。
那么,如果更進一步細化結構層次和指令顆粒度呢?
![]()
用Markdown形式和更代碼化的提示詞,效果也沒讓我失望。最長的提示詞,帶來了近期我最滿意的一首AI音樂作品。
不過需要注意的是,簡單模式下,長提示詞需要控制在300字符內,這也讓我自然而然開啟了高級模式的探索。
![]()
在高級模式下,指令篇幅來到了3000字符。輸入「 / 」會有編曲的分層提示。
![]()
完成了前奏、主歌、副歌等的設計后,在設置中可以一鍵選擇風格、情緒、場景等。
![]()
按照官方表達,Music 1.5 支持 「16種風格 × 11種情緒 × 10個場景」 自定義音樂特征,理論上有1760種不同的樂曲類型組合。
相比之前「一句話成曲」能進一步感受到控制力的提升。如果把音樂創作拆解為工作流,此刻Music 1.5已經用公式化的結構和標簽,讓曾經的節點和Pipeline變成的一個個的可點擊選項。

因為是相同模型的原因,歌曲本身的演繹完成度和藝術性,比起之前的幾個測試案例,變化似乎并不顯著;但在高級模式下,能根據需要選擇樂器類型、歌詞內容、風格搭配……相比簡單模式下用提示詞控制,明顯會更有掌控感。
哪怕以音樂學院博士的眼光來評判,選項的細分程度也已經達到了專業水準。可以想見,在MiniMax Music團隊,必然有樂理專家和職業音樂人的支持。
唯一發現的暫時還不夠可控的,是純音樂選項,在當前最新版本中不論提示詞如何強調,依然無法消除人聲。通過增加選擇按鈕的方式等,并不是難題,預計也將很快得到完善或取舍。
總體來看,模型的控制力和音樂性,是衡量音樂模型質量的兩個核心指標。
從控制力來說,Music 1.5能在4分鐘的音樂中保持高完成度,其背后對于Long Context的編排,可類比2023年Kimi橫空出世的長文本。音樂全鏈路、多場景,都達到了超出業余的水準。
從音樂性講,無論風格的典型性還是編曲層次感,再或者人聲的自然度、結構的動態變化,都堪稱令人喜悅。
當然,相比Suno細分功能的豐富度,MiniMax Music尚顯簡陋,生成的音樂結尾處理略生硬,存在戛然而止、聲音突然中斷的抽卡現象。但作為中國的AI之聲,其肉眼可見的進步速度,更值得我們期待。
![]()
AI音樂,不止重塑音樂行業
相較于處于AI舞臺中央的大語言模型、視頻模型,AI音樂的戰場似乎并未被充分重視。
然而,一款再先進的視頻模型,沒有聲音也只是默片;沒有音樂的注入,即便有了文字、圖片、視頻,靈魂仍然殘缺。
在MiniMax的技術圖譜內,聲音模型一直被擺在重要位置,并和其他模型彼此促進。從技術發展初期,在行業玩家尚未察覺之時,就下重注長線布局,這也是今天MiniMax的模型矩陣都能占據領先位置的原因。
看MiniMax的全棧AI能力生態,從算力到數據、從模型到應用,不僅能發揮協同效應、產模一體自閉環,同時可以憑借對外賦能、API邏輯、出海經驗,在商業上真正全面落地。
![]()
不要忘了,MiniMax在語音上已經是全球雙榜第一,這意味著它在「聲音」領域的技術積累有天然優勢。
今年的上海WAIC,開幕式的主講嘉賓是諾獎得主、AI教父辛頓,而另一位啟幕嘉賓則是閆俊杰,MiniMax的創始人。二者演講內容的一個共同點是,都站在了AI與全人類關系的立場上。相比Hinton,MiniMax更加樂觀,相信AI屬于每個人,一定會更普惠地服務大眾。在AGI的道路上,看似是「微小拼圖」的AI音樂,也終究會在人類科技史、藝術史上書寫天籟的一筆。
早在2023年,a16z已經旗幟鮮明提出,AI將重塑音樂全產業鏈。從23年初谷歌的MusicLM文生音樂,到Meta開源MusicGen。再之后,Suno橫空出世,憑借其音樂審美和產品完成度,第一次在音樂生成領域樹立標桿。
a16z甚至展示了AI音樂的行業應用光譜,從即時交互的音樂信息流,到專業級的音樂工具、技術棧,不同于Spotify的新一代音樂媒介正在誕生。AI音樂專輯、互動式音樂平臺等形態,也將不再是癡人說夢。
![]()
對MiniMax Audio來說,性價比就是最永恒的優勢。效果可媲美Suno、局部亮點突出,價格僅為suno的一半不到。具體來看,Suno V3.5的單價大概是3毛,一首歌要幾十美金,這是Suno的問題,也是機會窗口。
正如海螺AI在不到一年的時間里反超Sora,類似的戲碼似乎也正在MiniMax Music和Suno之間上演。
在產品設計和控制功能上,正視當前存在的差距和不足,堅定落地「低價高質策略」也將帶來真正的行業革新。
從產業來看,虛擬陪伴、AI偶像、音樂電臺、影視娛樂……都將隨著AI音樂能力的注入,讓多模態交互和體驗升級產生新的可能。
不妨讓想象更狂野一點:人類和AI正在建立新的合作范式,而協作創作音樂就是一個極致的開始。
人類擅長情感表達與審美判斷,AI 擅長結構生成與無限延展。當二者結合,創作不再是單向度的勞動,而是碳基與硅基的共創,既具備技術的精確性,又不失人性的溫度。
純粹的AI音樂作品仍顯生硬,而人類藝術家的特權和創造力也正在喪失。通過「碳基+硅基」的組合,MiniMax讓我看到了硅碳合一的未來。
![]()
從2023年的Talkie讓我看到多模態融合陪伴,到海螺AI的一念成真、視覺重塑,以及MiniMax Agent對效率生產方式的重新組織,再到今天的Music 1.5,正在書寫音樂新歷史。
原本的設想里, AI 音樂有機會真正走進B 端與 C 端的雙重舞臺:
B 端:廣告、游戲、影視配樂,AI 音樂能顯著降低成本。C 端:個人用戶、短視頻創作者、樂隊玩家,隨手生成高質量的原創曲,不再受限于版權與門檻。
現在想來,碳基和硅基邊界的重新厘定、人和AI的融合創作與消費,都將徹底顛覆現有的一切。十年后回看,今天的作曲家、音樂制作人,也許和千百年前的樂師沒有本質區別,而迥乎不同的,是AI音樂。
最后分享一個小彩蛋:把DeepSeek瘋狂思考輸出的名場面寫成一首歌。
![]()
AI時代,你的歌,你說了算……
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.