網易首頁 > 網易號 > 正文申請入駐

「能說會唱」的MiniMax，拔出國產AI的瑞士軍刀

2025-09-12 21:34:27　來源: 闌夕

北京舉報

分享至

文｜闌夕

今天聽到一首歌，旋律隱隱熟悉，似乎有成為爆款BGM的潛質。

從開始的古箏起始，隨著鼓點加入，進到古風歌詞——幾段正歌人聲清雋，副歌部分悠長不絕，訴說一個久遠的故事……

請中央音樂學院的博士好友一聽，他評價編曲、作詞都還不錯，也認真給出了一點建議。

然而，這首三分多鐘的完整歌曲，是只用了一句提示詞、通過MiniMax Music生成的。

知此情形，音樂博士好友很受震撼；而真正親歷、見證了這幾年AI音樂發展的人士，深度體驗后，內心的波瀾大概不亞于他。

一曲一世界，一句一乾坤。

MiniMax Music測評：曲風由你

AI音樂之乾坤，唯創作才有發言權。使用MiniMax Music消耗數千積分后，淺談些感受。

生成上一首歌曲的提示詞并不艱深：「模仿周杰倫的旋律，寫一首愛情相關的歌，有古風元素，模仿《七里香》和《說好的幸福呢》旋律結合」。而效果聽來卻有意外之喜，尤其對幾乎從未嘗試過獨立音樂創作的普通朋友，易上手程度可以說已接近「0門檻」。

用到的模型是MiniMax最新更新的自研音樂模型 Music 1.5，產品功能很簡潔，分為簡單模式（Simple）和高級模式（Advanced）兩種。前者可以「一句成曲」，而后者「專業可控」。

簡單模式下，仍輸入較簡單的提示詞，輸出結果卻是曲風突變。

「創作一首有爵士風格、R&B元素的流行歌曲，表達年輕一代創業者的先鋒和創新態度，用電吉他、Bass、架子鼓等，混合搖滾特征和現代音樂獨創性。」

首先必須承認，Music 1.5的指令依循性很好。提示詞涉及的電吉他、貝斯、架子鼓，特征都很鮮明，前奏先聲奪人譜出跳動感，樂器本身音色特點和想要的歌曲風格匹配度高。

而隨著人聲的注入，爵士、R&B、搖滾和現代的風格得以彰顯，起調明亮的樂器聲作為伴奏則是稍稍后移，在間奏和結尾又自然呈現。

要知道，如果把提示詞作為「命題作業」給到音樂學院的學生，單獨一個音軌的吉他伴奏，錄音棚中便是不知多少次的從頭再來。

而今天，實現如上一首完整作品，所需僅僅一段話、一模型、數積分而已。

那么，如果更進一步細化結構層次和指令顆粒度呢？

用Markdown形式和更代碼化的提示詞，效果也沒讓我失望。最長的提示詞，帶來了近期我最滿意的一首AI音樂作品。

不過需要注意的是，簡單模式下，長提示詞需要控制在300字符內，這也讓我自然而然開啟了高級模式的探索。

在高級模式下，指令篇幅來到了3000字符。輸入「 / 」會有編曲的分層提示。

完成了前奏、主歌、副歌等的設計后，在設置中可以一鍵選擇風格、情緒、場景等。

按照官方表達，Music 1.5 支持「16種風格 × 11種情緒 × 10個場景」自定義音樂特征，理論上有1760種不同的樂曲類型組合。

相比之前「一句話成曲」能進一步感受到控制力的提升。如果把音樂創作拆解為工作流，此刻Music 1.5已經用公式化的結構和標簽，讓曾經的節點和Pipeline變成的一個個的可點擊選項。

因為是相同模型的原因，歌曲本身的演繹完成度和藝術性，比起之前的幾個測試案例，變化似乎并不顯著；但在高級模式下，能根據需要選擇樂器類型、歌詞內容、風格搭配……相比簡單模式下用提示詞控制，明顯會更有掌控感。

哪怕以音樂學院博士的眼光來評判，選項的細分程度也已經達到了專業水準。可以想見，在MiniMax Music團隊，必然有樂理專家和職業音樂人的支持。

唯一發現的暫時還不夠可控的，是純音樂選項，在當前最新版本中不論提示詞如何強調，依然無法消除人聲。通過增加選擇按鈕的方式等，并不是難題，預計也將很快得到完善或取舍。

總體來看，模型的控制力和音樂性，是衡量音樂模型質量的兩個核心指標。

從控制力來說，Music 1.5能在4分鐘的音樂中保持高完成度，其背后對于Long Context的編排，可類比2023年Kimi橫空出世的長文本。音樂全鏈路、多場景，都達到了超出業余的水準。

從音樂性講，無論風格的典型性還是編曲層次感，再或者人聲的自然度、結構的動態變化，都堪稱令人喜悅。

當然，相比Suno細分功能的豐富度，MiniMax Music尚顯簡陋，生成的音樂結尾處理略生硬，存在戛然而止、聲音突然中斷的抽卡現象。但作為中國的AI之聲，其肉眼可見的進步速度，更值得我們期待。

AI音樂，不止重塑音樂行業

相較于處于AI舞臺中央的大語言模型、視頻模型，AI音樂的戰場似乎并未被充分重視。

然而，一款再先進的視頻模型，沒有聲音也只是默片；沒有音樂的注入，即便有了文字、圖片、視頻，靈魂仍然殘缺。

在MiniMax的技術圖譜內，聲音模型一直被擺在重要位置，并和其他模型彼此促進。從技術發展初期，在行業玩家尚未察覺之時，就下重注長線布局，這也是今天MiniMax的模型矩陣都能占據領先位置的原因。

看MiniMax的全棧AI能力生態，從算力到數據、從模型到應用，不僅能發揮協同效應、產模一體自閉環，同時可以憑借對外賦能、API邏輯、出海經驗，在商業上真正全面落地。

不要忘了，MiniMax在語音上已經是全球雙榜第一，這意味著它在「聲音」領域的技術積累有天然優勢。

今年的上海WAIC，開幕式的主講嘉賓是諾獎得主、AI教父辛頓，而另一位啟幕嘉賓則是閆俊杰，MiniMax的創始人。二者演講內容的一個共同點是，都站在了AI與全人類關系的立場上。相比Hinton，MiniMax更加樂觀，相信AI屬于每個人，一定會更普惠地服務大眾。在AGI的道路上，看似是「微小拼圖」的AI音樂，也終究會在人類科技史、藝術史上書寫天籟的一筆。

早在2023年，a16z已經旗幟鮮明提出，AI將重塑音樂全產業鏈。從23年初谷歌的MusicLM文生音樂，到Meta開源MusicGen。再之后，Suno橫空出世，憑借其音樂審美和產品完成度，第一次在音樂生成領域樹立標桿。

a16z甚至展示了AI音樂的行業應用光譜，從即時交互的音樂信息流，到專業級的音樂工具、技術棧，不同于Spotify的新一代音樂媒介正在誕生。AI音樂專輯、互動式音樂平臺等形態，也將不再是癡人說夢。

對MiniMax Audio來說，性價比就是最永恒的優勢。效果可媲美Suno、局部亮點突出，價格僅為suno的一半不到。具體來看，Suno V3.5的單價大概是3毛，一首歌要幾十美金，這是Suno的問題，也是機會窗口。

正如海螺AI在不到一年的時間里反超Sora，類似的戲碼似乎也正在MiniMax Music和Suno之間上演。

在產品設計和控制功能上，正視當前存在的差距和不足，堅定落地「低價高質策略」也將帶來真正的行業革新。

從產業來看，虛擬陪伴、AI偶像、音樂電臺、影視娛樂……都將隨著AI音樂能力的注入，讓多模態交互和體驗升級產生新的可能。

不妨讓想象更狂野一點：人類和AI正在建立新的合作范式，而協作創作音樂就是一個極致的開始。

人類擅長情感表達與審美判斷，AI 擅長結構生成與無限延展。當二者結合，創作不再是單向度的勞動，而是碳基與硅基的共創，既具備技術的精確性，又不失人性的溫度。

純粹的AI音樂作品仍顯生硬，而人類藝術家的特權和創造力也正在喪失。通過「碳基+硅基」的組合，MiniMax讓我看到了硅碳合一的未來。

從2023年的Talkie讓我看到多模態融合陪伴，到海螺AI的一念成真、視覺重塑，以及MiniMax Agent對效率生產方式的重新組織，再到今天的Music 1.5，正在書寫音樂新歷史。

原本的設想里， AI 音樂有機會真正走進B 端與 C 端的雙重舞臺：

B 端：廣告、游戲、影視配樂，AI 音樂能顯著降低成本。C 端：個人用戶、短視頻創作者、樂隊玩家，隨手生成高質量的原創曲，不再受限于版權與門檻。

現在想來，碳基和硅基邊界的重新厘定、人和AI的融合創作與消費，都將徹底顛覆現有的一切。十年后回看，今天的作曲家、音樂制作人，也許和千百年前的樂師沒有本質區別，而迥乎不同的，是AI音樂。

最后分享一個小彩蛋：把DeepSeek瘋狂思考輸出的名場面寫成一首歌。

AI時代，你的歌，你說了算……

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.