4月3日,上海人工智能實驗室和沐曦股份聯合發布了高性能GPU算子生成系統Kernel-Smith。
該系統將“穩定評估驅動的進化智能體”與“面向進化的后訓練范式”融合,依托書生大模型Intern-S1-Pro進行定制化訓練,試圖解決大模型在算子生成中長期面臨的可靠性問題。
算子開發是釋放GPU算力的關鍵環節,但長期以來高度依賴經驗豐富的工程師。一個高效的算子需要在多種融合模式、分塊策略中反復搜索和調試。
現有基于大模型的算子生成系統多依賴多輪對話或基于歷史信息的循環,往往陷入早期錯誤決策的路徑依賴,且“寫對”和“跑得快”是兩種截然不同的能力。
Kernel-Smith的核心設計在于把算子優化視為一個進化搜索過程。智能體維護一個候選程序池,通過維護高性能且多樣化的程序存檔,并結合編譯、正確性和加速比的結構化執行反饋進行迭代優化。
為了抑制GPU運行時間測量的噪聲,系統通過固定計算圖、重復測量和異常值剔除等機制確保搜索的可靠性。研究團隊還為NVIDIA Triton和沐曦Maca GPU分別構建了專屬的后端評估服務。
在訓練階段,研究團隊將長時進化軌跡轉化為基于步驟的監督和強化學習信號,使模型成為進化循環中的局部優化器,而非一次性生成器。
在NVIDIA Triton后端的KernelBench評測中,Kernel-Smith-235B-RL取得了最佳平均加速比,性能超過了Gemini-3.0-pro和Claude-4.6-opus等閉源模型。
這套系統已經走出實驗室。Kernel-Smith自動生成的算子已加速了DeepSeek新架構Engram,并合入DLBlas,還落地到了主流推理引擎SGLang和LMDeploy中。
在沐曦自研的MXMACA軟件棧后端測試中,Kernel-Smith-MACA-30B在四類常用算子上的平均加速比超過了DeepSeek-v3.2和Qwen3-235B-2507等參數規模更大的開源模型。
算子開發工具鏈正在變得多樣化。摩爾線程于今年1月開源了TileLang-MUSA項目,采用聲明式語法和編譯器自動優化,相較手寫MUSA C++代碼可減少約90%的代碼量,性能可達手寫優化版本的85%至95%。
華為昇騰的CANN計算架構則更側重于離線編譯優化,通過算子融合和指令調度來提升NPU計算密度。
AI大模型究竟能在多大程度上替代經驗豐富的算子開發工程師,或許仍是一個需要持續觀察的問題。但一個明確的趨勢是,算子生成的效率門檻正在被逐步降低。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.