網易首頁 > 網易號 > 正文申請入駐

首個國產芯片訓練的多模態 SOTA 模型，已免費開源！

2026-01-14 20:10:41　來源: 蒼何

湖北舉報

分享至

這是蒼何的第 471 篇原創！

大家好，我是蒼何。

看到智譜聯合華為開源了新一代圖像生成模型 GLM-Image 的消息，我還挺興奮的。

這意味著，AI 生圖的價格可能會被打下來，我的感觸是很深的，因為最近一直在給我的產品薯圖尋找性價比高的生圖 API。

試了很多的中轉站，目前pro 的價格大概在 0.3-1.2 元之間，總是在穩定和價格之間反復衡量。

看了 GLM-Image 的 API，價格只要 0.1 元一張圖，我整個人都精神了。

于是我花時間內測了一下 GLM-Image，也順帶來看看這個首個在國產芯片上完成全程訓練的SOTA多模態模型有幾斤幾兩。

先說下整體感受：

1、中文指令理解能力好，文字生成準確率高，特別是多區域文字生成上。
2、在繪制包含復雜邏輯的原理圖、科普插畫上表現好。
3、具備一定的設計和審美能力，

但是在長 prompt 的輸入下，就會被限制，也希望后面官方可以優化下，就拿薯圖來說，提示詞非常的長，就非常需要支持。

這篇文章主要給大家帶來一手的實測，以及對 GLM-Image 的 API 調用教程。并且我把基于GLM-Image API 的生圖平臺也開源了，大家可以去 GitHub 上使用，見文末。

如果文章對你有幫助，歡迎點贊收藏，并轉發給需要的朋友。

GLM-Image 介紹

在開始實測前，還是有必要來了解下 GLM-Image。

模型基于昇騰Atlas 800T A2設備和昇思MindSpore AI框架完成從數據到訓練的全流程，是首個在國產芯片上完成全程訓練的SOTA多模態模型。

GLM-Image采用自主創新的「自回歸+擴散解碼器」混合架構，實現了圖像生成與語言模型的聯合，

這也是首個開源的工業表現級離散自回歸圖像生成模型。

GLM-Image 引入了「自回歸+擴散解碼器」混合架構，創新地融合了9B大小的自回歸模型與7B大小的DiT擴散解碼器。

同時，GLM-Image 在文字渲染的權威榜單中達到開源 SOTA 水平。

GLM-Image 實測

下面給大家帶來一波我用 API 做的實測 GLM-Image，內含提示詞。

黑板報制作

提示詞：
?板粉筆?格的科學信息圖插畫，采?橫向構圖，背景為深??板，帶有明顯的粉筆灰、擦拭

痕跡與顆粒質感，整體呈現?學?年級或中學科學教室中常?的教學?板?格。頂部居中位置

為?個?標題，使?彩?粉筆?寫字體?格，標題內容為：“?頓的三棱鏡實驗：光的『七?

?變』”，字體顏?包括紅、藍、綠、?、紫等多種粉筆?，邊緣略帶粗糙感，呈現??書寫

的真實質感。 \n\n畫?左側放置?個???粉筆畫出的矩形光源裝置，?束強烈?光以?平?

向射出，旁邊標注?字：“?束?光（?禮包）”，字體采?簡潔的粉筆字，略帶?寫?格。

\n\n畫?中央繪有?塊透明的三棱鏡，???粉筆線條勾勒出清晰的?體結構，具有輕微的透

視效果。?光進?三棱鏡后，在其內部發?折射并分離，表現出光的分解過程。 \n\n畫?右側

展??光分解為紅、橙、?、綠、?、藍、紫七道彩?光束，呈扇形展開，顏?采?粉筆質感

渲染，??真實的光效。在彩?光束的右側，??括號標注：“七?光譜（真相??！）”。

在彩?光束的上?和下?分別?粉筆?字標注解釋：“紅光：拐彎最?”“紫光：拐彎最

?”。 \n\n在三棱鏡頂部或彩?光束上?，加?兩個擬?化的卡通??（簡單粉筆涂鴉?），

分別為紅?和紫?，兩個??像滑滑梯?樣順著折射路徑滑下，表情夸張、有趣但不過于低

幼，?于直觀表現光的折射差異，增強趣味性和理解性。 \n\n底部中央位置繪制?個粉筆畫出

的對?框或講解框，內含多?中?說明?字：“原來，?光不是‘單?狗’，?是‘七?合

體’的復?光！不同顏?的光‘性格’不同（折射率不同），過三棱鏡時拐彎?度就不同，紫

光最容易拐?彎！” \n\n整體畫??格為?繪?格，線條略帶抖動感，強調粉筆的質感與??

感，不追求真實光學模擬，?是注重信息傳達與教學直觀性。信息圖結構清晰，具有強烈的教

學感，融合?點幽默元素，適合?于科普插畫、知識卡?或課堂海報。圖幅?分辨率，?攝影

?格，?3D渲染，不包含真實?物形象。

黑板粉筆風格

提示詞：

提示詞：
黑板粉筆風格科學信息圖，橫向構圖，深色黑板背景，帶有粉筆灰與擦拭痕跡。

頂部標題： 彩色粉筆手寫體“植物的魔法廚房”。

左側（原料）： 戴墨鏡的卡通太陽（陽光）、藍色水滴（水）、白色氣泡（CO2）。

中央（加工）： 巨大的綠色葉子剖面圖，內部畫成工廠車間，有一個戴廚師帽的綠色“葉綠體”卡通角色正在大鍋里攪拌烹飪。

右側（產物）： 飄出的O2氣泡（氧氣）和堆積的白色方塊（糖/淀粉）。

底部： 粉筆畫的講解框，內含中文說明文字。

風格： 2D手繪涂鴉風，線條粗糙，高對比度粉筆質感，色彩鮮艷（綠、黃、白為主），幽默通俗，非寫實，無真實人物，教育插圖風格。

仿真 3D 圖

提示詞：
畫個航空發動機的仿真3d圖，其中的字體有中英雙語注程

生成清明上河圖部分

提示詞：
請你幫我生成一張清明上河圖的照片

電商宣傳圖

提示詞：
高端極簡護膚品攝影。畫面中央豎立著一瓶半透明的粉色液體潔面乳，配有白色按壓泵頭。瓶身浸潤在柔和的粉色泡沫中，輕盈的泡沫向外擴散，形成光滑圓潤的形狀。細小的透明氣泡漂浮在泡沫表面。干凈的啞光粉色背景，
帶有微妙的漸變效果。柔和的漫射頂光和柔和的輪廓光透過液體，營造出明亮的光澤，并突出瓶內的按壓泵頭。畫面清晰銳利，清晰度高，呈現逼真的液體折射效果，光滑的塑料和玻璃質感，展現出奢華美妝廣告風格，符合現代化妝品品牌形象，超逼真，8K細節，高動態范圍。 否定提示： 
手、人、臉、雜物、刺眼的反光、標簽變形、無法辨認的文字、扭曲的泵、生硬的陰影、顆粒感、噪點、低分辨率、電腦特效風格、卡通風格、凌亂的泡沫、光線不均、水印

提示詞：
視覺構建：Tip-Top 核心系列果汁包裝 第一層：核心定調（Core Intent） 一套高品質商業級的果汁包裝視覺。不僅是產品展示，更是充滿動感與食欲的商業海報。統一采用 2:3 的縱橫比，旨在通過強烈的視覺張力驅動消費購買欲望。 第二層：場景構建（Context & Lighting） 構建一個**動態飛濺（Splash）**的虛擬空間。果汁流在包裝周圍呈螺旋狀旋轉，伴隨著新鮮果塊的飛舞。燈光通透且明亮，完美還原商業攝影中對液體晶瑩剔透質感的捕捉。 
第三層：視覺系統（Aesthetic & Subject） 色彩矩陣： 采用色彩映射邏輯。草莓味對應清新莫蘭迪粉，芒果味對應熱帶橙黃漸變，葡萄味對應優雅深紫漸變。 視覺語言： 走超寫實、高飽和度的活力商業風，強調色彩的純凈度與誘惑力。 第四層：文字/符號系統（Graphics） 
畫面視覺中心為 "Tip-Top" 品牌包裝盒。包裝設計與背景元素無縫融合，品牌 Logo 位于包裝醒目位置，下方標注對應的草莓、金芒果或紫色葡萄口味名稱。 第五層：細節增強（Material & Texture） 極致質感： 包裝盒呈現真實的紙質/復合材料觸感；果肉細節需達到毛孔級寫實（如草莓表面的顆粒、芒果的潤澤）。 動態特效： 飛濺的液體帶有寫實的光澤反射與通透的折射效果，包裝邊緣伴有動感旋轉的水流微粒。

人物生成

提示詞：
9:16，超現實電影感自拍攝影，嚴格保留參考圖臉部、皮膚、頭發、眼鏡、年齡性別，無合成皮膚/雕塑感；女性全身自拍，一腳觸地，一手伸直上舉持機（相機不可見）、一手伸鏡頭前持佳能相機（產品最突出），頭微傾、表情放松；極端俯拍（相機正上方）+胸部高度自拍視角，強制透視讓女性極度巨大，
建筑最高及膝，行人/車輛為真實尺度；背景是真實城市十字路口（含人行橫道、交通標志等），自然日光（晴/輕微多云）、陰影柔和真實；佳能相機無畸變、logo完整、僅自然反光；畫面無AI藝術感、塑料皮膚、
肢體扭曲、多余肢體、文字水印，前景/主體/背景清晰分離，主體視覺主導全場景

提示詞：
傳統藝術掃描，紋理紙上的原始石墨鉛筆素描。藝術風格明顯為荒木飛呂彥，《JOJO的奇妙冒險》美學。粗獷、黑白漫畫分鏡感。全身鏡頭，擺出夸張、戲劇化的“JOJO立”，肢體扭曲、不可能解剖結構、
強烈動態透視。高級時尚雕塑姿態。強調肌肉結構與張力。厚重棱角交叉影線陰影，大膽鑿刻粗輪廓，極其細致的面部特征，厚唇銳利眼神。可見的侵略性鉛筆筆觸。高對比度。強烈氣場。9:16

海報

提示詞：
我要舉辦一場活動，主題為“A賦能發明創新”，時間為2025年11 月20日上午10點，地點在北京體育中心，請幫我畫一張宣傳海 報，要求有科技感。

做菜步驟

提示詞：
為「{紅燒魚}」生成一張分步驟菜譜信息圖，要求： - 俯視圖，極簡風格，白色背景 - 頂部居中顯示菜品中文名 - 標注所有食材的中文名稱、用量和熱量 - 用虛線和圖標展示烹飪步驟 - 底部展示成品擺盤效果圖 請根據該菜品的傳統做法，自動匹配合適的： 1. 食材清單（包含精確用量和熱量） 2. 烹飪步驟圖標（如：切菜、炒制、調味等） 3. 成品呈現方式 2:3

如何接入 API

目前 GLM-Image 的 API 還處于內測階段，為了方便大家體驗，我用 Claude Code 配合 GLM-4.7 開發了個測試平臺，并且在 GitHub 上開源了。

輸入需求生成圖片，大家可以在 bigmodel 上用自己的 API 試試。

開源地址：https://github.com/freestylefly/glm_image_platform

說實話，寫到這里，我心里挺感慨的。

曾幾何時，國產算力在很多 AI 開發者眼里，往往意味著適配難、生態弱、甚至跑不動。

但這回，GLM-Image 這個完全基于國產芯片訓練出來的 SOTA 模型，實實在在地證明了一件事：哪怕路再難走，只要有人肯沉下心去死磕，路總是能走通的。

它可能還不是終點，甚至可能在某些場景下還有瑕疵，但它邁出的這一步，讓咱們看到了國產 AI 生態“自主造血”的希望。

風起于青萍之末，我很期待看到大家用它玩出什么新花樣。

模型鏈接和部署教程我都打包好了，感興趣的兄弟們自取。

好啦，今天的文章就到這，感謝你喜歡我的文章，我們下一期見。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.