網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

AMD Strix Halo對(duì)線Nvidia DGX Spark，誰(shuí)最強(qiáng)？

2025-12-26 10:01:07　來(lái)源: 半導(dǎo)體行業(yè)觀察

上海舉報(bào)

分享至

公眾號(hào)記得加星標(biāo)??，第一時(shí)間看推送不會(huì)錯(cuò)過(guò)。

雖然大多數(shù) GenAI 模型都是在大型數(shù)據(jù)中心集群中進(jìn)行訓(xùn)練和運(yùn)行的，但如今在本地構(gòu)建、測(cè)試和原型化 AI 系統(tǒng)的能力仍然非常重要。

直到最近，這還需要高端的多GPU工作站，價(jià)格通常高達(dá)數(shù)萬(wàn)美元。隨著Nvidia在10月份推出基于GB10核心的DGX Spark，這一現(xiàn)狀得以改變。雖然性能遠(yuǎn)不及后者，但憑借128GB的顯存，該系統(tǒng)本質(zhì)上是一個(gè)內(nèi)置的AI實(shí)驗(yàn)室，幾乎可以運(yùn)行任何AI工作負(fù)載。

正如我們?cè)谥暗纳鲜煮w驗(yàn)中所提到的，Spark 并非市面上首屈一指的選擇，甚至也不是最便宜的。AMD 和蘋果也提供配備大容量統(tǒng)一內(nèi)存的系統(tǒng)，這些內(nèi)存由 CPU 和 GPU 共享，這使得它們?cè)谌斯ぶ悄荛_(kāi)發(fā)者和愛(ài)好者中廣受歡迎。

AMD 的 Ryzen AI Max+ 395 APU（為簡(jiǎn)潔起見(jiàn)，我們之后簡(jiǎn)稱其為“Strix Halo”）尤其引人注目。Strix Halo 的售價(jià)僅為 Spark 的四分之三到一半，并且它基于與 AMD 數(shù)據(jù)中心產(chǎn)品大致相同的 ROCm 和 HIP 軟件棧。這為從桌面到數(shù)據(jù)中心的遷移提供了一條更清晰（盡管未必完全無(wú)縫）的路徑。

為了了解 Strix Halo 與 Spark 的性能對(duì)比，惠普送來(lái)了Z2 Mini G1a工作站，以便我們能夠了解這些 TOPS 小型盒子在各種 AI 工作負(fù)載中的表現(xiàn)，從單用戶和批量推理到微調(diào)和圖像生成。

系統(tǒng)概述

首先你會(huì)注意到，惠普這款產(chǎn)品比Spark大得多。部分原因是英偉達(dá)選擇了通過(guò)USB-C接口連接的外置電源適配器，而惠普則選擇了稍大一些的機(jī)箱，并將電源集成在了一起。

我們通常更喜歡惠普的做法，尤其是因?yàn)楦蟮臋C(jī)箱可以容納更強(qiáng)大的散熱解決方案，盡管 Spark 的做工和質(zhì)感明顯比另一款更勝一籌。

Spark 采用全金屬機(jī)身，兼具散熱功能；而 G1a 則更像是惠普的產(chǎn)品，其外觀簡(jiǎn)潔，雖然外殼是塑料材質(zhì)，但內(nèi)部卻是堅(jiān)固的金屬機(jī)箱。這種設(shè)計(jì)理念的優(yōu)勢(shì)在于其便捷的維護(hù)性。打開(kāi) G1a 非常簡(jiǎn)單，只需按下機(jī)器背面的按鈕，然后滑開(kāi)頂蓋即可。

然而，由于這兩款機(jī)器都采用板載 LPDDR5x 內(nèi)存，因此實(shí)際上并沒(méi)有太多可做的改動(dòng)。惠普這款機(jī)器配備了兩個(gè)標(biāo)準(zhǔn)的 2280 PCIe 4.0 x4 M.2 固態(tài)硬盤，用戶可以自行更換。

相比之下，Spark 更像一臺(tái)家用電器，不過(guò)它的 SSD 也可以通過(guò)移除系統(tǒng)底部的磁性板和四個(gè)螺絲來(lái)更換。

機(jī)器內(nèi)部有兩個(gè)鼓風(fēng)機(jī)，從前面吸入冷空氣，然后從后面排出。如果你好奇的話，G1a 的雙 M.2 SSD 就位于這些風(fēng)扇的正下方，這應(yīng)該可以防止它們?cè)诟哓?fù)載下過(guò)熱。

在機(jī)器背面，我們可以看到惠普在 I/O 方面采用了與英偉達(dá)截然不同的方法。

從左到右，我們可以看到一個(gè) 2.5 GbE RJ45 接口、四個(gè)標(biāo)準(zhǔn) USB 接口（2 個(gè) 10 Gbps，2 個(gè) USB 2.0）、兩個(gè) 40 Gbps Thunderbolt 接口以及兩個(gè) mini DisplayPort 接口。在機(jī)器側(cè)面，你會(huì)找到一個(gè) 3.5 毫米耳機(jī)/麥克風(fēng)二合一接口和兩個(gè)額外的 10 Gbps USB 3.0 接口，分別采用標(biāo)準(zhǔn) USB 和 USB-C 接口。

您還會(huì)注意到兩個(gè)空白區(qū)域，可以配置任意數(shù)量的 HP Flex IO 模塊，包括串行、USB 和千兆、2.5 GbE 或 10 GbE 端口。

與此同時(shí)，Spark 優(yōu)先考慮多節(jié)點(diǎn) AI 計(jì)算環(huán)境的高速網(wǎng)絡(luò)連接。電源按鈕旁邊是四個(gè) USB-C 端口，最左側(cè)的端口用于供電。顯示輸出方面，它配備了一個(gè) HDMI 端口、一個(gè) 10GbE RJ45 網(wǎng)絡(luò)端口以及兩個(gè) QSFP 模塊，通過(guò)系統(tǒng)板載的 ConnectX-7 網(wǎng)卡，可提供總計(jì) 200Gbps 的網(wǎng)絡(luò)帶寬。

這些端口旨在實(shí)現(xiàn)多個(gè) Spark 或其他 GB10 系統(tǒng)的集群化，使用與數(shù)據(jù)中心相同的硬件和軟件。

據(jù)我們了解，您還可以將 G1a 的 Thunderbolt 端口用作高速網(wǎng)絡(luò)接口，將多個(gè)系統(tǒng)互連在一起，盡管我們無(wú)法測(cè)試這種使用場(chǎng)景。

需要說(shuō)明的是，這兩款系統(tǒng)都不是各自芯片組中最便宜的選擇。DGX Spark 的零售價(jià)為 3,999 美元，而惠普 Z2 Mini G1a 的配置價(jià)格目前約為 2,950 美元。

如果你愿意在存儲(chǔ)、連接或 I/O 方面做出妥協(xié)，你可以找到配置類似的 GB10 和 Strix Halo 盒子，價(jià)格要便宜得多。

惠普、華碩和其他一些廠商都有Spark的OEM版本，1TB存儲(chǔ)容量的起價(jià)約為3000美元。我們也見(jiàn)過(guò)售價(jià)略高于2000美元的128GB Strix Halo系統(tǒng)，不過(guò)內(nèi)存短缺似乎推高了價(jià)格，而且你也會(huì)錯(cuò)過(guò)一些企業(yè)級(jí)功能，例如“Pro”版本芯片提供的遠(yuǎn)程管理或內(nèi)存加密。

所以，如果您對(duì)這兩款系統(tǒng)中的任何一款感興趣，但又覺(jué)得價(jià)格偏高，或許可以從其他廠商那里找到更優(yōu)惠的價(jià)格。就GB10系統(tǒng)而言，除了外觀之外，您并沒(méi)有損失太多，畢竟它只是廠商貼牌產(chǎn)品，而非創(chuàng)始版。

CPU性能

在我們深入探討生成式人工智能的性能（我們認(rèn)為大多數(shù)人都會(huì)關(guān)心這一點(diǎn)）之前，我們想花點(diǎn)時(shí)間談?wù)勥@些機(jī)器各自的 CPU。

Strix Halo 是一款相當(dāng)有趣的處理器。與桌面級(jí)處理器類似，它擁有 16 個(gè)完整的 Zen 5 核心，分布在兩個(gè)核心復(fù)合體芯片 (CCD) 上，最高主頻可達(dá) 5.1 GHz。這些 CCD 通過(guò)先進(jìn)的封裝技術(shù)與一個(gè) I/O 芯片連接，該芯片負(fù)責(zé)內(nèi)存、PCIe 和圖形處理。

Z2 Mini G1a 實(shí)際上使用了 Pro 版本的芯片，增加了許多硬件安全和管理功能，這對(duì)于在批量或敏感環(huán)境中部署這些系統(tǒng)的企業(yè)來(lái)說(shuō)可能很有吸引力。

與此同時(shí)，Spark 的 GB10 Grace Blackwell 超級(jí)芯片采用與聯(lián)發(fā)科合作開(kāi)發(fā)的 Arm CPU 芯片，包含 10 個(gè) X925 性能核心和 10 個(gè) Cortex A725 能效核心，總共 20 個(gè)核心。

雖然這些核心的速度并不慢，但在我們有限的測(cè)試中，AMD 的 Zen 5 微架構(gòu)在我們的 Sysbench、7zip 壓縮/解壓縮和 HandBrake 轉(zhuǎn)碼工作負(fù)載中提供了 10% 到 15% 的性能提升。

然而，在代表眾多高性能計(jì)算工作負(fù)載的 Linpack 高性能基準(zhǔn)測(cè)試中，G1a 的雙精度浮點(diǎn)運(yùn)算性能是 Spark 的兩倍多，達(dá)到了 1.6 teraFLOPS，而 Spark 的雙精度浮點(diǎn)運(yùn)算性能為 708 gigaFLOPS。需要注意的是，該成績(jī)僅使用 X925 核心獲得，啟用 A725 核心進(jìn)行測(cè)試反而降低了性能，這表明性能可能還有提升空間。

雖然 GenAI 的性能很大程度上依賴于低精度 GPU 浮點(diǎn)運(yùn)算能力，但 Strix Halo 更強(qiáng)大的 CPU 可能會(huì)使其成為那些尋求能夠運(yùn)行 GenAI 模型的 PC 而不是 AI 設(shè)備的用戶的更靈活的選擇。

GenAI 性能

接下來(lái)我們來(lái)談?wù)?GenAI，我們應(yīng)該花點(diǎn)時(shí)間討論一下這兩個(gè)系統(tǒng)所宣稱的性能表現(xiàn)。

盡管英偉達(dá)聲稱其人工智能計(jì)算能力可達(dá) petaFLOPS，但實(shí)際上大多數(shù)用戶永遠(yuǎn)無(wú)法達(dá)到如此高的水平。原因很簡(jiǎn)單：要達(dá)到如此高的性能，需要結(jié)構(gòu)化稀疏性，而這種特性對(duì)推理工作負(fù)載幾乎沒(méi)有任何益處。

因此，Spark 的峰值性能實(shí)際上更接近 500 teraFLOPS（稠密浮點(diǎn)運(yùn)算/秒），而且僅適用于能夠利用 FP4 數(shù)據(jù)類型的工作負(fù)載。通常情況下，這意味著 Spark 實(shí)際上會(huì)以 8 位或 16 位精度運(yùn)行，從而將峰值性能分別限制在 250 teraFLOPS 和 125 teraFLOPS。

持續(xù)性能通常會(huì)略低于理論值。在最大可達(dá)矩陣乘法浮點(diǎn)運(yùn)算 (MAMF) 基準(zhǔn)測(cè)試中，我們對(duì) GB10 進(jìn)行了測(cè)試，在 BF16 下達(dá)到了 101 teraFLOPS，在 FP8 下達(dá)到了 207 teraFLOPS。

那么，G1a 搭載的 Strix Halo 處理器表現(xiàn)如何呢？嗯，這里我們看到了 AMD 的一個(gè)最大弱點(diǎn)。雖然 AMD 聲稱其頂級(jí) Strix Halo SKU 的平臺(tái)性能可達(dá) 126 TOPS，但你很難找到任何一款應(yīng)用能夠充分利用這一性能。其中 50 TOPS 由 NPU 提供，而 NPU 需要專門的軟件才能發(fā)揮其性能——稍后會(huì)詳細(xì)介紹。剩余的 TOPS 則由 CPU 和 GPU 共同提供。

Strix Halo 的 GPU 性能不容小覷。據(jù)我們估計(jì)（AMD 并未公布該芯片的峰值浮點(diǎn)性能），這款 GPU 在《戰(zhàn)地16》中的峰值性能約為 56 萬(wàn)億次浮點(diǎn)運(yùn)算/秒 (teraFLOPS)。在 MAMF 測(cè)試中，我們達(dá)到了約 82% 的性能，即 46 萬(wàn)億次浮點(diǎn)運(yùn)算/秒，這同樣相當(dāng)不錯(cuò)。

但由于該 GPU 基于 AMD 較舊的 RDNA 3.5 架構(gòu)，因此它不支持 Spark 提供的低精度數(shù)據(jù)類型。

從技術(shù)上講，該架構(gòu)確實(shí)支持 INT8，但性能與 BF16 基本相同。理論上，它應(yīng)該能達(dá)到 112 TOPS 的 INT4 性能，但關(guān)鍵在于找到能夠以這種精度進(jìn)行計(jì)算的軟件。16 個(gè)不同的值提供的粒度實(shí)在太小了。

從理論上講，這使得 Spark 在原始 AI 計(jì)算能力方面比 Strix Halo 具有 2.2-9 倍的性能優(yōu)勢(shì)。

雖然我們?cè)跍y(cè)試中反復(fù)驗(yàn)證了這一點(diǎn)，但計(jì)算能力只是 GenAI 的一個(gè)方面。另一個(gè)方面是內(nèi)存帶寬。根據(jù)您的使用場(chǎng)景，它甚至可能使 AMD 和 Nvidia 系統(tǒng)之間的性能差距變得無(wú)關(guān)緊要。

LLM推斷

我們將首先討論大型語(yǔ)言模型 (LLM) 推理，因?yàn)樗∏≌f(shuō)明了為什么更多的 TOPS 和 FLOPS 并不總是能轉(zhuǎn)化為更好的 AI 性能。

為了保持一致性，我們的大部分測(cè)試都在 Linux 系統(tǒng)下進(jìn)行：HP 系統(tǒng)上運(yùn)行的是 Ubuntu 24.04 LTS，Nvidia 系統(tǒng)上運(yùn)行的是經(jīng)過(guò)輕微定制的發(fā)行版 DGX OS。

僅從 Llama.cpp（在消費(fèi)級(jí) CPU 和 GPU 上運(yùn)行 LLM 的最流行框架之一）的單批處理性能來(lái)看，我們可以看到 GB10 和 Strix Halo 以類似的速度生成令牌，而 AMD 設(shè)備在使用 Vulkan 后端時(shí)略占優(yōu)勢(shì)。

在單用戶場(chǎng)景下，令牌生成通常會(huì)受到內(nèi)存帶寬的瓶頸限制。GB10 聲稱擁有約 273 GB/s 的內(nèi)存帶寬，而 AMD 的 Strix Halo 則擁有約 256 GB/s 的內(nèi)存帶寬。

這或許就是許多人工智能愛(ài)好者對(duì)Spark剛推出時(shí)如此失望的原因之一。只需三分之二到一半的價(jià)格，你就能買到一盒Strix Halo，它生產(chǎn)代幣的速度同樣驚人。

然而，如果您查看“首次輸入時(shí)間”這一列，就會(huì)發(fā)現(xiàn) GB10 的 GPU 速度大約是 Strix Halo 的 2-3 倍，而這僅僅是在處理相對(duì)較短的 256 個(gè)輸入框提示符時(shí)。隨著序列長(zhǎng)度的增加，這種差距會(huì)更加明顯。這是因?yàn)樘崾痉奶幚硗芸炀蜁?huì)達(dá)到計(jì)算瓶頸。

對(duì)于較短的提示或多回合對(duì)話，Llama.cpp 的提示緩存可以有效緩解這種性能不足。在這種情況下，在 AMD 平臺(tái)上我們只需要多等待一兩秒，考慮到 Strix Halo 較低的平均售價(jià)，那些只想在家運(yùn)行 LLM 的用戶或許可以忽略這一點(diǎn)。

對(duì)于那些工作負(fù)載需要將大型文檔輸入模型上下文的用戶來(lái)說(shuō)，Spark 更強(qiáng)大的 GPU 使其具有明顯的優(yōu)勢(shì)，但客戶需要權(quán)衡這一優(yōu)勢(shì)與其更高的價(jià)格之間的關(guān)系。

多批次性能

除了單批處理性能外，我們還測(cè)試了這兩臺(tái)機(jī)器在大批處理規(guī)模下的性能。用戶通常會(huì)將任務(wù)批量處理，例如從一堆文檔或電子郵件中提取信息，而不是按順序逐個(gè)處理。

在這種情況下，我們使用 vLLM，根據(jù)我們的經(jīng)驗(yàn)，它比 Llama.cpp 更能優(yōu)雅地處理大批量和并發(fā)情況，而 Llama.cpp 則更適合單用戶應(yīng)用程序。此外，我們還使用Qwen3-30B-A3B-Instruct-2507的原生 BF16 精度，以避免量化開(kāi)銷。

為了檢驗(yàn)機(jī)器的性能，我們讓它們處理 1,024 個(gè)令牌的輸入，并生成 1,024 個(gè)令牌的響應(yīng)，批處理大小從 1 到 64 不等。

X 軸表示完成批處理作業(yè)所需的時(shí)間（以秒為單位），Y 軸表示每個(gè)批處理大小下每秒的總吞吐量（以令牌為單位）。

Spark 更快的圖形處理器再次使其在性能上超越了 G1a。雖然這顯然是 Spark 的優(yōu)勢(shì)，但除非你經(jīng)常運(yùn)行批處理作業(yè)，否則這種性能優(yōu)勢(shì)可能難以察覺(jué)，尤其是在你可以安排作業(yè)在夜間運(yùn)行的情況下。批處理推理并非交互式操作，因此你可以輕松地離開(kāi)，并在完成后再回來(lái)繼續(xù)。

微調(diào)

當(dāng)我們使用微調(diào)技術(shù)通過(guò)向模型展示新信息來(lái)教會(huì)它們新技能時(shí)，情況也類似。

微調(diào)需要大量?jī)?nèi)存，對(duì)于像 Mistral 7B 這樣的模型，可能需要高達(dá) 100 GB 的內(nèi)存。正如我們之前討論過(guò)的，LoRA 或 QLoRA 等技術(shù)可以顯著減少訓(xùn)練模型所需的內(nèi)存。

Spark 和 G1a 這兩個(gè)平臺(tái)都提供高達(dá) 128 GB 的內(nèi)存，因此都非常適合這種工作負(fù)載，盡管它們的速度并不特別快。

運(yùn)行 Meta 的 Llama 3.2 3B 完整微調(diào)版后，我們發(fā)現(xiàn) Spark 完成任務(wù)的時(shí)間大約是 G1a 的三分之二。然而，與 Radeon Pro W7900 或 RTX 6000 Ada 等工作站顯卡相比，后者不僅擁有更高的浮點(diǎn)運(yùn)算性能，還配備了速度更快的 GDDR6 顯存，Spark 和 G1a 的性能則明顯遜色。

真正有趣的地方在于，當(dāng)我們開(kāi)始研究如何在大型模型上使用 QLoRA 時(shí)。通常情況下，要在家中對(duì) Llama 3.1 70B 這樣的模型進(jìn)行微調(diào)，需要多張工作站顯卡。但由于它們擁有巨大的內(nèi)存占用，使用 AMD 或 Nvidia 的顯卡完全可以勝任這項(xiàng)工作。

使用相對(duì)較小的數(shù)據(jù)集（我們之前已經(jīng)證明，這種規(guī)模的數(shù)據(jù)集足以用來(lái)調(diào)整模型的風(fēng)格），性能表現(xiàn)更符合預(yù)期。G1a 完成任務(wù)耗時(shí) 50 多分鐘，而 Spark 則只需 20 分鐘左右。

對(duì)于使用更大數(shù)據(jù)庫(kù)或 LoRA 排名的更大規(guī)模的微調(diào)作業(yè)，這很容易延長(zhǎng)到數(shù)小時(shí)甚至數(shù)天，從而使 Spark 的性能優(yōu)勢(shì)更加顯著。

但正如我們?cè)诙嗯瓮评頊y(cè)試中討論的那樣，除非你經(jīng)常對(duì)模型進(jìn)行微調(diào)，否則 Spark 的更高性能可能并不值得付出比 HP、Minisforum、Framework 或任何其他迷你電腦供應(yīng)商提供的類似配置的 Strix Halo 系統(tǒng)更高的價(jià)格。

圖像生成

Spark 的高性能優(yōu)勢(shì)在圖像和視頻生成工作負(fù)載方面尤為顯著。與微調(diào)類似，圖像生成也是一項(xiàng)對(duì)計(jì)算和內(nèi)存要求極高的工作負(fù)載，但通常不受帶寬限制。

部分原因是圖像模型不像線性模型那樣容易壓縮，否則會(huì)嚴(yán)重影響輸出質(zhì)量。因此，許多人更傾向于以原始精度運(yùn)行這些模型，無(wú)論是 FP32、BF16 還是 FP8。

在 ComfyUI 中運(yùn)行 Black Forest Lab 的 FLUX.1 Dev，我們的測(cè)試系統(tǒng)相對(duì)于其 16 位浮點(diǎn)性能，其擴(kuò)展性幾乎完全符合預(yù)期。

Spark 的 BF16 性能分別為 120 和 125 teraFLOPS，與 AMD 的 Radeon Pro W7900 大致相當(dāng)，同時(shí)比基于 Strix Halo 的 G1a 領(lǐng)先約 2.5 倍，G1a 在我們的測(cè)試中實(shí)現(xiàn)了約 46 teraFLOPS 的實(shí)際性能。

不言而喻，圖像生成顯然不是 Strix 盒子的強(qiáng)項(xiàng)。

那么NPU呢？

得益于AMD收購(gòu)賽靈思（Xilinx），其Strix Halo APU也配備了性能相當(dāng)不錯(cuò)的神經(jīng)網(wǎng)絡(luò)處理單元（NPU）。這款XDNA 2 NPU能夠額外提供50 TOPS的AI性能。當(dāng)然，關(guān)鍵在于找到能夠充分利用其性能的軟件。大多數(shù)NPU應(yīng)用場(chǎng)景都集中在降低音頻和視頻降噪、背景虛化以及光學(xué)字符識(shí)別等功能的功耗上。

然而，AMD和其他公司已經(jīng)開(kāi)始利用NPU進(jìn)行生成式AI應(yīng)用，但效果參差不齊。得益于Lemonade Server等應(yīng)用，現(xiàn)在可以完全在NPU上運(yùn)行LLM（邏輯邏輯模型）。除非你是為了節(jié)省電能，否則目前可能還不需要這樣做。

截至撰稿時(shí)，模型支持較為有限，而且NPU似乎無(wú)法充分利用GPU的250 GB/s內(nèi)存帶寬。在Windows系統(tǒng)下，我們?cè)贜PU上運(yùn)行Mistral 7B模型時(shí)，觀察到解碼性能僅為4-5 tok/s，而我們預(yù)期應(yīng)該接近40 tok/s。

然而，AMD 顯然在力推解耦推理的概念，即將計(jì)算密集型的提示處理卸載到 NPU，而將內(nèi)存帶寬密集型的解碼階段則由 GPU 處理。性能有所提升，但仍然不如直接在 GPU 上運(yùn)行模型。

這種分散式設(shè)計(jì)對(duì)于功耗受限的筆記本電腦來(lái)說(shuō)非常合理，但對(duì)于像G1a這樣的臺(tái)式機(jī)系統(tǒng)來(lái)說(shuō)則不太適用。話雖如此，我們?nèi)匀缓芟肟纯碅MD接下來(lái)會(huì)如何發(fā)展這項(xiàng)技術(shù)。

我們還成功地在Amuse（一款對(duì)初學(xué)者友好的圖像生成軟件）中運(yùn)行了 NPU。AMD 最近為 NPU 添加了對(duì)直接運(yùn)行 Stable Diffusion 3 模型的支持，在這種情況下，性能實(shí)際上比在 GPU 上運(yùn)行相同的模型要好得多。

在 NPU 上運(yùn)行，Amuse 能夠在短短一分多鐘內(nèi)用 20 個(gè)步驟生成 1,024 x 1,024 的圖像，而在 GPU 上運(yùn)行同樣的測(cè)試則需要大約兩倍的時(shí)間。

需要指出的是，目前該集成功能相當(dāng)有限，僅在初級(jí)模式下且性能滑塊設(shè)置為“平衡”時(shí)可用。切換到“專家模式”會(huì)禁用NPU，強(qiáng)制模型在圖形處理器上運(yùn)行。

此次集成也僅限于穩(wěn)定擴(kuò)散3（Stable Diffusion 3），該技術(shù)如今已略顯老舊，畢竟它發(fā)布至今已超過(guò)一年。不過(guò)，很高興看到越來(lái)越多的應(yīng)用程序利用NPU實(shí)現(xiàn)除視頻通話背景虛化之外的其他功能。

英偉達(dá)的CUDA護(hù)城河正在變淺

在 AMD 和 Nvidia 的任何比較中，經(jīng)常出現(xiàn)的一個(gè)賣點(diǎn)是軟件兼容性，也就是 CUDA 護(hù)城河。

雖然幾乎所有基于 CUDA 的軟件都可以在 Spark 上毫無(wú)問(wèn)題地運(yùn)行，但這在基于 Strix Halo 的 G1a 上并不能得到保證。

CUDA 近二十年的發(fā)展歷程不容忽視，但盡管 AMD 在 ROCm 和 HIP 庫(kù)的軟件支持方面一直落后于其他公司，但該公司在最近幾個(gè)月取得了顯著進(jìn)展。

一年前，我們遇到了很多棘手的問(wèn)題，比如一些庫(kù)要么根本找不到，要么依賴于專門為 AMD 基于 CDNA 的數(shù)據(jù)中心芯片開(kāi)發(fā)的衍生版本，這意味著它們無(wú)法在消費(fèi)級(jí)平臺(tái)上運(yùn)行。如今，這個(gè)問(wèn)題已經(jīng)大大緩解。事實(shí)上，我們的大部分 PyTorch 測(cè)試腳本無(wú)需修改即可在 AMD 平臺(tái)上運(yùn)行。但是，如果說(shuō)體驗(yàn)?zāi)芟裨?Spark 上那樣流暢，那就太虛偽了。

很多軟件都可以在AMD的消費(fèi)級(jí)硬件上運(yùn)行，但這并非總是像直接運(yùn)行程序那么簡(jiǎn)單pip install xyz-package。我們?nèi)匀恍枰啻螐脑创a構(gòu)建庫(kù)，或者使用專門為Radeon GPU制作的分支版本——vLLM、BitsandBytes和Flash Attention 2只是其中的幾個(gè)例子。

在許多情況下，尤其是在使用更貼近硬件的軟件時(shí)，軟件需要針對(duì)特定一代的Radeon顯卡進(jìn)行編譯。Llama.cpp就是一個(gè)例子，我們需要針對(duì)特定gfx1151目標(biāo)進(jìn)行編譯才能使軟件運(yùn)行。

無(wú)論使用哪個(gè)平臺(tái)，處理這些依賴項(xiàng)都不是一件容易的事，因此很高興看到 AMD 和 Nvidia 提供了預(yù)配置好的 Docker 容器，其中包含了您快速上手所需的一切。在我們的 vLLM 測(cè)試中，我們同時(shí)使用了紅隊(duì)和綠隊(duì)的 vLLM Docker 容器，以確保獲得最佳性能。

或許我們面臨的最大軟件挑戰(zhàn)并非軟件本身的問(wèn)題。Strix Halo 基于 AMD 較老的 RDNA 3.5 架構(gòu)，這意味著它不支持 Spark Blackwell GPU 提供的許多低精度數(shù)據(jù)類型。因此，我們經(jīng)常被迫以 16 位精度運(yùn)行模型，即使 FP8 或 FP4 更為理想。

AMD 的 RDNA 4 架構(gòu)通過(guò)增加對(duì)稀疏性和 FP8 的支持，應(yīng)該可以解決部分問(wèn)題。然而，由于 MXFP4 等微縮數(shù)據(jù)類型占用內(nèi)存更小、有效范圍更廣，目前業(yè)界正轉(zhuǎn)向這些類型。

盡管 AMD 正在迅速縮小差距，但英偉達(dá)在硬件和軟件方面仍然保持著顯著的領(lǐng)先優(yōu)勢(shì)。

你們一直期待的答案來(lái)了

我們知道你們肯定會(huì)問(wèn)。是的，這兩臺(tái)電腦都能運(yùn)行《孤島危機(jī)》。

在 1440p 分辨率、中等畫(huà)質(zhì)下，《孤島危機(jī)：重制版》在 G1a 上能達(dá)到非常不錯(cuò)的 90-100 幀。這并不令人意外，因?yàn)榛萜者@款筆記本采用的是 x86 CPU 和來(lái)自一家在圖形處理領(lǐng)域擁有悠久歷史的公司的 GPU。

由于 GB10 采用的是 Arm CPU，而 Arm CPU 不支持 32 位指令集，因此在 DGX Spark 上運(yùn)行這款游戲稍微復(fù)雜一些。好在我們最終借助名為 FEX 的工具成功運(yùn)行了游戲。如果您感興趣，可以在這里找到我們使用的安裝腳本。

遺憾的是，我們無(wú)法在Spark上啟用Steam性能顯示，這意味著我們無(wú)法獲得具體的性能指標(biāo)。在中等畫(huà)質(zhì)設(shè)置下，即使不使用Nvidia的AI圖像增強(qiáng)技術(shù)（實(shí)際上該技術(shù)在游戲中也有效），游戲也能流暢運(yùn)行。

雖然你可以在 Spark 或其他 GB10 系統(tǒng)上運(yùn)行游戲，但我們不確定是否會(huì)推薦它而不是 Strix Halo 主機(jī)或市面上許多更便宜的游戲 PC。

總結(jié)

哪種系統(tǒng)更適合您，實(shí)際上取決于您想要一臺(tái)專門用于人工智能的機(jī)器，還是一臺(tái)恰好能夠運(yùn)行您可能遇到的大多數(shù)人工智能工作負(fù)載的電腦。

我們懷疑，看到這里的大部分人可能都屬于后一種情況。如果你打算花2000到4000美元買一臺(tái)新電腦，我們認(rèn)為期望它能做好不止一件事并不過(guò)分。

在這方面，惠普的 Z2 Mini G1a 是市面上比較好的選擇之一，尤其適合那些主要關(guān)注單批次 LLM 推理而非微調(diào)或圖像生成的用戶。AMD 的 Strix Halo SoC 的計(jì)算能力可能不如英偉達(dá)的 GB10 系列，但它運(yùn)行 Windows 和 Linux 系統(tǒng)都很流暢，而且無(wú)需任何額外設(shè)置即可暢玩您喜愛(ài)的游戲。

盡管性能存在差距，但對(duì)于為不斷增長(zhǎng)的 AI PC 領(lǐng)域構(gòu)建應(yīng)用程序的軟件工程師來(lái)說(shuō)，即使沒(méi)有其他原因，基于 AMD 的系統(tǒng)仍然可能是更好的開(kāi)發(fā)平臺(tái)，原因僅僅是微軟的 NPU 強(qiáng)制要求。

但對(duì)于那些真正想要一臺(tái)用于原型代理、微調(diào)模型或生成文本、圖像和視頻內(nèi)容的 AI 設(shè)備的人來(lái)說(shuō)，Spark 或其 GB10 系列兄弟產(chǎn)品可能是更好的選擇，前提是你能接受它的售價(jià)。

在我們的測(cè)試中，這臺(tái)機(jī)器的性能始終比基于 AMD 的 HP 系統(tǒng)高出 2-3 倍，同時(shí)還受益于更加成熟活躍的軟件生態(tài)系統(tǒng)。正如我們所展示的，在緊急情況下，您也可以在 Spark 上運(yùn)行非 AI 工作負(fù)載，但這并非它的設(shè)計(jì)初衷。Spark 的本質(zhì)是一個(gè)開(kāi)箱即用的 AI 實(shí)驗(yàn)室，最適合作為 AI 實(shí)驗(yàn)室使用。

https://www.theregister.com/2025/12/25/amd_strix_halo_nvidia_spark/

（來(lái)源：編譯自theregister）

*免責(zé)聲明：本文由作者原創(chuàng)。文章內(nèi)容系作者個(gè)人觀點(diǎn)，半導(dǎo)體行業(yè)觀察轉(zhuǎn)載僅為了傳達(dá)一種不同的觀點(diǎn)，不代表半導(dǎo)體行業(yè)觀察對(duì)該觀點(diǎn)贊同或支持，如果有任何異議，歡迎聯(lián)系半導(dǎo)體行業(yè)觀察。

今天是《半導(dǎo)體行業(yè)觀察》為您分享的第4268期內(nèi)容，歡迎關(guān)注。

加星標(biāo)??第一時(shí)間看推送，小號(hào)防走丟

求推薦

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.