如果說過去十年科技產業的主角是智能手機,那么未來十年的主角,很可能就是AI基礎設施
很多人以為,大模型競爭就是“誰家的模型更聰明”。但在產業層面,真正決定勝負的,往往不是聊天界面上的答案,而是背后那套龐大的基礎設施系統:芯片、內存、網絡、服務器、數據中心、電力、散熱、軟件棧、云平臺,以及把它們組織起來的系統工程能力。
換句話說,今天的AI戰爭,表面上看是模型之戰,底層其實是基礎設施之戰。
而理解這場戰爭,最好的方式,就是先把核心術語搞清楚。
這篇文章,就用100個關鍵詞,帶你從GPU一路看到AI工廠,系統理解大模型時代的底層競爭邏輯。
一、總覽篇:什么是AI基礎設施? 1. AI基礎設施
指支撐人工智能訓練、后訓練、推理和部署的一整套底層系統。
它不僅包括芯片,也包括服務器、網絡、存儲、軟件平臺、數據中心和電力冷卻系統。
一句話理解:
AI基礎設施不是一顆芯片,而是一整座“智能生產工廠”。
2. AI工廠(AI Factory)
這是近兩年非常流行的說法。
意思是:未來的數據中心,不再只是存儲和計算的IT機房,而是把電力、算力、數據持續轉化為token、模型能力和AI服務的“工廠”。
它既是技術概念,也是產業敘事。
3. 數據中心(Data Center)
部署服務器、存儲、交換機、網絡設備、電源和冷卻設施的物理空間。
AI時代的數據中心越來越像重工業基礎設施,而不只是互聯網機房。
4. 集群(Cluster)
由大量計算節點組成、統一調度的計算系統。
大模型訓練不是靠一臺機器完成,而是靠成百上千,甚至成千上萬顆加速器組成集群。
5. 節點(Node)
集群中的一臺服務器,通常裝有多顆GPU或AI加速器。
6. 機柜(Rack)
數據中心里安裝服務器、電源和網絡設備的標準柜體。
今天討論AI基礎設施,很多時候已經不是“單卡性能”問題,而是“整柜功耗”和“整柜散熱”問題。
7. Pod
由多個機柜、多個節點組成的較大規模計算單元。
你可以把它理解為“數據中心里的一個大型算力車間”。
8. Superpod
比Pod更大的AI基礎設施部署單元,通常用于超大規模訓練和推理系統。
二、計算芯片篇:誰在提供AI時代的“發動機”? 9. CPU
中央處理器,通用計算核心。
在AI系統里,CPU更多負責控制、調度、數據管理和系統運行,而不是主要AI計算。
比喻:
CPU像總指揮,GPU像真正干重活的大型施工隊。
10. GPU
圖形處理器,本來是為圖形渲染設計,后來因為特別擅長大規模并行計算,成為AI訓練和推理的核心芯片。
為什么GPU能贏?
因為深度學習本質上需要做海量重復矩陣運算,而這恰恰是GPU最擅長的事。
11. AI加速器
泛指專門用來加速AI運算的芯片。
GPU是AI加速器的一種,TPU、NPU、部分ASIC也都屬于AI加速器。
12. ASIC
專用集成電路。
指為某一類任務專門設計的芯片,比如專門做AI訓練或推理。
特點:
優勢:效率高、能耗低、針對性強
劣勢:通用性差、生態難做、適配工作重
Google自研的AI專用加速器。
本質上,它是面向張量運算優化的一類ASIC。
14. NPU
神經網絡處理器。
通常用于手機、PC、邊緣設備等場景,負責本地AI能力。
15. DPU
數據處理器。
主要負責網絡、存儲、安全等基礎設施卸載,不直接承擔主要模型訓練任務,但在大規模AI數據中心中越來越重要。
16. 通用芯片
可適應多種任務場景的芯片,比如CPU、GPU。
優點是靈活,缺點是未必針對某一場景做到極致效率。
17. 專用芯片
專門為某類任務做優化的芯片,比如TPU、部分推理ASIC。
優點是效率更高,難點是生態和通用性。
18. 異構計算
系統中同時使用不同類型芯片協同工作,比如CPU+GPU+DPU。
AI時代,單一芯片已經很難解決所有問題,異構計算越來越成為主流。
三、算力基礎篇:為什么AI這么“吃算力”? 19. 張量(Tensor)
深度學習里的基礎數據結構,可以理解為“多維數組”。
20. 矩陣乘法
深度學習最核心的運算之一。
大模型訓練的大部分算力,最終都消耗在矩陣乘法上。
21. 浮點運算
帶小數的數值運算。
AI訓練和高精度推理大量依賴浮點計算能力。
22. FLOPS
每秒浮點運算次數,用于衡量理論算力水平。
常見單位包括:
TFLOPS:萬億次
PFLOPS:千萬億次
EFLOPS:百億億次
每秒萬億次操作。
常用于邊緣AI或低精度推理芯片宣傳。
注意:
TOPS常常更適合營銷口徑,不能簡單等同于真實模型表現。
24. 峰值性能
芯片在理想狀態下的理論最大算力。
現實世界中,系統通常達不到這個峰值。
25. 實際性能
在真實訓練、推理任務中的表現。
這才是用戶真正關心的性能。
26. 吞吐量(Throughput)
單位時間內系統處理任務的能力,比如每秒生成多少token。
27. 延遲(Latency)
從發起請求到得到結果所需的時間。
推理系統里,延遲越低,用戶體驗通常越好。
28. 利用率(Utilization)
芯片或集群實際被有效使用的程度。
理論算力再強,如果大部分時間都在等數據、等通信,那利用率也會很差。
29. 算力墻
今天很多系統繼續提速的瓶頸,不只是設計更強芯片,而是如何讓整套系統真正把算力用起來。
四、精度與數值格式篇:為什么不是精度越高越好? 30. FP32
32位浮點數,傳統高精度計算常見格式。
31. FP16
16位浮點數。
相比FP32更省內存、更省帶寬,也更適合大規模AI訓練。
32. BF16
一種對深度學習更友好的16位格式。
如今很多大模型訓練會大量使用BF16。
33. INT8
8位整數格式,推理場景中很常見。
34. INT4
4位整數格式。
壓縮更激進,部署成本更低,但對精度保持的挑戰更高。
35. 量化(Quantization)
把模型從高精度壓縮成低精度表示,比如從FP16降到INT8或INT4。
目的是降低顯存占用、降低成本、提高推理效率。
36. 混合精度訓練
訓練過程中混合使用不同精度的數據格式,以同時兼顧訓練穩定性和效率。
37. 數值穩定性
模型訓練時,低精度計算可能帶來的誤差、溢出或梯度異常問題。
所以并不是“精度越低越省錢”就一定最好。
五、內存與存儲篇:為什么今天HBM這么重要? 38. HBM
高帶寬內存。
這是AI芯片時代最關鍵的資源之一,通常與GPU或AI加速器緊密封裝,提供極高的數據傳輸帶寬。
一句話:
今天很多AI系統的瓶頸,不在“算得不夠快”,而在“數據喂得不夠快”。
39. 顯存(VRAM)
GPU上用于存儲模型參數、激活值、KV Cache等數據的存儲空間。
40. 內存帶寬
單位時間能傳輸的數據量。
AI訓練和推理都極度依賴高帶寬。
41. 容量
能裝下多少數據。
容量決定模型能否放進去,帶寬決定模型能跑多快。
42. DDR
傳統服務器內存,容量較大但帶寬通常低于HBM。
43. SRAM
速度很快但容量小、成本高的存儲形式,通常位于芯片內部,用于高速緩存。
44. Cache
緩存。
用于減少訪問慢速內存的次數,提高數據訪問效率。
45. KV Cache
大語言模型推理中緩存注意力機制中Key和Value的結構。
長上下文推理時,KV Cache會顯著占用顯存,是推理成本的重要來源。
46. SSD
固態硬盤。
用于存放數據集、模型權重、訓練日志、檢查點等。
47. 檢查點(Checkpoint)
訓練過程中定期保存的模型狀態文件。
方便斷點續訓、恢復訓練和后續微調。
六、互連與網絡篇:多卡協同為什么這么難? 48. 互連(Interconnect)
不同芯片、不同服務器之間進行高速通信的技術總稱。
大模型訓練的本質是“很多芯片一起干活”,所以互連極其關鍵。
49. NVLink
英偉達的高速GPU互連技術。
主要解決GPU之間如何更快交換數據的問題。
50. NVSwitch
連接多顆GPU的交換芯片。
你可以把它理解成GPU之間高速通信的“交通樞紐”。
51. InfiniBand
一種高性能網絡技術,常用于高性能計算和AI訓練集群。
特點是高帶寬、低延遲。
52. Ethernet
以太網。
傳統數據中心最主流的網絡方式。
如今也正被越來越多用于AI集群。
53. RDMA
遠程直接內存訪問。
允許服務器繞過過多CPU參與,直接高效訪問遠程內存,降低延遲、提高通信效率。
54. 交換機(Switch)
網絡里的數據分發中心。
在大規模AI集群里,交換機的重要性已經不亞于服務器本身。
55. 拓撲(Topology)
指整個集群中芯片、服務器、機柜的連接結構。
拓撲設計不好,會導致訓練效率大幅下降。
56. Scale-Up
單機或單系統內部擴展。
比如一臺服務器里連接更多GPU。
57. Scale-Out
跨服務器、跨機柜擴展。
通過網絡把更多節點連成更大集群。
58. 東西向流量
服務器之間橫向交換的數據流。
AI訓練集群里,這類流量非常大,對網絡要求極高。
七、訓練篇:模型是怎么“學會”的? 59. 訓練(Training)
讓模型通過大量數據調整參數、形成能力的過程。
60. 預訓練(Pre-training)
用海量通用數據訓練基礎模型,是模型獲得語言、圖像、代碼等一般能力的關鍵階段。
61. 后訓練(Post-training)
預訓練完成后,為了讓模型更可用、更安全、更會聽指令而進行的一系列優化過程。
62. 微調(Fine-tuning)
在已有模型基礎上,用更小、更專業的數據繼續訓練,使其適應特定任務。
63. 指令微調
讓模型更善于理解并執行人類指令的訓練方式。
64. 對齊(Alignment)
讓模型輸出更符合人類意圖、規范、安全要求的過程。
65. RLHF
基于人類反饋的強化學習。
通過人工偏好數據提升模型回答質量和風格一致性。
66. 合成數據
不是直接采集于現實世界,而是通過模型、程序或規則自動生成的數據。
在高質量訓練數據變得稀缺后,合成數據越來越重要。
67. 批大小(Batch Size)
一次訓練中送入模型的數據量。
批大小會影響訓練吞吐、穩定性和顯存占用。
68. 梯度
模型訓練時,用來指導參數更新方向的核心量。
69. 梯度同步
多卡訓練后,不同設備需要同步梯度,以保證更新方向一致。
70. 分布式訓練
用大量GPU或AI加速器共同完成訓練。
這已經是大模型時代的標準做法。
71. 數據并行
把不同數據分給不同設備并行處理,再同步結果。
72. 模型并行
把模型拆分到多張卡上運行,用于單卡放不下的大模型。
73. 張量并行
把某一層內部的大矩陣運算進一步拆分給多張GPU并行處理。
74. 流水線并行
把模型不同層分配到不同設備上,像工廠流水線一樣接力執行。
八、推理篇:模型真正賺錢,靠的不是訓練而是“使用” 75. 推理(Inference)
模型訓練完成后,實際響應用戶請求、生成內容、提供服務的過程。
76. 在線推理
面向實時請求的推理。
比如聊天機器人、搜索問答、實時生成應用。
77. 離線推理
不追求實時響應,而是批量執行任務。
比如批量摘要、內容審核、離線推薦。
78. Serving
把模型包裝成可被調用的服務,供應用程序和用戶訪問。
79. 推理引擎
專門為模型部署和推理執行做優化的軟件系統。
目標是跑得更快、占用更少、調度更穩。
80. 首token時間(TTFT)
從用戶發起請求到模型輸出第一個token的時間。
它非常影響“這個AI快不快”的主觀感受。
81. 每秒token數
衡量模型生成速度的常見指標。
82. 批處理(Batching)
把多個請求打包一起算,以提高吞吐量。
83. 動態批處理
根據實時請求自動組織批次,在吞吐和延遲之間找平衡。
84. Prefill
模型先讀取并處理全部輸入上下文的階段。
長上下文下,Prefill開銷很大。
85. Decode
模型逐步生成輸出token的階段。
聊天類應用大多對Decode速度非常敏感。
九、大模型篇:為什么大模型正在重塑基礎設施? 86. Token
模型處理文本的最小單位。
它不一定等于一個字,也不一定等于一個單詞。
87. 上下文窗口(Context Window)
模型一次性能處理的輸入長度范圍。
上下文越長,模型一次能“看見”的信息越多。
88. 參數量
模型中可學習權重的數量,比如7B、70B、175B。
參數多不一定絕對更強,但通常意味著更大的模型容量。
89. 稠密模型(Dense Model)
每次推理時,大部分參數都會參與計算的模型。
90. MoE
混合專家模型。
模型里有多個“專家模塊”,每次只激活其中一部分。
它的意義在于:
可以把總模型做得很大,但單次計算量未必同比暴漲。
91. 路由(Routing)
MoE系統中,決定某個token交給哪些專家處理的機制。
92. 激活參數
MoE在一次推理中真正參與計算的那部分參數。
93. 長上下文
模型能處理很長輸入內容的能力。
這不只是模型能力問題,更是基礎設施問題,因為它會顯著推高顯存和KV Cache開銷。
94. 思維鏈(Chain of Thought)
模型通過分步驟推理來提高復雜任務正確率的方式。
但思維鏈越長,通常也意味著推理時間更長、成本更高。
95. Test-Time Compute
推理時算力。
意思是:不是在訓練階段加更多算力,而是在模型回答問題時投入更多算力和步驟,以換取更好的答案。
這正在改變AI基礎設施的需求結構。
96. Agent
不只是回答問題,而是能調用工具、分解任務、執行流程的AI系統。
97. Agentic Systems
由多個模型、工具、記憶、任務流和反饋環組成的復雜智能系統。
它們比普通聊天機器人更耗資源,也更依賴推理基礎設施。
十、產業與商業篇:為什么今天拼的不是單芯片,而是整個平臺? 98. CUDA
英偉達的GPU軟件平臺和生態體系。
它的重要性不只是“讓GPU能跑”,而是讓開發者、框架、工具鏈都圍繞它形成標準。
99. 軟件棧(Software Stack)
從應用層、框架層、編譯器、驅動到固件的整套軟件體系。
AI基礎設施競爭,軟件棧越來越重要。
100. 系統級協同設計(System Co-Design)
芯片、內存、互連、封裝、服務器、軟件、數據中心一起協同優化,而不是只優化一顆芯片。
這正是AI時代最核心的競爭邏輯。
摩爾定律紅利放緩之后,半導體產業的勝負手,正從“單顆芯片更快”轉向“整個系統更強”。如果只看表面,AI基礎設施像是在比誰有更強的GPU。
但往下看一層,你會發現競爭已經變成:
誰能拿到更多HBM
誰能做更好的互連網絡
誰能把數千顆加速器真正組織起來
誰能把訓練成本打下來
誰能把推理吞吐提上去
誰能把電力、散熱和機柜效率做成優勢
誰能構建最強的軟件生態和開發者平臺
所以,大模型時代真正的底層戰爭,不只是芯片戰爭,而是系統戰爭、平臺戰爭、基礎設施戰爭。從這個角度看,GPU只是起點,AI工廠才是終局。
免費報名參加:
歡迎加入行業交流群,備注崗位+公司,請聯系老虎說芯(加V:tigerchip)
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.