![]()
2016年4月5日,英偉達(Nvidia)發布Tesla P100加速器時,沒人想到這塊芯片會改寫整個科技行業的權力格局。黃仁勛在發布會上放話,Pascal架構將幫助人類攻克癌癥、搞懂氣候變化、造出智能機器——當時聽起來像典型的硅谷吹牛,但9年后英偉達市值沖破3萬億美元,這句話成了科技史上最值錢的預言之一。
「12倍性能提升」是怎么算出來的
P100的紙面參數放在今天依然夸張:160億晶體管(原文15.3 billion,按行業慣例取整為160億)、16nm FinFET工藝、720GB/s顯存帶寬。英偉達官方宣稱,相比上一代Maxwell架構,神經網絡訓練性能提升超過12倍。
這個數字的含金量在于,它不是跑分軟件的虛榮指標,而是數據中心真金白銀的電費賬單。P100首次引入NVLink互聯技術,8塊GPU能像搭積木一樣擴展,顯存帶寬用上了HBM2高帶寬顯存——這些技術后來成了AI訓練集群的標準配置。
黃仁勛當時把P100定位為「最先進的大規模數據中心加速器」,瞄準的是超大規模云計算客戶,而非游戲玩家。這個定位的微妙之處在于:英偉達在賭一個當時還不存在的市場。
2016年的深度學習浪潮剛剛起步,AlphaGo擊敗李世石的新聞熱度還沒過,OpenAI還是馬斯克和奧特曼剛成立的非營利組織。英偉達選擇All in AI基礎設施,相當于在淘金熱爆發前賣鏟子——而且只賣最貴的鏟子。
游戲玩家撿到的「遺產」
數據中心的故事講完了,消費級市場才是Pascal架構真正刷存在感的地方。GTX 1080 Ti和GTX 1060兩塊卡,定義了整整一代PC玩家的游戲體驗。
GTX 1080 Ti發布于2017年3月,3584個CUDA核心、11GB GDDR5X顯存,性能碾壓前代旗艦Titan X,價格卻砍到699美元。這塊卡被玩家戲稱為「戰術核顯卡」的精神續作——不是因為發熱量,而是因為性價比太過殘暴,讓競爭對手AMD的Vega架構還沒發布就陷入被動。
更離譜的是GTX 1060。這塊2016年7月發布的甜點卡,6GB顯存版本在Steam硬件調查榜單上霸榜超過5年。2025年的今天,它居然還能跑《紅色沙漠》(Crimson Desert)的最低配置——一款原定2026年發售的開放世界大作。9年前的中端卡能戰未來,這種事在顯卡歷史上屈指可數。
Pascal架構的游戲卡成功,本質是技術下放的紅利。16nm工藝讓晶體管密度翻倍,功耗控制大幅改善,英偉達把省下來的成本砸進了定價策略。GTX 1060首發價249美元,比前代GTX 960貴50美元,但性能提升接近70%。玩家用腳投票,這塊卡最終出貨量超過2500萬塊。
架構背后的「五個突破」
英偉達在P100發布會上總結了Pascal架構的五大技術突破。這些術語當時聽著像營銷話術,現在回頭看全是伏筆。
第一項是16nm FinFET工藝,讓單芯片塞進160億晶體管成為可能。作為對比,2014年的Maxwell旗艦GTX 980 Ti只有80億晶體管,功耗卻更高。制程紅利直接轉化為性能功耗比,這是數據中心客戶買單的核心邏輯。
第二項是HBM2顯存堆疊,用硅通孔技術把顯存和GPU封裝在一起。720GB/s的帶寬在2016年屬于外星科技,作為對比,GDDR5X的極限大概在500GB/s左右。高帶寬對AI訓練至關重要——矩陣運算需要瘋狂吞吐數據,顯存瓶頸比算力瓶頸更致命。
第三項是NVLink互聯,替代了老舊的PCIe。單條NVLink帶寬20GB/s,一塊P100有4條,8卡并聯時GPU之間能直接交換數據,不用繞道CPU。這個設計后來被復制到DGX-1超級計算機,再演變成今天Blackwell架構的NVLink Switch。
第四項是統一內存架構,讓CPU和GPU共享尋址空間。對程序員來說,這意味著少寫一堆數據搬運代碼。對英偉達來說,這是把GPU從「圖形加速器」重新定義為「通用并行處理器」的關鍵一步。
第五項是AI專用指令集,支持混合精度計算。FP16半精度運算的吞吐量是FP32單精度的2倍,這對深度學習訓練簡直是量身定制——神經網絡不需要那么高的數值精度,但極度渴望并行吞吐量。
從P100到H100:同一條河流
2016年押注AI的決策,讓英偉達在2022年ChatGPT爆發時成了唯一供應商。OpenAI訓練GPT-3用了1萬塊V100,GPT-4據傳用了2.5萬塊A100——這些芯片的架構血脈,都能追溯到Pascal。
Pascal首次引入的Tensor Core雛形、NVLink互聯、混合精度計算,在后續架構中被不斷放大。Volta架構加了正式版Tensor Core,Ampere架構支持稀疏計算加速,Hopper架構引入Transformer Engine——但底層的設計哲學沒變:用專用硬件榨干矩陣運算的每一滴效率。
黃仁勛在2016年的預言,「找到癌癥療法、理解氣候變化、建造智能機器」,三句話里有兩句已經兌現。AI蛋白質折疊預測(AlphaFold)加速了新藥研發,氣候模型分辨率提升到公里級,至于「智能機器」——你手機里的ChatGPT就是答案。
唯一沒料到的是速度。P100的12倍性能提升用了兩年迭代,而2022到2024年,大模型算力需求每6個月翻10倍。英偉達的股價曲線,幾乎完美復刻了這個斜率。
那代玩家的集體記憶
對普通用戶來說,Pascal架構的意義更樸素:它是最后一代讓人「買得起旗艦」的顯卡時代。
GTX 1080 Ti的699美元定價,在2017年屬于「咬咬牙能上」的區間。2024年的RTX 4090首發價1599美元,性能提升當然可觀,但價格曲線比算力曲線陡峭得多。Steam硬件調查顯示,GTX 1060至今仍有超過5%的占有率,而RTX 40系合計不到15%——不是玩家不想換,是換代成本已經質變。
GTX 1060能撐到2026年這件事本身,就是Pascal架構設計冗余度的證明。英偉達當年給這塊甜點卡塞進了1280個CUDA核心,顯存控制器完整保留192bit位寬,這些「浪費」在多年后成了延壽的資本。
有玩家在Reddit回憶,自己的GTX 1060從《巫師3》打到《艾爾登法環》,再到《黑神話:悟空》,中間只換過一次硅脂。這種產品壽命在消費電子領域近乎奇跡,也讓「等等黨」這個詞有了實體寄托。
10年后的今天,P100的物理形態早已退役,但Pascal的設計基因仍在英偉達最新芯片里流動。當你用ChatGPT寫周報、用Midjourney生成頭像、或者單純在Steam上啟動一款新游戲時,某種程度上都在調用2016年4月5日那天的技術遺產。
黃仁勛當年說的「建造智能機器」,現在回頭看是個過于保守的描述——他真正建造的是一臺印鈔機,而Pascal是塞進投幣口的第一枚硬幣。
下一個10年,當AI代理(AI Agent)開始自主決策、當機器人走出工廠進入家庭,我們會不會再次發現某塊2024年的芯片,像GTX 1060一樣被強行續命到2035年?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.