<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<abbr id="ysn5r"><fieldset id="ysn5r"><label id="ysn5r"></label></fieldset></abbr>

<s id="ysn5r"><nav id="ysn5r"></nav></s>

<center id="ysn5r"><rp id="ysn5r"><abbr id="ysn5r"></abbr></rp></center>

<strike id="ysn5r"><rt id="ysn5r"></rt></strike>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

深度拆解Groq LPU架構：這顆讓英偉達花200億買下的芯片，到底憑什么？

2026-03-30 11:17:26　來源: EETOP半導體社區

北京舉報

0

分享至

你有沒有想過，為啥現在AI芯片越做越大，但單次推理延遲就是降不下來？

你去問做AI部署的哥們，十個有九個會跟你吐槽：GPU這塊，大模型推理就是看batch吃滿了能跑多少吞吐量，但你要真給用戶做實時交互，那延遲真是飄忽不定，完全看臉。

今天咱聊一片當年在架構圈扔了炸彈的論文——Groq在2020年ISCA發表的張量流處理器TSP，這片子直接把傳統CPU/GPU那套緩存仲裁全砍了，用一套「功能分片+流式編程」的思路，硬生生把ResNet50單batch推理做到了每秒20400張圖，比同期GPU快了4倍。

這也可以看做Groq第一代的LPU，也是Groq一以貫之的架構。

更狠的是，人家人稱「地表最確定AI芯片」，運行時間編譯器就算得明明白白，一點驚喜都不給你留。

最終，憑借這個架構，Groq被英偉達200億美金收購，

那么價值200億美金的架構是怎樣的？

今天咱拆開說。

1. 為什么傳統架構做不好單batch推理？

要講明白TSP牛在哪，得先挖挖坑：現在常用的CPU/GPU，問題出在哪？

傳統的多核架構，不管是CPU還是GPU，基本上都是圖1(a)那樣：每個核都是完整的——取指、譯碼、執行、緩存啥都有，然后用一個二維網格把這些核連起來。

傳統二維網格vs功能分片架構

這種設計有什么問題？

每個核都要自己做動態調度，遇到突發訪問就得爭總線搶緩存，延遲根本說不準。

你想啊，現在AI推理，特別是線上服務，基本上都是用戶來一個請求處理一個，batch size就是1，你那些動態調度、緩存預取、分支預測啥的，其實都是在幫倒忙——看起來是優化性能，實際上帶來了不確定性，還浪費了大量芯片面積做控制邏輯。

既然深度學習已經有天然的張量并行性，那我們為什么不把硬件按照功能切開，讓數據像流水線上的零件一樣直接流過去？

2. 功能分片：把一個核拆碎了按功能重新站隊

TSP最反常識的設計，就是它的功能分片（Functional Slicing）。

咱們正常人做芯片，是把「指令控制、內存、整數運算、浮點運算、網絡」都打包放到一個核里，多個核拼起來就是一塊芯片。

Groq反過來了：

所有做指令控制的放一塊，叫ICU切片

所有做內存的放一塊，叫MEM切片

所有做向量計算的放一塊，叫VXM切片

所有做矩陣計算的放一塊，叫MXM切片

所有做網絡交換的放一塊，叫SXM切片

同一功能的tile垂直疊成切片，然后水平方向數據流過所有切片。

這樣玩好處在哪？

① 公共邏輯抽出來，省面積！

所有同一功能的tile跑一樣的指令，那指令譯碼分發只需要做一次就行了，不用每個核都放一套譯碼邏輯。論文說，整個控制單元ICU占的面積不到3%，太省了。

② 流水線天然垂直展開

指令從北邊流下來，數據從東邊流到西邊，指令和數據在交叉點相遇就計算，完美解耦：

指令流在Y方向走，數據流在X方向走，互不干擾。

每個功能切片自己做自己的20級向量流水線，分工明確，沒人搶資源。

③ 內存和計算徹底解耦

原來數據要從內存讀到寄存器，再給計算單元用，繞一圈。現在內存切片直接把數據送到計算切片門口，計算完直接送回下一個內存切片，沒有寄存器堆那套中間環節了。

3. 流編程模型：生產者消費者，像流水線一樣干活

講完了硬件架構，咱說說軟件怎么玩——TSP用了非常簡單粗暴的生產者-消費者流式編程模型。

我給你打個比方：

傳統的RISC架構做個向量加法Z=X+Y，得先把X和Y從內存load到寄存器，加完了再store回去，繞一大圈。

傳統RISC vs TSP流式執行對比

TSP呢？

內存切片就是生產者，計算切片就是消費者，X讀出來直接流去加法單元，加完了直接流去寫內存，根本不需要寄存器這層中間商賺差價。

這就跟汽車生產線一模一樣：

傳送帶（流）一直在動

每個工位（功能切片）只干自己那點活

零件（數據）流過來就加工，加工完直接走

看到這你可能會問：那流具體怎么流？

我給你捋幾個關鍵設計：

320個并行車道，天生就是給張量準備的

TSP總共支持320個并行車道，20個tile每個tile出16個lane，加起來正好320。這個lane就是硬件層面給你做好的并行，程序員直接用，不用自己去拆分任務。

64個邏輯流，東西雙向流動

每個lane支持64個邏輯流，32個向東流，32個向西流，編譯器精確控制每個流走哪條路，完全沒有動態路由沖突。

全芯片共享220MB SRAM，夠放模型參數

整個芯片有220MB的全局共享SRAM，能給所有計算單元提供每個lane 32字節的流帶寬，把四個320×320矩陣所有權重裝填好，不到40個周期就完事。速度非常可觀。

4. 為什么要干掉緩存和仲裁？確定性比什么都重要

這篇論文最狠的一句話，我給你摘出來：

我們干掉了所有反應性硬件，比如仲裁器和緩存。

看到這句的時候，我第一次讀真的驚了——現在哪個芯片不帶緩存？你瘋了？

但人家邏輯非常清晰：

緩存就是用來應對不確定性的——你不知道接下來要訪問什么數據，所以放一塊緩存碰碰運氣。緩存命中率高了跑得快，低了直接死給你看，延遲根本沒法保證。

如果你能通過編譯器靜態把所有調度都安排得明明白白，那緩存還有個屁用？直接砍掉省面積省功耗不好嗎？

TSP就是這個思路：

沒有動態仲裁，所有路由都是編譯器算好的確定性路由，走哪條路時間都算死了

沒有緩存，所有數據都放在SRAM里，地址靜態分配，訪問時間固定

沒有亂序執行，指令順序編譯器拍板，硬件老實按順序跑就行

這么做帶來了什么好處？

整個芯片運行的時候，每一段程序要花多少時間，編譯器在編譯的時候就能精確算出來，跑的時候一定是這個時間，一點不差。

這對云服務來說太香了——你給用戶做SLA，說我這延遲一定不超過50ms，那你就得做到。要是換成帶緩存的GPU，萬一緩存miss了，直接給你蹦到幾百ms，你這SLA就破了。

5. 干出了什么成績？數據說話

說一千道一萬，成績拿出來溜溜。論文給的數據非常勁爆：

ResNet50 單batch IPS：20400張/秒—— 同期GPU/TPU大概5000張，快了4倍

單張圖片延遲：不到49μs—— 這意味著什么？一百張圖片加起來延遲才不到5毫秒

計算密度：超過1 TeraOp/s/mm2—— 14nm工藝，900MHz，芯片面積25×29mm

功耗效率：在限定功耗內實現更高吞吐 —— 因為沒有動態邏輯，省了不少功耗

這個數據放在20年那真是降維打擊——單batch推理，TSP直接就是4倍的提升，這在AI芯片圈很少見。

要知道，這還是人家第一代芯片，后來Groq做大模型推理，那個低延遲名聲就是從這篇論文打下來的基礎。

Groq TSP 芯片die photo 6. 這個架構思路給我們什么啟發？

聊完技術細節，咱拔高一層說——TSP這思路，為啥現在看仍然很牛？

① 專業架構就得干專業的事

通用CPU/GPU要照顧各種各樣的工作負載，所以不得不做很多動態邏輯，面積功耗都浪費了。但是AI推理這個場景，特性非常明確：

計算都是大張量運算，并行度天然足夠

模型參數編譯的時候就知道了，不需要動態加載

云端部署對延遲確定性要求極高

那我針對這個場景，把所有不確定的東西都干掉，不就能榨干每一寸芯片的性能嗎？

這就是領域專用架構的魅力——不是說我堆更多核更大緩存，而是我把不必要的東西都砍掉，把面積功耗都用在刀刃上。

② 確定性性能是一種奢侈品，但非常值錢

現在大家一提到AI芯片就比TOPS比帶寬，但很少有人提確定性。實際上，對于真正在線部署來說，可預測的延遲比峰值吞吐量值錢一萬倍。

你做個ChatGPT，用戶問你個問題，你一會兒100ms出結果，一會兒500ms出結果，用戶體驗肯定差。但要是你能保證每次都在200ms以內，體驗立馬上去了。

TSP把緩存砍了，就是把「不確定性」從根上掐了，這思路太絕了。

③ 軟件分擔更多，硬件更簡單

TSP把所有調度都扔給編譯器做，硬件只需要傻跑就行了。這其實是現在很多新架構的趨勢：

硬件簡化，軟件變復雜

靜態調度代替動態仲裁

編譯器替你把一切安排好

這樣硬件設計簡單了，可靠性上去了，性能也上去了，一舉多得。

7. 總結：AI芯片這條路，其實還遠沒走到頭

很多人說，現在AI芯片不就是堆堆堆嗎？堆核堆緩存堆帶寬，拼工藝拼成本，創新空間不大了。

但Groq這篇論文告訴我們：只要你敢跳出傳統CPU/GPU的框框，換個思路玩，就能搞出比傳統架構更優的性價比。

注意：不是普適性，普適性CPU和GPU更普世，而是更有針對性，在LPU針對大模型推理方面性能比CPU和GPU更有優勢，這也是為什么英偉達花200億美金買Groq的原因。。

從上面就可以看到，Groq把緩存砍了，功能分片，流式執行，這么簡單幾個思路改變，直接干出了4倍的性能提升。

這就是架構創新的魅力。

文章來源于歪睿老哥，作者歪睿老哥

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

不造一顆芯片的Arm如何統治了世界？

DeepTech深科技 2026-01-05 16:58:33
0 跟貼 0
當千億參數撞上5毫米芯片

鈦媒體APP 2025-12-10 11:10:12
0 跟貼 0

MIT新方法讓兩顆芯片共享唯一“指紋”，重寫硬件安全規則

DeepTech深科技 2026-02-25 17:32:10
0 跟貼 0

量子芯片會不會是下一個“原子彈”？

鈦媒體APP 2026-03-11 19:38:09
0 跟貼 0
超節點三大特點打破通信墻，具備大帶寬、低時延、內存統一編址

量子位 2026-02-05 16:43:10
0 跟貼 0

美國實現光刻創新，金屬有機框架光刻膠有望打造5nm極限硅芯片

DeepTech深科技 2026-03-08 18:51:28
0 跟貼 0

1000 倍效率神話，Taalas如何用 “模型即芯片” 暴打英偉達

鈦媒體APP 2026-02-24 15:35:10
0 跟貼 0
不上云、不租卡，如何優雅地在本地微調Qwen-VL-30B？

機器之心Pro 2026-01-13 12:57:27
30 跟貼 30

2026，國產AI芯片，跨越天塹：從“推理”走向“訓練”

鈦媒體APP 2026-02-25 12:59:31
0 跟貼 0
瘋了！游戲本逆天改裝：一顆電阻4090反殺5090！

雷科技 2025-11-11 18:57:46
0 跟貼 0
AI救活了一家馬桶公司，也點燃了存儲芯片超級周期

鈦媒體APP 2026-04-11 12:51:05
7 跟貼 7
吉利給SUV刷了層"黑金皮膚"，智駕直接上英偉達頂配

報錯免疫體 2026-04-11 09:34:40
0 跟貼 0
貓真的能聽懂指令嗎？

老D懸疑 2026-04-10 13:05:37
0 跟貼 0
獨家對話研極微創始人：80人做到近100億營收后，要把AI攝像頭插到田間地頭

36氪 2026-01-21 09:10:59
42 跟貼 42
車企搞芯片像換心臟，廣汽這次要自己動手了

硅嶼手記 2026-04-12 08:44:06
0 跟貼 0
男子把麻將牌砸碎，從里頭找出了一塊芯片

銳眼新聞 2026-04-09 15:33:29
1 跟貼 1
黃仁勛全世界穿皮衣，唯獨在中國換上了大花襖

雷科技 2026-01-27 17:19:30
0 跟貼 0
亞馬遜考慮對外銷售自研AI芯片，年化營收規模或達500億美元

華爾街見聞官方 2026-04-10 04:28:59
4 跟貼 4
盤點那些CPU被干燒的人

動物科普君 2026-04-09 11:11:35
0 跟貼 0
深圳54歲的張女士因腹痛撥打120后救護車違抗指令強行送往民營醫院

重慶社會與法頻道 2026-04-10 10:53:48
0 跟貼 0
高智商劫匪用一張撲克牌，盜取價值5000萬的芯片

易飛電影1 2026-04-11 23:50:00
0 跟貼 0
地平線余凱：從智駕到座艙、芯片到軟件，我們要成為全覆蓋玩家

21世紀經濟報道 2026-04-12 09:24:07
0 跟貼 0
AI驅動產業新周期，多重邏輯共振迎投資機遇

每日經濟新聞 2026-03-18 11:38:14
0 跟貼 0
兩頭雄獅正在爭奪的權利，剛要研究硬件軟化技術，鬣狗卻來了

動物趣談1 2026-04-11 09:09:27
1 跟貼 1
以色列襲擊黎巴嫩被譴責，內塔尼亞胡：“以軍是世界上最有道德的軍隊”；此前以色列對黎巴嫩發動襲擊，造成包括兒童在內數百名平民死傷

揚子晚報 2026-04-11 11:33:21
72657 跟貼 72657
Arm CEO或兼掌軟銀前沿業務大權統籌AI+芯片+機器人戰場

財聯社 2026-04-12 06:23:43
1 跟貼 1
高手之間的對決，差距往往藏在細節，關鍵竟差在了硬件上

菠菜不算愛 2026-04-08 14:22:49
1 跟貼 1
粉絲：網上i9級的電腦能買嗎？我：CPU30，整機3000，你覺得呢？

老田電腦 2026-04-09 09:54:29
0 跟貼 0
性能真的不重要了嗎？Jeff Dean給出反常答案

新智元 2025-12-28 17:20:51
0 跟貼 0
Steam Deck 2難產？Valve工程師表示核心瓶頸正是芯片

愛游戲的萌博士 2026-04-11 16:42:17
2 跟貼 2
楊立昆發布史上最“輕”世界模型，單GPU可訓，規劃速度提升48倍

DeepTech深科技 2026-03-24 17:52:42
50 跟貼 50
男子在芯片上涂熒光滲線液，縱享絲滑，科技感滿滿

愛上熱點 2026-04-11 17:08:29
1 跟貼 1
女子相親結識上海男子不料成噩夢的開始崩潰到天天哭

新聞坊 2026-04-11 19:53:29
6974 跟貼 6974
地平線余凱：2025年研發投入約為50億，今年將繼續增加

新浪財經 2026-04-11 12:14:02
0 跟貼 0
恐慌性備貨疊加投機行為，存儲芯片漲價潮或持續

經濟觀察報 2026-04-12 11:17:06
0 跟貼 0
中國具身屠榜全球！10萬小時數據炸場，PI、英偉達集體破防

新智元 2026-04-12 10:02:42
0 跟貼 0
《生化危機：安魂曲》游戲D加密被破解，顯存占用減少1.5-2GB

IT之家 2026-04-11 22:05:10
5 跟貼 5
救護車違抗指令，深圳健安醫院“拉客”利益鏈條調查

和風聊歷史 2026-04-10 11:52:30
0 跟貼 0
中興把造車門檻想明白了：3種姿勢當"供應商"

碳基打工人 2026-04-12 10:05:19
0 跟貼 0
十項促進兩岸交流合作的政策措施發布

新華社 2026-04-12 10:04:38
275 跟貼 275

美國被氣死，中國高超導彈用水泥造：想了100種可能都沒試過水泥

美國被氣死，中國高超導彈用水泥造：想了100種可能都沒試過水泥

基斯默默

2026-04-10 22:52:21

還是服軟了，巴拿馬用舉國代價證明，中國惹不起，美國靠不住

還是服軟了，巴拿馬用舉國代價證明，中國惹不起，美國靠不住

動漫里的童話

2026-04-12 08:47:53

馬克龍賭輸了！簽涉臺聲明討好日本，反被中方精準拿捏，太丟人

馬克龍賭輸了！簽涉臺聲明討好日本，反被中方精準拿捏，太丟人

安安說

2026-04-11 11:47:45

為啥淘寶，拼多多幾塊錢的東西還能包郵？看完你就明白了！

為啥淘寶，拼多多幾塊錢的東西還能包郵？看完你就明白了！

呼呼歷史論

2026-04-10 21:17:24

西班牙人球員不滿：都看到了，這就是巴薩球員對同行的尊重

西班牙人球員不滿：都看到了，這就是巴薩球員對同行的尊重

天光破云來

2026-04-12 10:19:29

后來，我才明白，斷聯后不刪除、不拉黑、不聯系的人，不是在等對方回頭，而是在等自己放下

后來，我才明白，斷聯后不刪除、不拉黑、不聯系的人，不是在等對方回頭，而是在等自己放下

品讀時刻

2026-04-12 09:08:19

湖人裁掉巴夫金！被呼吁簽回昔日控衛，這可是湖人選中的榜眼秀

湖人裁掉巴夫金！被呼吁簽回昔日控衛，這可是湖人選中的榜眼秀

林子說事

2026-04-12 00:05:38

特朗普的一句“YES”，讓中國在中東無法再低調了！

特朗普的一句“YES”，讓中國在中東無法再低調了！

觸摸史跡

2026-04-12 10:27:57

"翻臉"是遲早的事？王濛怒甩李小冉當眾黑臉，內娛惡俗一幕被揭開

"翻臉"是遲早的事？王濛怒甩李小冉當眾黑臉，內娛惡俗一幕被揭開

離離言幾許

2026-04-11 15:21:33

1180一張！謝娜成都演唱會兩萬多人預約，粉絲賭張杰空降性價比高

1180一張！謝娜成都演唱會兩萬多人預約，粉絲賭張杰空降性價比高

天天熱點見聞

2026-04-12 10:33:50

數百名醫生強調：只要做過肺部CT，患者一定多加關注這5點！

數百名醫生強調：只要做過肺部CT，患者一定多加關注這5點！

醫學科普匯

2026-04-09 17:01:02

歐爾班沒想到，他從搬來的美國救兵，變成了壓垮他的最后一根稻草

歐爾班沒想到，他從搬來的美國救兵，變成了壓垮他的最后一根稻草

黑鷹觀軍事

2026-04-11 19:18:22

丹麥華裔王妃文雅麗回香港娘家，還帶上27歲大兒子，母子倆長得像

丹麥華裔王妃文雅麗回香港娘家，還帶上27歲大兒子，母子倆長得像

健身狂人

2026-04-01 17:56:50

鄭永年：不用糾結特朗普到底什么意思，中美客觀上已經是G2了

鄭永年：不用糾結特朗普到底什么意思，中美客觀上已經是G2了

上觀新聞

2026-04-11 14:49:04

004核航母落空？美媒：除關鍵術落后，多個原因讓中國不必要造它

004核航母落空？美媒：除關鍵術落后，多個原因讓中國不必要造它

溫讀史

2026-04-12 10:25:41

這四種病都不是病？而是年齡到了！過度治療反而傷身，坦然接受

這四種病都不是病？而是年齡到了！過度治療反而傷身，坦然接受

醫學科普匯

2026-04-10 20:15:11

阿斯：賽后巴薩球迷在諾坎普歡呼超5分鐘，鼓勵球隊逆轉馬競

阿斯：賽后巴薩球迷在諾坎普歡呼超5分鐘，鼓勵球隊逆轉馬競

懂球帝

2026-04-12 07:33:07

時隔半世紀人類再出發，美國繞月展示的技術差距，中國必須正視

時隔半世紀人類再出發，美國繞月展示的技術差距，中國必須正視

無人傾聽無人傾聽

2026-04-10 22:43:33

浙江金華一催收公司被查，100余人被帶走，催收員月傭金超11萬！

浙江金華一催收公司被查，100余人被帶走，催收員月傭金超11萬！

一口老湯

2026-04-12 09:10:03

兒子辦滿月酒親戚嫌遠都不來，我不生氣過年他們想來我關機回娘家

兒子辦滿月酒親戚嫌遠都不來，我不生氣過年他們想來我關機回娘家

荷蘭豆愛健康

2026-04-12 07:21:49

EETOP半導體社區

國內著名的電子工程師社區

7463文章數 15644關注度

往期回顧全部

科技要聞

理想稱遭惡意拉踩，東風日產：尊重同行

頭條要聞

美國副總統萬斯：美伊談判未能達成協議將返回美國

頭條要聞

美國副總統萬斯：美伊談判未能達成協議將返回美國

體育要聞

換帥之后，他們從降級區沖到升級區

娛樂要聞

鄭鈞回應兒子走路：會監督他挺直腰板

財經要聞

三輪磋商談至深夜美伊談判三大議題仍待解

汽車要聞

煥新極氪007/007GT上市限時19.39萬起

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

房產

時尚

公開課

軍事航空

本地新聞

12噸巧克力有難，全網化身超級偵探添亂

房產要聞

土地供應突然暴跌！2026海口樓市，格局大變！

春季穿衣別死氣沉沉，看看這27套日常穿搭，活力時尚又減齡

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
13個毀掉你生活的不良習慣
李彥宏：百度離破產30天

軍事要聞

伊朗議長帶四名遇難兒童照片赴美伊談判

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<strike id="foutz"></strike>

<cite id="foutz"></cite>

<sup id="foutz"><rt id="foutz"><form id="foutz"></form></rt></sup>

<sup id="foutz"><rt id="foutz"></rt></sup>