<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      上交大和輝羲把LLM刻進ROM!推理性能沖2萬token/s,GPU時代終結?

      0
      分享至


      新智元報道

      編輯:犀牛

      【新智元導讀】當硅谷Taalas將大模型「物理焊死」進芯片引爆全球半導體圈,來自上海交大、輝羲智能與微軟亞洲研究院的研究團隊早已走得更遠——他們用ROM+SRAM異構架構,將端側LLM推理速度推至20,000 tokens/s,端側算力直接起飛。

      近期,硅谷初創公司 Taalas 提出的「模型即芯片(Model-on-Chip)」方案引發了全球半導體業界對「硬核 AI」的深度反思。

      他們繞開了所有熱門概念,直接把AI大模型,物理焊死在硅片里!

      芯片運行Llama 3.1 8B的速度達到了17,000tokens/秒

      足足比業界最頂端的英偉達GPU提升了將近10倍!


      英偉達這邊也沒閑著,GTC 2026前夕,英偉達釋放明確信號:即將發布的Feynman架構將與Groq LPU技術實現深度融合。

      LPU架構通過預編排的固定指令流驅動模型,摒棄傳統HBM主存,轉而采用片上SRAM存儲權重,大幅突破了原有的訪問速度與帶寬瓶頸。

      這些都預示著,在Scaling Law驅動的大模型時代,傳統的通用指令集正成為鎖死算力的枷鎖。

      如何從物理層面徹底擊碎困擾大語言模型(LLM)部署的「內存墻」,已成為定義生成式 AI 下半場的關鍵。


      現有端側存儲方案不能同時滿足LLM推理的存儲容量和訪存帶寬需求

      事實上,針對 LLM 的訪存特性,來自上海交大、輝羲智能及微軟亞洲研究院的研究團隊早已展開了一場存儲層次結構的創新研究。

      通過ROMA與TOM系列研究,團隊展現了與 Taalas 不謀而合的架構洞察:通過對只讀存儲(ROM)的顛覆性應用與「算法-架構」深度協同,成功將LLM 的端側推理速度推向 20,000 tokens/s的水平,這一突破性成果在具身智能等前沿領域展現了巨大的應用潛力。


      ROMA:打破傳統存儲層次

      重塑端側能效

      在大模型端側部署的實戰中,傳統的內存層次結構正面臨前所未有的挑戰。

      研究團隊提出的 ROMA(Read-Only-Memory-based Accelerator) 架構,針對端側場景的特殊需求,給出了一套系統的解法。


      ROMA的計算架構,采用ROM+SRAM的方案

      1.引入只讀存儲(ROM):從源頭解決訪存能效

      研究團隊發現,大模型推理的能效瓶頸主要源于權重數據在外部內存(如 LPDDR)與計算單元之間的頻繁搬運。

      ROMA 另辟蹊徑,利用高集成密度、低功耗的只讀存儲(ROM)作為權重的存儲載體,將模型參數從源頭上固化在芯片內部,大幅度降低了訪存功耗。

      2.QLoRA 賦能靈活性:在「固化」中尋找演進空間

      完全硬連線的芯片往往難以應對算法的快速迭代。ROMA 巧妙地引入了 QLoRA 機制,通過ROM(基座模型)+ SRAM(LoRA 適配器)的混合設計,確保了芯片在擁有「硬核」性能的同時,依然保留了強大的應用靈活性。

      開發者只需下發極小規模的 LoRA 插件,即可讓固化的基座模型在不同垂直任務間快速切換。

      3.架構與物理設計協同:極致的物理實現

      為了實現真正的片上全模型存儲,團隊進行了深度的 架構與物理設計協同優化。

      通過獨創的 B-ROM 設計,將計算單元與存儲陣列進行緊耦合的物理布局,極大地縮短了信號傳輸路徑。

      這種協同設計讓 ROMA 在有限的芯片面積內,實現了對數億參數模型的高效容納與實時調度。

      最終,ROMA的規格和指標與Taalas非常接近:ROMA采用7nm工藝庫,芯片面積約 500 mm2,可以完整容納4bit LLaMA3.2-3B 或者 2bit LLaMA3-8B,推理性能達到20,000 tokens/s,而同樣采用ROM+SRAM的方案的Taalas是6nm工藝,面積約800mm2,可容下3-6bit llama3.1-8B,性能接近20,000 tokens/s。

      TOM:深度挖掘三值化大模型

      帶來的存儲紅利

      在 ROMA 的基礎上,最新的TOM(Ternary-Oriented Memory)架構進一步將優化的觸角延伸到了算法底層的存儲特征中,把ROMA擴展到BitNet/Ternary量化這個場景,利用低比特權重的0值稀疏性,繼續提升了ROM的存儲密度。


      低比特模型0值分布特征,帶來ROM存儲密度提升潛力

      1.捕捉 BitNet 的硬件友好性:開啟「以邏輯代存儲」范式

      研究團隊發現,以 BitNet-b1.58 為代表的三值化({-1, 0, 1})模型展現出了極佳的硬件友好性 。

      基于這一發現,TOM 摒棄了傳統的存儲陣列,通過邏輯合成技術直接利用標準邏輯門實現模型權重的固化存儲 。

      在這種新范式下,硬件能夠直接識別并物理消除權重中「0」元素的存儲電路 。這一極致收益的實現,得益于三值模型中零值參數本就占據絕大多數的天然稀疏特性,加上定制的編碼方法(使用「10」而非「11」來表示 -1),從而大幅拉高了 0-bit 的整體占比,從根本上降低了物理開銷 。

      2.存儲邏輯的深度合并與復用:極限壓縮芯片面積

      為了進一步推高面積效率,TOM 引入了精細的邏輯優化策略:通過識別并提取不同權重存儲邏輯中的公共子序列,對重復的邏輯門進行深度合并與復用。

      這種從物理層對存儲邏輯進行的「極限去重」,使得 TOM 相比 ROMA 實現了片上存儲密度的數倍提升與芯片面積的大幅削減。

      這也再次印證了算法-硬件聯合設計在突破 AI 算力邊界時的核心重要性。

      具身智能與極端場景

      ROM 架構的「降維打擊」

      「模型即芯片」方案的興起,精準捕捉到了當前端側應用的兩大痛點:

      1.具身智能的「實時確定性」

      在機器人、無人設備等具身智能場景中,毫秒級的響應延遲往往決定了系統的物理安全性。

      ROMA 提供的 20,000+ tokens/s 吞吐量,是為了提供一種高確定性的實時反饋。

      這讓機器人能夠像擁有脊髓反射一樣,在感知到復雜的物理環境變化時,瞬時做出語義理解與避障決策。

      2.極端環境下的生存優勢:深海與火星

      在深海探測器、火星漫游車等極端場景下,DRAM 等易失性存儲器不僅能耗高,且容易受到高能射線干擾產生軟錯誤。

      ROM 架構具有天然的穩定性和抗輻射性。

      在能源匱乏、通信隔絕的極端環境下,搭載 ROMA/TOM 架構的設備依然能獨立、穩定地完成復雜的智能任務,且待機功耗極低。

      這使得大模型能夠真正走出實驗室,進入人類探索的「無人區」。

      3.智能終端的隱私「防火墻」

      對于手機端本地文本處理等場景,用戶對模型基座的頻繁更新需求并不高,但對隱私極其敏感。

      將成熟、穩定的模型能力固化在本地隔離電路中,不僅免去了頻繁聯網的能耗,更在物理層面上杜絕了數據外泄的風險。

      結語

      開啟端側內存層次結構的新紀元

      從 Taalas 的破圈到研究團隊ROMA與TOM系列工作的深度探索,我們正見證 AI 硬件架構的一個重要轉向。

      這種引入ROM+SRAM異構存儲層次結構的創新,結合對三值邏輯存儲特性的極致挖掘,為端側大模型部署提供了一條全新的進路。

      ROMA與TOM系列研究的誕生,植根于“模型即芯片”的設計思維。

      團隊的這種強調算法與硬件深度耦合的思維來源,最早可追溯至微軟亞洲研究院(MSRA)時期。

      核心作者中,王文強與曹士杰曾先后作為MSRA實習生在徐寧儀老師指導下開展研究,積淀了深厚的工業界系統經驗;張毅佳在上海交大攻讀博士期間師從徐老師,并先后在 MSRA 系統組與輝羲智能實習。

      研究團隊長期從事算法-芯片聯合設計的研究,在AI芯片架構設計、大模型輕量化等方面有豐富經驗。

      這種由資深架構師、企業研究員與學術新生代構成的多重紐帶,讓團隊得以將前沿的實戰思維與學術界的理論創新高效結合,在大模型范式下實現了從通用計算向 LLM 原生架構的協同突破。

      團隊介紹

      關于上交大團隊:團隊來自上海交通大學計算機學院定制計算中心(Customized Computing Center - CCC,ccc.sjtu.edu.cn),CCC聚焦于解決數據中心、邊緣設備和傳感器的所面臨的各種計算挑戰。

      關于輝羲智能:輝羲智能致力于成為全球領先的具身智能AI計算平臺供應商,以卓越算力促進人工智能發展。成立三年,公司已實現大算力端側旗艦芯片R1的成功流片與量產交付,率先在具身智能領域走通“芯片-平臺-產品”的全棧自主國產化路徑。

      參考資料:

      ROMA:https://arxiv.org/pdf/2503.12988

      TOM:https://arxiv.org/abs/2602.20662

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      醫生忠告:肺癌早期不是咳嗽,而是頻繁出現這3癥狀,千萬別忽視

      醫生忠告:肺癌早期不是咳嗽,而是頻繁出現這3癥狀,千萬別忽視

      蜉蝣說
      2026-03-02 09:07:43
      微信出現這條橫,你已經不是對方好友了

      微信出現這條橫,你已經不是對方好友了

      小影的娛樂
      2026-02-15 08:25:08
      被震撼到了!哈梅內伊一死普京馬上下令,俄羅斯全體高層緊急到場

      被震撼到了!哈梅內伊一死普京馬上下令,俄羅斯全體高層緊急到場

      滄海旅行家
      2026-03-02 14:33:13
      4位名人被困中東!轟炸聲中徹夜未眠,航班全取消,只能焦慮等待

      4位名人被困中東!轟炸聲中徹夜未眠,航班全取消,只能焦慮等待

      娛說瑜悅
      2026-03-02 14:18:06
      年近九旬學閥不退不休,是熱愛科研,還是放不下權力?

      年近九旬學閥不退不休,是熱愛科研,還是放不下權力?

      文憶天下
      2026-02-28 15:07:08
      真相大白!王曼昱丟冠原因曝光,是打不過莎莎嗎?張繼科早有預言

      真相大白!王曼昱丟冠原因曝光,是打不過莎莎嗎?張繼科早有預言

      曹說體育
      2026-03-01 22:16:15
      精神小妹的生活原來是這樣的!網友:終于知道她們為啥都這么瘦了

      精神小妹的生活原來是這樣的!網友:終于知道她們為啥都這么瘦了

      深度報
      2026-02-11 23:35:03
      最美司理理,慶余年第一美人,居然這么高,皮膚好白啊

      最美司理理,慶余年第一美人,居然這么高,皮膚好白啊

      草莓解說體育
      2026-03-02 01:02:37
      和訊投顧李永熙:3萬億成交,周二急需修復!

      和訊投顧李永熙:3萬億成交,周二急需修復!

      和訊網
      2026-03-02 15:59:04
      洛陽鉬業:公司在剛果(金)的業務主要產品為陰極銅和氫氧化鈷

      洛陽鉬業:公司在剛果(金)的業務主要產品為陰極銅和氫氧化鈷

      每日經濟新聞
      2026-03-02 16:28:05
      2026款冠道、奧德賽一口價發布,這價格能救命嗎?

      2026款冠道、奧德賽一口價發布,這價格能救命嗎?

      大李說車
      2026-03-02 15:26:29
      核戰爭一旦爆發,中國這5個地方可以躲避危險,老百姓一定要了解

      核戰爭一旦爆發,中國這5個地方可以躲避危險,老百姓一定要了解

      安珈使者啊
      2026-02-10 22:08:19
      馬忠名聲不顯,卻斬殺了三國近乎一半的名將,五虎將兩人死于其手

      馬忠名聲不顯,卻斬殺了三國近乎一半的名將,五虎將兩人死于其手

      銘記歷史呀
      2026-02-09 21:57:29
      2015年吉林35歲女子急病驟亡,12歲兒子說:奶奶死時也是這癥狀

      2015年吉林35歲女子急病驟亡,12歲兒子說:奶奶死時也是這癥狀

      談史論天地
      2026-02-19 18:01:11
      伊朗遇襲女子小學已有165死、96傷 課本和書包上沾滿了學生的血

      伊朗遇襲女子小學已有165死、96傷 課本和書包上沾滿了學生的血

      閃電新聞
      2026-03-02 13:53:00
      太陽報:魯尼上周六與兩名神秘女子喝酒狂歡至凌晨

      太陽報:魯尼上周六與兩名神秘女子喝酒狂歡至凌晨

      懂球帝
      2026-03-02 09:16:30
      誰能想到她已經62了,說18都有人信,怎么做到這么好的狀態的

      誰能想到她已經62了,說18都有人信,怎么做到這么好的狀態的

      白宸侃片
      2026-02-11 11:56:19
      美以對伊朗動武后歐洲各國反應不一,跨大西洋關系又顯裂痕

      美以對伊朗動武后歐洲各國反應不一,跨大西洋關系又顯裂痕

      澎湃新聞
      2026-03-02 12:06:26
      伊朗下這步棋,打算拉全世界一起陪葬?

      伊朗下這步棋,打算拉全世界一起陪葬?

      販財局
      2026-03-01 21:52:02
      普京下令!撤離!撤離!伊爾-76運輸機直奔中東

      普京下令!撤離!撤離!伊爾-76運輸機直奔中東

      看看新聞Knews
      2026-03-02 15:15:03
      2026-03-02 19:16:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14623文章數 66647關注度
      往期回顧 全部

      科技要聞

      榮耀發布機器人手機、折疊屏、人形機器人

      頭條要聞

      伊朗曾組建反間諜機構 結果最后發現負責人就是以間諜

      頭條要聞

      伊朗曾組建反間諜機構 結果最后發現負責人就是以間諜

      體育要聞

      “想要我簽名嗎” 梅西逆轉后嘲諷對手主帥

      娛樂要聞

      美伊以沖突爆發,多位明星被困中東

      財經要聞

      金銀大漲 市場仍在評估沖突會否長期化

      汽車要聞

      國民SUV再添一員 瑞虎7L靜態體驗

      態度原創

      親子
      游戲
      本地
      旅游
      公開課

      親子要聞

      阿寶和藏區老二居然就差一天的生日時間,今天我們給他們過生日哦

      騰訊又要養蠱?《雪中悍刀行》IP新游過審!盤點2026年2月版號

      本地新聞

      津南好·四時總相宜

      旅游要聞

      門票半價 財神送湯圓!雞公山、白云山給全國游客送福利啦!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版