<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型解剖圖火了,30多個開源模型架構差異一目了然,還可接入AI

      0
      分享至

      2026 年的前兩個月,開源大模型的發布節奏已快至令人應接不暇。Arcee AI 的 Trinity Large、月之暗面的 Kimi K2.5、阿里的 Qwen3.5、智譜 AI 的 GLM-5、Cohere 的 Tiny Aya……它們的名稱如流水般接踵而至,參數量從 3B 至 1T 不等,每一款都宣稱是“SOTA”或者“最強開源”。

      然而,如此快的更新速度,對于普通開發者而言,莫說深入研究,僅僅是分辨區別就已經耗費大量精力。更不用提許多技術報告的表述含糊,架構圖繪制風格各異,想要進行橫向對比十分困難。

      為了解決這些問題,一個名為“LLM Architecture Gallery”(大語言模型架構畫廊)的項目上線了。顧名思義,就是讓你像逛“畫廊”一樣,瀏覽不同模型的架構圖。


      (來源:X)

      這個項目的作者是 Sebastian Raschka,是機器學習領域的知名研究者,寫過《Python Machine Learning》和《Build a Large Language Model (From Scratch)》這兩本深受歡迎的專業書籍。


      (來源:Sebastian Raschka.com)

      他把過去幾個月撰寫的兩篇長文《The Big LLM Architecture Comparison》和《A Dream of Spring for Open-Weight LLMs》中繪制的所有架構圖抽取出來,用統一的視覺語言重新呈現,集中放在一個頁面上。點擊任意一張圖可以放大,每張圖下方附帶一份“規格表”,列出模型的參數量、發布時間、注意力機制類型等關鍵信息。想深入某個模型,可以點開“view in article”頁面會直接跳轉到原文對應章節。


      (來源:LLM Architecture Gallery)

      項目上線幾小時后,Andrej Karpathy 在 X 上回復了 Raschka 的推文:“太好了!我的自動研究功能很需要這個內容的 Markdown 版本——一個創意池。”他最近發布的 autoresearch 項目:一個讓 AI 自主跑實驗的開源工具,正需要這類結構化的架構信息作為創意來源。

      Raschka 也很快作出回復,并提供了 YAML 格式的元數據 GitHub 鏈接。Karpathy 隨后表示他已經用 Obsidian 把博客文章導出成 markdown,并且“輸入到了 autoresearch 循環中”。一個本意是方便人類閱讀的架構圖集,就這樣被接入了 AI 自動化研究的工作流。


      (來源;X)

      就在今天,這個項目也沖上了 Hacker News 首頁。一位用戶評論說:“這讓我想起了當年的 Neural Network Zoo,也是用可視化的方式展示不同架構。”也有人繼續幫忙優化細節:“能不能按時間排序,畫出架構演化的家譜樹?能不能加一個比例視圖,讓參數量的差異在視覺上直觀可感?”對于這些建議,Sebastian 表示他后續會持續完善。

      回到項目本身,目前,這份圖集收錄了三十多個模型架構,從 Llama 38B 到最新的 Qwen3.5、Sarvam 105B、Ling 2.5 1T。所有圖都按同一套視覺規范繪制:配色、圖例、字體統一,DeepSeek V3 和 Qwen3 235B-A22B 被放在一起時,你一眼就能看出前者用了 MLA(Multi-Head Latent Attention,多頭潛在注意力),后者用的是 GQA(Grouped-Query Attention,分組查詢注意力);DeepSeek V3 有一個“共享專家”模塊,Qwen3 沒有。

      這類信息原本散落在幾十頁技術報告的不同角落,現在被壓縮成一張對比圖。

      MoE(Mixture-of-Experts,混合專家模型)是 2025 年開源 LLM 的主旋律。所有主流的前沿開放權重模型都采用了這種架構。傳統的“稠密”Transformer 會在每次生成 token 時激活全部參數,參數越多,算力成本越高。而 MoE 把參數分成若干“專家”,每次只激活其中一部分。DeepSeek V3 名義上有 6,710 億參數,但實際運行時只激活 370 億;Llama 4 Maverick 號稱 4,000 億參數,激活的只有 170 億。

      Raschka 在圖集中把各模型的專家數量、激活比例、專家隱藏層尺寸都標注出來,讓稀疏程度一目了然。Hacker News 上有人感慨:“我很驚訝這些模型在結構上有多相似,主要差異就是層的大小。”

      另一位用戶則看出了一些端倪,辣評“過去七年,LLM 架構有很多改進,但沒有根本性的創新。今天最好的開放權重模型,如果你縮遠了看,仍然很像 GPT-2,就是一堆注意力層和前饋層堆起來。”

      這可以說是一個重要的觀察。LLM 能力的驚人提升,更多來自訓練方法的革新。比如 RLVR(Reinforcement Learning with Verifiable Rewards,可驗證獎勵的強化學習),而不是架構本身的突破。架構層面的優化,更多是為了讓訓練和推理更高效、成本更低,而不是讓模型根本上更聰明。理解這一點,對選型和預期管理都有幫助。

      最后總結一下,這個大模型架構的圖集的實際用法很簡單。

      首先,你可以把它當作速查手冊:想知道 Qwen3 和 DeepSeek V3 在注意力機制上有什么區別?打開頁面,找到兩張圖,直接對比。規格表里會告訴你 Qwen3 用 GQA,DeepSeek V3 用 MLA;前者沒有共享專家,后者有。

      其次,每張架構圖都鏈接到 Raschka 原文中的對應章節,如果你想深入了解某個技術細節:比如 QK-Norm(一種應用于查詢和鍵向量的歸一化技術)是什么、為什么能穩定訓練,點進去就能讀到解釋。

      第三,圖集附帶一份“概念速查”,解釋 GQA、MLA、SWA(Sliding Window Attention,滑動窗口注意力)、NoPE(No Positional Encoding,無位置編碼)、Gated DeltaNet 等術語,適合快速補課。

      并且,正如 Karpathy 的用法所示,這份圖集的價值不僅在于人類可讀,還在于它的結構化程度足以被機器解析。Raschka 在 GitHub 上提供了 YAML 格式的元數據,包含每個模型的參數量、發布日期、技術報告鏈接、注意力類型等字段。如果你想寫腳本批量分析這些模型的共性和差異,或者像 Karpathy 那樣把它們喂給 AI 做自動化研究,這份元數據是現成的起點。

      Raschka 還把整套架構圖打包成一個超高分辨率的 PNG 文件(56M,182 百萬像素,上傳到 Zazzle,可以直接下單打印成實體海報。他自己也訂了一張,但“還沒收到貨,暫時不能保證印刷質量”。頁面底部留了一個 Issue Tracker 鏈接,歡迎任何人提交糾錯或建議。

      對于正在選型的工程師來說,這份圖集的價值在于節省時間。你不用再翻幾十頁技術報告去找一個數字,也不用自己畫對比表格。對于想搞懂“這些模型到底在結構上有什么區別”的研究者來說,統一的視覺語言讓跨模型對比成為可能。

      1.項目地址:https://sebastianraschka.com/llm-architecture-gallery/#card-qwen3-5-397b

      2.開發者主頁:https://x.com/rasbt/status/2033167146302210058

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      張凌赫在高鐵站崩潰了!?

      張凌赫在高鐵站崩潰了!?

      八卦瘋叔
      2026-04-07 10:38:21
      美媒:美軍在伊朗營救飛行員時損失慘重

      美媒:美軍在伊朗營救飛行員時損失慘重

      俄羅斯衛星通訊社
      2026-04-07 15:19:26
      女生長的太漂亮是什么體驗?網友:母以子貴,父以女榮

      女生長的太漂亮是什么體驗?網友:母以子貴,父以女榮

      另子維愛讀史
      2026-03-10 22:56:08
      浙大名嘴揭開殘酷真相:當年恒大倒臺,壓根不是因為2萬億負債!

      浙大名嘴揭開殘酷真相:當年恒大倒臺,壓根不是因為2萬億負債!

      阿器談史
      2026-04-02 13:31:44
      神圖 | 這也太不吉利了吧!!!

      神圖 | 這也太不吉利了吧!!!

      科技狐
      2026-04-06 22:32:54
      李提香給大羽爭氣 遼寧鐵人腰硬了 劍指3連勝 不跟鄭智玩人情世故

      李提香給大羽爭氣 遼寧鐵人腰硬了 劍指3連勝 不跟鄭智玩人情世故

      替補席看球
      2026-04-07 13:50:35
      伊朗玩命了!以色列,更大噩夢來了!

      伊朗玩命了!以色列,更大噩夢來了!

      大嘴說天下
      2026-04-06 21:06:05
      心源性猝死的人越來越多?醫生強調:寧可打打牌,建議別做這7事

      心源性猝死的人越來越多?醫生強調:寧可打打牌,建議別做這7事

      醫學原創故事會
      2026-03-29 23:50:13
      男人的生理需求能有多難忍?網友:我對我老公只有動物本能

      男人的生理需求能有多難忍?網友:我對我老公只有動物本能

      帶你感受人間冷暖
      2026-02-07 03:58:56
      黃一鳴被限高,銀行卡全凍結,靠女兒也救不了,每月苦還十幾萬

      黃一鳴被限高,銀行卡全凍結,靠女兒也救不了,每月苦還十幾萬

      一盅情懷
      2026-04-06 15:41:29
      張雪機車創始人自曝:國產率未達100%,因2個日本零件卡脖子!

      張雪機車創始人自曝:國產率未達100%,因2個日本零件卡脖子!

      談史論天地
      2026-04-07 09:49:47
      小米汽車賣不動了

      小米汽車賣不動了

      新浪財經
      2026-04-05 18:47:28
      古蒂:當球員時你會想買豪車名表,但那只是奢侈品而非必需品

      古蒂:當球員時你會想買豪車名表,但那只是奢侈品而非必需品

      懂球帝
      2026-04-07 17:43:05
      特朗普威脅伊朗,中方表態

      特朗普威脅伊朗,中方表態

      澎湃新聞
      2026-04-07 17:04:04
      美媒:伊朗已經與美國達成停火方案,隨后便會簽署最終協議

      美媒:伊朗已經與美國達成停火方案,隨后便會簽署最終協議

      讓生活充滿溫暖
      2026-04-06 19:09:49
      張雪峰前女友謎之操作,買下同小區房子稱要替他守家,好友發聲了

      張雪峰前女友謎之操作,買下同小區房子稱要替他守家,好友發聲了

      萌神木木
      2026-04-07 11:57:34
      詐尸了!哈梅內伊死而復生?特朗普大秀軍功,伊朗做出了一個舉動

      詐尸了!哈梅內伊死而復生?特朗普大秀軍功,伊朗做出了一個舉動

      阿笎評論哥
      2026-04-07 16:48:55
      “余生好好走”,知名央視主持人王小丫,病床上的留言字字催淚

      “余生好好走”,知名央視主持人王小丫,病床上的留言字字催淚

      近史談
      2026-03-31 18:57:49
      上海交大發現:不吃醬油和味精的人,血壓馬上就降低了?真的嗎?

      上海交大發現:不吃醬油和味精的人,血壓馬上就降低了?真的嗎?

      健康科普365
      2026-04-07 09:16:10
      幾十個家庭壟斷一座城:縣城婆羅門的閉環游戲,正在逼走年輕人

      幾十個家庭壟斷一座城:縣城婆羅門的閉環游戲,正在逼走年輕人

      黑噪音
      2026-03-21 19:33:08
      2026-04-07 20:08:49
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16549文章數 514851關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      英媒:伊朗最高領袖病重昏迷 無法參與任何國家決策

      頭條要聞

      英媒:伊朗最高領袖病重昏迷 無法參與任何國家決策

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      房產
      旅游
      數碼
      手機
      公開課

      房產要聞

      猛料!又有世界500強級巨頭,低調買入海棠灣!

      旅游要聞

      春日登高正當時 濟南天橋這些登山好去處別錯過

      數碼要聞

      榮耀多款新品PC定檔,方飛透露WIN游戲本將成為三角洲聯賽指定本

      手機要聞

      華為暢享90 Pro Max升級鴻蒙6.0.0.138 SP23,新增HiCar互聯

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版