<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      德國團隊基于DeepSeek打造R1T2模型,速度比R1-0528快200%

      0
      分享至

      DeepSeek-R2 姍姍來遲,業內人士似乎等不及了?這不,德國 TNG Technology Consulting GmbH 公司(下稱 TNG)基于 DeepSeek R1-0528 新版本,推出了一款速度提升 200% 的 DeepSeek-TNG R1T2 Chimera 模型(下稱 R1T2)。R1T2 是一款擁有 6710 億參數的開源混合模型,也是 TNG 團隊 Chimera 大模型系列中的最新型號。DeepSeek-R1-0528 因其擴展的思維鏈推理而傾向于給出長篇大論的詳細回答,而本次 R1T2 的設計更加簡潔,它在使用明顯更少的詞匯的同時,也能給出同樣智能的回答。另外,R1T2 再次使用了由 TNG 團隊提出的集合專家(AoE,Assembly-of-Experts)方法。


      (來源:arXiv)

      值得注意的是,TNG 的聯合創始人亨利克·克萊格斯(Henrik Klagges)是相關論文的第一作者,領英頁面顯示他聯合創辦 TNG 已有 24 年之久。


      圖 | 相關論文(來源:arXiv)

      1994 年,克萊格斯從英國牛津大學畢業后,于 2001 年創辦了 TNG。目前,該公司擁有 917 名員工,99.9% 的員工為學術人員,并且超過 50% 的員工擁有數學、物理和計算機科學的博士學位。也就是說,作為一個基于 DeepSeek 做變體模型的團隊,TNG 并不是一個無名小卒。


      (來源:領英)

      此前,在相關實驗結果以及混合專家(MoE,Mixture of Experts)模塊化結構的啟發之下,TNG 團隊將 DeepSeek-V3-0324 和 DeepSeek-R1 的路由專家張量進行合并,由此打造了 DeepSeek-R1T-Chimera 模型(下稱 R1T)。而本次推出的 R1T2 在保留 DeepSeek-R1 推理性能的同時,在效率和速度方面實現了顯著提升。在不損失或幾乎不損失智能的情況下顯著降低了冗余度,這意味著它能產生更短的響應,從而能夠直接轉化為更快的推理速度和更低的計算成本。

      作為 R1T 的后續版本,R1T2 還引入了一種新的“Tri-Mind”配置,該配置集成了三個父模型:DeepSeek-R1-0528、DeepSeek-R1 和 DeepSeek-V3-0324。

      據介紹,R1T2 是在沒有進一步微調或重新訓練的情況下構建的,它繼承了 DeepSeek-R1-0528 的推理能力、DeepSeek-R1 的結構化思維模式以及 DeepSeek-V3-0324 的簡潔指令導向的行為特性,因此是一個更高效、更強大的模型。

      AI 開發者社區對此反應也比較積極,Hugging Face 的高級領導 Vaibhav(VB)Srivastav 在 X 上寫道:“太棒了!DeepSeek R1T2——比 R1-0528 快 200%,比 R1 快 20%。在 GPQA 和 AIME 24 數據集上的表現明顯優于 R1,并采用 DS V3、R1 和 R1-0528 組合打造了集合專家架構,而且它使用 MIT 許可協議,目前已在 Hugging Face 上開放。”


      (來源:X)

      TNG 團隊提供的基準比較結果顯示,在 AIME-24、AIME-25 和 GPQA-Diamond 測試集的評估下,R1T2 的推理性能達到了其最智能父模型 DeepSeek-R1-0528 的 90% 至 92%。

      與此同時,TNG 團隊并不側重于原始處理時間或每秒處理的 token 數量,而是以每個答案的輸出 token 數量來衡量“速度”,他們將這視為一種能夠同時反映成本和延遲的實用指標。R1T2 生成響應所需的 token 量大約為 DeepSeek-R1-0528 的 40%,這意味著輸出長度減少了 60%,從而能夠直接減少推理時間和計算負載,進而能使響應速度提高 200%。與原始的 DeepSeek-R1 相比,R1T2 的平均簡潔度也提高了約 20%,這為高通量或成本敏感的部署帶來了顯著的效率提升。并且,這種高效性并未以犧牲智能為代價。正如 TNG 團隊的基準圖表所展示的,R1T2 在“智能 vs. 輸出成本”曲線上處于一個理想區域。它在保持推理質量的同時能夠大幅減少冗余輸出,這一特性對于那些對推理速度、吞吐率和成本都有嚴格要求的企業級應用至關重要。


      (來源:arXiv)



      集合專家與混合專家有何不同?

      如前所述,TNG 團隊曾提出了集合專家(AoE,Assembly-of-Experts)方法,這是一種通過有選擇地合并多個預訓練模型的權重張量(內部參數)來構建大模型的技術。

      很多人對于混合專家(MoE,Mixture-of-Experts)并不陌生,MoE 是一種架構設計,其中不同的組件或“專家”會根據輸入有條件地被激活。對于典型的 MoE 大模型比如 DeepSeek-V3 和 Mixtral來說,在任何給定 token 的前向傳遞過程中,只有模型專家層的一個子集處于活動狀態(例如,256 個中的 8 個)。這使得超大規模模型在實現更高參數量和更強專業化的同時,仍能保持可控的推理成本,因為每個 token 只需激活網絡中的一小部分子模塊。

      在預訓練期間,大模型計算一個 8 位權重需要 10^13 至 10^15 次浮點運算(FLOPs,Floating-Point Operations),不僅成本極高而且效率低下。正是為了更好地利用對預訓練模型的大量投資,TNG 團隊開發了 AoE。AoE 是一種模型融合技術,而非一種架構。它通過有選擇地插值多個預訓練的 MoE 模型的權重張量,以用于從這些模型中創建一個新模型。

      該方法能夠在線性時間內創建現有 MoE 父模型的高效子模型變體。模型權重張量會被單獨進行插值處理,從而能夠增強或抑制父模型的語義特征。通過改變從父模型中提取的權重比例,TNG 團隊觀察到 AoE 子模型的一些特性會逐漸變化,而其他行為特征則會發生急劇轉變。

      另據悉,AoE 中的“專家”指的是正在合并的模型組件,通常是 MoE 層中路由的專家張量,而非在運行時動態激活的專家。TNG 團隊對于 AoE 的實現主要側重于合并路由專家張量,這是模型中負責專門推理的部分,同時通常會保留來自 DeepSeek-V3-0324 等更快模型中更高效的共享層和注意力層。這種方法使得 TNG 團隊生成的 R1T 和 R1T2 這一系列 Chimera 模型能夠繼承推理能力,同時避免了最強父模型的冗長性或延遲問題。


      (來源:arXiv)



      歐洲企業或面臨使用受限

      對于 CTO、AI 平臺所有者、工程主管和 IT 采購團隊而言,R1T2 帶來了切實的益處和戰略選擇:

      其一,推理成本更低:由于每項任務的輸出 token 更少,R1T2 減少了 GPU 時間和能耗,直接節省了基礎設施成本,這在高吞吐量或實時環境中尤為重要。

      其二,高推理質量無冗余:R1T2 保留了 DeepSeek-R1-0528 等頂級模型的大部分推理能力,但沒有它們冗長的缺點。這非常適合數學、編程、邏輯等結構化任務,在這些任務中,簡潔的答案更受歡迎。

      其三,開源且可修改:MIT 許可證允許完全的部署控制和定制,支持在受監管環境或隔離環境中進行私有托管、模型對齊或進一步訓練。

      其四,新興的模塊化:AoE 方法預示著一個模型將以模塊化方式構建的未來。在這種未來場景中,企業無需從頭開始重新訓練,而是可以通過重組現有模型的優勢來組裝出專門的變體。

      需要注意的是,R1T2 依賴函數調用、工具使用或高級代理編排的企業應注意當前的局限性,盡管未來的 Chimera 更新可能會彌補這些不足。

      目前,TNG 團隊已通過 OpenRouter 和 Chutes 等平臺提供了早期的 Chimera 變體,這些平臺每天處理數十億個 token。而 R1T2 的發布標志著這一公開可用性工作的進一步發展。

      TNG 團隊指出,盡管該模型非常適合通用推理任務,但由于繼承自 DeepSeek-R1 系列的限制,目前不建議將其用于需要函數調用或工具使用的場景。

      作為一家歐洲公司,TNG 團隊還建議歐洲用戶評估其是否符合將于 2025 年 8 月 2 日生效的《歐盟 AI 法案》的規定。在歐盟運營的企業應審查相關規定,若無法滿足要求,則應考慮在該日期后停止使用該模型。

      然而,在美國國內運營并為美國用戶或其他國家用戶提供服務的美國公司,不受《歐盟 AI 法案》條款的約束,這將使其在使用和部署這一免費、快速的開源推理模型時擁有相當大的靈活性。但是,如果他們為歐盟用戶提供服務,則《歐盟 AI 法案》中的一些條款仍然適用。

      總的來說,之前是國內開發者基于國外模型做變體研究,現在逐漸開始反過來,這也映照了中國科技從跟跑到并肩跑,再到逐漸能起到一定引領作用的大趨勢。

      參考資料:

      相關論文:https://arxiv.org/pdf/2506.14794

      Hugging Face:https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera

      https://x.com/reach_vb/status/1940536684061643239

      https://www.linkedin.com/in/vaibhavs10/

      運營/排版:何晨龍

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      香港宣布取消維港跨年煙花表演

      香港宣布取消維港跨年煙花表演

      極目新聞
      2025-12-17 22:58:02
      張雨綺換臉成功!說不出來哪里變了,好像又都變了

      張雨綺換臉成功!說不出來哪里變了,好像又都變了

      爆角追蹤
      2025-12-18 16:05:56
      南京博物院盜賣文物,捐贈后人追查十年遭打碼“證據”糊弄,失蹤五件國寶還有多少黑幕

      南京博物院盜賣文物,捐贈后人追查十年遭打碼“證據”糊弄,失蹤五件國寶還有多少黑幕

      爆角追蹤
      2025-12-18 15:36:33
      笑噴!河南女生被南方室友催洗澡“發飆”:最近半年澡量超我十年

      笑噴!河南女生被南方室友催洗澡“發飆”:最近半年澡量超我十年

      行者聊官
      2025-12-18 10:06:02
      轟炸機抵近東京,美國拒表態,日本承認波茨坦公告,求中國一件事

      轟炸機抵近東京,美國拒表態,日本承認波茨坦公告,求中國一件事

      梁訊
      2025-12-18 10:38:01
      太突然!菲律賓20艘漁船“鐵索連環”闖黃巖島,馬科斯這招真的狠

      太突然!菲律賓20艘漁船“鐵索連環”闖黃巖島,馬科斯這招真的狠

      潮鹿逐夢
      2025-12-18 11:08:23
      索尼將退出中國,3萬員工一夜失業,一代人的青春落幕

      索尼將退出中國,3萬員工一夜失業,一代人的青春落幕

      胡嚴亂語
      2025-12-18 14:25:25
      太突然!官網已變黑白!

      太突然!官網已變黑白!

      瑯琊新聞網
      2025-12-18 12:12:16
      吳艷妮發布9宮格寫真引網友嘲諷,本人回懟

      吳艷妮發布9宮格寫真引網友嘲諷,本人回懟

      大象新聞
      2025-12-18 13:49:04
      韓國特工與泰軍合作,潛入電詐園抓獲殺害韓國女人質的中國籍綁匪

      韓國特工與泰軍合作,潛入電詐園抓獲殺害韓國女人質的中國籍綁匪

      環球熱點快評
      2025-12-18 11:43:15
      姆巴佩獨造3球,年度65球比肩三大傳奇,皇馬3-2險勝魚腩晉級16強

      姆巴佩獨造3球,年度65球比肩三大傳奇,皇馬3-2險勝魚腩晉級16強

      釘釘陌上花開
      2025-12-18 05:57:26
      一個巨大的半導體泡沫!寒武紀,摩爾線程,沐曦營收70億,市值1.2萬億

      一個巨大的半導體泡沫!寒武紀,摩爾線程,沐曦營收70億,市值1.2萬億

      爆角追蹤
      2025-12-17 19:24:09
      4次撲點 6冠加身!俄羅斯門將封神之作:巴黎全隊致敬英雄

      4次撲點 6冠加身!俄羅斯門將封神之作:巴黎全隊致敬英雄

      葉青足球世界
      2025-12-18 08:41:33
      杭州剛提新車就撞人后續:疑似被撞銷售不幸身亡,涉事司機麻煩了

      杭州剛提新車就撞人后續:疑似被撞銷售不幸身亡,涉事司機麻煩了

      漢史趣聞
      2025-12-18 11:38:12
      柬埔寨GDP的40%—60%來源電詐 幕后以華人資本集團為主

      柬埔寨GDP的40%—60%來源電詐 幕后以華人資本集團為主

      原某報記者
      2025-12-18 10:17:38
      稅務局回應大廳凳子被指形似刑具:大家反饋坐著很舒服,專門定做的,采購經過正規審批,價格比市場便宜

      稅務局回應大廳凳子被指形似刑具:大家反饋坐著很舒服,專門定做的,采購經過正規審批,價格比市場便宜

      觀威海
      2025-12-18 10:18:04
      21個市級政府,被約談

      21個市級政府,被約談

      新京報政事兒
      2025-12-18 14:59:53
      信也科技攜手頂尖學者深度對話,共探AI新范式

      信也科技攜手頂尖學者深度對話,共探AI新范式

      虎嗅APP
      2025-12-18 16:32:07
      血淋淋的里程碑——哈馬斯用10月7日的大屠殺慶祝成立38周年

      血淋淋的里程碑——哈馬斯用10月7日的大屠殺慶祝成立38周年

      老王說正義
      2025-12-16 00:08:17
      俄軍騎兵重現戰場,烏軍單日殲敵1730人

      俄軍騎兵重現戰場,烏軍單日殲敵1730人

      史政先鋒
      2025-12-17 21:01:32
      2025-12-18 18:43:00
      DeepTech深科技 incentive-icons
      DeepTech深科技
      麻省理工科技評論獨家合作
      16011文章數 514408關注度
      往期回顧 全部

      科技要聞

      2025新一代人工智能創業大賽

      頭條要聞

      南京博物院稱受贈5幅畫被鑒定為"假" 捐贈者后人回應

      頭條要聞

      南京博物院稱受贈5幅畫被鑒定為"假" 捐贈者后人回應

      體育要聞

      巴黎首奪世界級冠軍 加冕6冠王比肩巴薩拜仁

      娛樂要聞

      絲芭放大招了!實名舉報鞠婧祎經濟犯罪

      財經要聞

      尹艷林:呼吁加快2.5億新市民落戶進程

      汽車要聞

      在零下30℃的考場里 凡爾賽C5 X和508L拿到了"穩"的證明

      態度原創

      藝術
      本地
      親子
      游戲
      公開課

      藝術要聞

      卡洛斯·杜蘭:不只是薩金特的老師!

      本地新聞

      云游安徽|決戰烽火照古今,千秋一脈看宿州

      親子要聞

      聚焦教聯體+協同共育!這場培訓為學前教育高質量發展蓄能

      從雙榜第一到500名外!《劍靈》衍生作1年停運,玩家吐槽毀IP

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 土默特右旗| 九九成人在线| 国产精品无码永久免费888| 加勒比中文字幕无码一区| 亚洲av无码精品色午夜| jizzjizzjizzjizz| 连云港市| 18禁黄网站免费| 亚洲熟妇无码一区二区三区| a4yy私人毛片| 91日韩在线| 欧美巨大巨粗黑人性aaaaaa| 99热精这里只有精品| 污网站在线观看视频| 国产56页| 色欲久久久天天天综合网精品 | 亚洲 欧美 综合 另类 中字| 9丨精品国产高清自在线看| 中文字幕av久久爽Av| 无码人中文字幕| 无码人妻精品一区二区三区东京热 | 国内自拍欧美亚洲| 五月丁香六月综合缴情在线| av色蜜桃一区二区三区| 国产无套内射又大又猛又粗又爽| av资源吧| 色偷偷噜噜噜亚洲男人| 亚洲欧美人成人综合在线播放 | 丝袜美腿亚洲综合在线观看视频| 亚洲欧美视频| 色婷婷综合久久久中文字幕 | 99久久精品久久久久久婷婷| 亚洲天堂视频在线观看| a片在线免费观看| 国产成人精品综合久久久| 欧美人妻精品| 珠海市| 国产亚洲精品久久久久秋霞| 不卡在线一区二区三区视频| 国产VA在线观看| 国产人妻无套一区二区普通话对白|