<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      T5Gemma模型再更新,谷歌還在堅持編碼器-解碼器架構

      0
      分享至

      編輯|冷貓

      最近,或許是年底了,谷歌的發布變得有些密集。比如昨天,谷歌發布了在智能 / 成本上全球性價比最高的模型 Gemini 3 Flash。



      在 Gemini 3 Flash 發布后,大家都以為谷歌今年的模型發布已經收官的時候,谷歌卻又掏出了一個讓大家都意想不到的模型更新:T5Gemma 2

      T5Gemma 系列模型似乎沒能給大眾留下什么深刻印象。今年 7 月,谷歌第一次發布了 T5Gemma 模型系列,并且一口氣發布了 32 個模型。

      從模型名稱可以看出,T5Gemma 系列模型與 T5 息息相關。T5(Text-to-Text Transfer Transformer) 是 Google 在 2019 年提出的一種編碼器 - 解碼器(Encoder–Decoder)大模型框架,「編解碼器大模型」的思想源頭,幾乎都能追溯到 T5。

      T5Gemma 使用了「適應(adaptation)」技術將已經完成預訓練的僅解碼器模型轉換為編碼器 - 解碼器架構。

      但遺憾的是,「編碼器 - 解碼器架構」始終沒有成為大模型世界的主流,在「僅解碼器」大語言模型快速迭代的大背景下難逃逐漸被邊緣化的命運。

      谷歌是為數不多仍在堅持編碼器 - 解碼器架構大模型的玩家。

      今年上半年,谷歌發布了開放模型 Gemma 3 系列,性能強大,反響熱烈,衍生出許多基于 Gemma 3 系列模型的優秀工作。這次更新的 T5Gemma 2 模型正是其中之一。



      簡而言之:T5Gemma 2,是谷歌新一代編碼器 - 解碼器模型,是首個多模態和長上下文的編碼器 - 解碼器模型,建立在 Gemma 3 的強大功能之上。

      主要創新和升級功能包括:

      • 支持多模態
      • 擴展長上下文
      • 開箱即用,支持 140 多種語言
      • 效率提升的架構創新

      同時,谷歌向社區發布了 270M–270M、1B–1B 以及 4B–4B 三種規模的預訓練模型,是社區中首個支持超長上下文(最高 128K)的高性能編解碼器大語言模型



      • 論文鏈接: https://arxiv.org/abs/2512.14856
      • HuggingFace 鏈接: https://huggingface.co/collections/google/t5gemma-2
      • 博客鏈接: https://blog.google/technology/developers/t5gemma-2

      T5Gemma 2 延續了 T5Gemma 的「適應(adaptation)」訓練路線:將一個預訓練的純解碼器模型適配為編解碼器模型;同時,底座采用 Gemma 3 模型,通過結合 Gemma 3 中的關鍵創新,將這一技術擴展到了視覺 - 語言模型領域。

      新架構,新能力

      高效的架構創新

      T5Gemma 2 不僅僅是一次再訓練。它在繼承 Gemma 3 系列許多強大特性的同時,還進行了重要的架構變更:

      1. 詞嵌入綁定

      在編碼器與解碼器之間 共享詞嵌入參數。這一設計顯著降低了模型的總體參數量,使我們能夠在相同的顯存 / 內存占用下容納更多有效能力 —— 這對全新的 270M–270M 緊湊模型尤為關鍵。

      2. 合并注意力

      在解碼器中,我們采用了合并注意力機制,將自注意力(self-attention)與交叉注意力(cross-attention)融合為單一、統一的注意力層。這一做法減少了模型參數和架構復雜度,提升了模型并行化效率,同時也有利于推理性能的提升。

      新一代模型能力

      得益于 Gemma 3 的能力,T5Gemma 2 在模型能力上實現了顯著升級:

      1. 多模態能力

      T5Gemma 2 模型能夠同時理解和處理圖像與文本。通過引入一個高效的視覺編碼器,模型可以自然地完成視覺問答和多模態推理等任務。

      2. 超長上下文

      我們對上下文窗口進行了大幅擴展。借助 Gemma 3 的局部 — 全局交替注意力機制(alternating local and global attention),T5Gemma 2 能夠支持最長達 128K token 的上下文輸入。

      3. 大規模多語言支持

      通過在規模更大、更加多樣化的數據集上進行訓練,T5Gemma 2 開箱即用即可支持 140 多種語言。

      性能結果

      T5Gemma 2 為緊湊型編碼器 - 解碼器模型設定了新的標準,在關鍵能力領域表現出色,繼承了 Gemma 3 架構強大的多模態和長上下文特性。



      Gemma 3、T5Gemma 和 T5Gemma 2 在五個獨特能力上的預訓練性能。

      如上圖所示,T5Gemma 2 展現出以下突出優勢:

      • 強大的多模態性能:在多個基準測試中超越 Gemma 3。原本僅支持文本的 Gemma 3 基礎模型(270M 與 1B) 成功適配為 高效的多模態編解碼器模型。
      • 卓越的長上下文能力:相較于 Gemma 3 和 T5Gemma,在生成質量上取得了顯著提升。通過引入獨立的編碼器,T5Gemma 2 在處理長上下文問題時表現更佳。
      • 全面提升的通用能力:在 代碼、推理和多語言 等任務上,T5Gemma 2 整體上均優于其對應規模的 Gemma 3 模型。



      訓練后性能。這里的結果僅用于說明,研究團隊對 T5Gemma 2 進行了最小的 SFT,未使用 RL。另外請注意,預訓練和訓練后基準是不同的,因此不同圖表中的分數不可比較。



      Gemma 3、T5Gemma 與 T5Gemma 2 的詳細預訓練結果。需要注意的是,Gemma 3 的 270M 與 1B 模型,以及 T5Gemma 的 2B–2B 和 9B–9B 模型均為純文本模型。帶有 “?” 標記的結果為近似值,無法在不同論文之間直接比較。



      Gemma 3、T5Gemma 與 T5Gemma 2 的詳細后訓練結果。盡管 T5Gemma 2 的后訓練過程相對輕量化,但其在大多數能力維度上仍然優于 Gemma 3。

      實驗結果表明,該適配策略在不同模型架構與不同模態上都具有良好的通用性,同時也驗證了編解碼器架構在長上下文建模方面的獨特優勢。與 T5Gemma 類似,T5Gemma 2 在預訓練階段的性能可達到或超過其 Gemma 3 對應模型,而在后訓練階段則取得了顯著更優的表現

      我們能看到,編碼器 - 解碼器架構下的大模型并不弱于僅解碼器架構的模型,甚至具備自己獨特的優勢。

      谷歌繼續堅持的編碼器 - 解碼器架構,能否打破被邊緣化的現狀,讓我們拭目以待。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      海南封關動了誰的奶酪?答案顯而易見:新加坡為代表的傳統中轉港

      海南封關動了誰的奶酪?答案顯而易見:新加坡為代表的傳統中轉港

      一盅情懷
      2025-12-19 15:50:07
      中央最近亮劍了,十五五規劃直接把“遮羞布”扯了下來。

      中央最近亮劍了,十五五規劃直接把“遮羞布”扯了下來。

      南權先生
      2025-12-16 16:24:33
      夫妻常年分居,究竟有多危險?響水金店付某婷事件戳破了多少家庭

      夫妻常年分居,究竟有多危險?響水金店付某婷事件戳破了多少家庭

      沒有偏旁的常慶
      2025-11-27 08:00:06
      固態電池出現變數,安全測試全軍覆沒?

      固態電池出現變數,安全測試全軍覆沒?

      環球零碳
      2025-12-17 21:22:14
      羅永浩吐槽電信寬帶:獨享千兆不足百兆,不解決要發瘋了

      羅永浩吐槽電信寬帶:獨享千兆不足百兆,不解決要發瘋了

      三言科技
      2025-12-19 09:21:04
      明朝的一首詞,抵得過千萬首唐詩宋詞,因為這首詞全篇都是名句

      明朝的一首詞,抵得過千萬首唐詩宋詞,因為這首詞全篇都是名句

      長風文史
      2025-12-18 15:00:28
      老婆被外派非洲8年,直到偶遇她上司,驚訝知道:她5年前就離職了

      老婆被外派非洲8年,直到偶遇她上司,驚訝知道:她5年前就離職了

      農村情感故事
      2025-12-07 15:05:41
      澳門回歸前,富商馬萬祺前來提醒:請向中央反映,澳門必須駐軍

      澳門回歸前,富商馬萬祺前來提醒:請向中央反映,澳門必須駐軍

      壹知眠羊
      2025-12-19 07:17:58
      一種讓你變老又頭禿的飲料,很多人天天在喝!

      一種讓你變老又頭禿的飲料,很多人天天在喝!

      貓大夫醫學科普
      2025-12-19 06:47:52
      外交部:中方在TikTok問題上的立場是一貫明確的

      外交部:中方在TikTok問題上的立場是一貫明確的

      環球網資訊
      2025-12-19 15:50:37
      央視直播一場英超,利物浦強強對話,阿森納對手不弱,曼城盼登頂

      央視直播一場英超,利物浦強強對話,阿森納對手不弱,曼城盼登頂

      嗨皮看球
      2025-12-19 17:58:19
      中小學將改“522學制”?官方最新回應來了,落地時間表明確

      中小學將改“522學制”?官方最新回應來了,落地時間表明確

      慧眼看世界哈哈
      2025-12-19 11:50:03
      針對臺灣問題,攤牌了!美國國防部今天表態了!

      針對臺灣問題,攤牌了!美國國防部今天表態了!

      安安說
      2025-12-19 09:59:44
      寧靜太敢說!綜藝里評張柏芝兒子“全是賠錢貨”,張柏芝霸氣回懟

      寧靜太敢說!綜藝里評張柏芝兒子“全是賠錢貨”,張柏芝霸氣回懟

      好賢觀史記
      2025-12-19 14:49:49
      連續16年無緣執法世界杯!韓媒熱議:恥辱,中國裁判都去了

      連續16年無緣執法世界杯!韓媒熱議:恥辱,中國裁判都去了

      邱澤云
      2025-12-19 15:15:17
      劉威:何晴的離去我很遺憾,但并不想糾纏,只想珍惜眼前人

      劉威:何晴的離去我很遺憾,但并不想糾纏,只想珍惜眼前人

      樂悠悠娛樂
      2025-12-19 13:07:58
      英媒曝光俄絕密文件:一旦俄與北約開戰,普京先打中國的兩個鄰國

      英媒曝光俄絕密文件:一旦俄與北約開戰,普京先打中國的兩個鄰國

      滄海旅行家
      2025-12-19 12:27:40
      中方出面調停,柬泰表示歡迎

      中方出面調停,柬泰表示歡迎

      環球網資訊
      2025-12-19 07:00:13
      烏克蘭一位母親的采訪讓人破防:三個女兒都嫁中國人,不要彩禮

      烏克蘭一位母親的采訪讓人破防:三個女兒都嫁中國人,不要彩禮

      南權先生
      2025-12-19 16:35:22
      郎平前夫近況:15年堅持不娶全心陪伴女兒,今年過六旬再婚生子

      郎平前夫近況:15年堅持不娶全心陪伴女兒,今年過六旬再婚生子

      睿鑒歷史
      2025-12-15 18:25:03
      2025-12-19 19:47:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11957文章數 142513關注度
      往期回顧 全部

      科技要聞

      許四清:具身智能的"ChatGPT時刻"還未到來

      頭條要聞

      “南京導航集體失靈”原因披露 北斗軍用頻率不受影響

      頭條要聞

      “南京導航集體失靈”原因披露 北斗軍用頻率不受影響

      體育要聞

      “惡龍”埃托奧,正在毀滅喀麥隆足球

      娛樂要聞

      曲協表態僅6天,郭德綱擔心的事還是發生

      財經要聞

      日元加息,恐慌來了?貨幣三國殺

      汽車要聞

      “一體壓鑄”再引熱議 一旦受損真的修不起嗎?

      態度原創

      家居
      游戲
      本地
      公開課
      軍事航空

      家居要聞

      高端私宅 理想隱居圣地

      POE2新職業竟能化身為龍!福利狂歡來襲,免費周末殺瘋了!

      本地新聞

      云游安徽|訪黃山云海古村,讀一城山水風骨

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      媒體:美方官宣史上對臺單筆最大軍售 野心藏不住了

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 熟妇人妻av无码一区二区三区 | 亚洲无线一二三四区手机| 熟女毛多熟妇人妻在线视频| 国产成人综合色视频精品| 66亚洲一卡2卡新区成片发布| 国产精品毛片一区二区| av网站的免费观看| 我把护士日出水了视频90分钟| 无码人妻精品一区二区三区夜夜嗨| 西丰县| 亚洲无码?制服丝袜| 两个人看的www免费视频中文| 丰满的少妇愉情HD高清果冻传媒| 夜夜cao| 国产SM重味一区二区三区| 桃色综合网站| 国产在线资源| 国产精品高潮露脸在线观看 | 亚洲精选AV| 婷婷综合五月| 日本成人有码| 日本免费人成视频在线观看| 亚洲妇女无套内射精| 男女做aj视频免费的网站| 国产中文字幕乱人伦在线观看| 少妇人妻无码专区视频| 小泽玛利亚av无码专区| 精品丝袜人妻久久久久久| 国产亚洲精品aaaa片app| 亚洲免费网站观看视频| 国产精品麻豆成人av电影艾秋| 正在播放国产真实哭都没用| 久肏| 性欧美疯狂xxxxbbbb| 黑人巨大精品欧美一区二区| 97插插插| 亚洲蜜桃精久久久久久久久久久久| 日韩不卡手机视频在线观看| 日韩偷拍电影| 水蜜桃视频在线观看免费18| 久久婷婷成人综合色综合|