網易首頁 > 網易號 > 正文申請入駐

T5Gemma模型再更新，谷歌還在堅持編碼器-解碼器架構

2025-12-19 11:45:32　來源: 機器之心Pro

北京舉報

分享至

編輯｜冷貓

最近，或許是年底了，谷歌的發布變得有些密集。比如昨天，谷歌發布了在智能 / 成本上全球性價比最高的模型 Gemini 3 Flash。

在 Gemini 3 Flash 發布后，大家都以為谷歌今年的模型發布已經收官的時候，谷歌卻又掏出了一個讓大家都意想不到的模型更新：T5Gemma 2

T5Gemma 系列模型似乎沒能給大眾留下什么深刻印象。今年 7 月，谷歌第一次發布了 T5Gemma 模型系列，并且一口氣發布了 32 個模型。

從模型名稱可以看出，T5Gemma 系列模型與 T5 息息相關。T5（Text-to-Text Transfer Transformer）是 Google 在 2019 年提出的一種編碼器 - 解碼器（Encoder–Decoder）大模型框架，「編解碼器大模型」的思想源頭，幾乎都能追溯到 T5。

T5Gemma 使用了「適應（adaptation）」技術將已經完成預訓練的僅解碼器模型轉換為編碼器 - 解碼器架構。

但遺憾的是，「編碼器 - 解碼器架構」始終沒有成為大模型世界的主流，在「僅解碼器」大語言模型快速迭代的大背景下難逃逐漸被邊緣化的命運。

谷歌是為數不多仍在堅持編碼器 - 解碼器架構大模型的玩家。

今年上半年，谷歌發布了開放模型 Gemma 3 系列，性能強大，反響熱烈，衍生出許多基于 Gemma 3 系列模型的優秀工作。這次更新的 T5Gemma 2 模型正是其中之一。

簡而言之：T5Gemma 2，是谷歌新一代編碼器 - 解碼器模型，是首個多模態和長上下文的編碼器 - 解碼器模型，建立在 Gemma 3 的強大功能之上。

主要創新和升級功能包括：

支持多模態
擴展長上下文
開箱即用，支持 140 多種語言
效率提升的架構創新

同時，谷歌向社區發布了 270M–270M、1B–1B 以及 4B–4B 三種規模的預訓練模型，是社區中首個支持超長上下文（最高 128K）的高性能編解碼器大語言模型

論文鏈接: https://arxiv.org/abs/2512.14856
HuggingFace 鏈接: https://huggingface.co/collections/google/t5gemma-2
博客鏈接: https://blog.google/technology/developers/t5gemma-2

T5Gemma 2 延續了 T5Gemma 的「適應（adaptation）」訓練路線：將一個預訓練的純解碼器模型適配為編解碼器模型；同時，底座采用 Gemma 3 模型，通過結合 Gemma 3 中的關鍵創新，將這一技術擴展到了視覺 - 語言模型領域。

新架構，新能力

高效的架構創新

T5Gemma 2 不僅僅是一次再訓練。它在繼承 Gemma 3 系列許多強大特性的同時，還進行了重要的架構變更：

1. 詞嵌入綁定

在編碼器與解碼器之間共享詞嵌入參數。這一設計顯著降低了模型的總體參數量，使我們能夠在相同的顯存 / 內存占用下容納更多有效能力 —— 這對全新的 270M–270M 緊湊模型尤為關鍵。

2. 合并注意力

在解碼器中，我們采用了合并注意力機制，將自注意力（self-attention）與交叉注意力（cross-attention）融合為單一、統一的注意力層。這一做法減少了模型參數和架構復雜度，提升了模型并行化效率，同時也有利于推理性能的提升。

新一代模型能力

得益于 Gemma 3 的能力，T5Gemma 2 在模型能力上實現了顯著升級：

1. 多模態能力

T5Gemma 2 模型能夠同時理解和處理圖像與文本。通過引入一個高效的視覺編碼器，模型可以自然地完成視覺問答和多模態推理等任務。

2. 超長上下文

我們對上下文窗口進行了大幅擴展。借助 Gemma 3 的局部 — 全局交替注意力機制（alternating local and global attention），T5Gemma 2 能夠支持最長達 128K token 的上下文輸入。

3. 大規模多語言支持

通過在規模更大、更加多樣化的數據集上進行訓練，T5Gemma 2 開箱即用即可支持 140 多種語言。

性能結果

T5Gemma 2 為緊湊型編碼器 - 解碼器模型設定了新的標準，在關鍵能力領域表現出色，繼承了 Gemma 3 架構強大的多模態和長上下文特性。

Gemma 3、T5Gemma 和 T5Gemma 2 在五個獨特能力上的預訓練性能。

如上圖所示，T5Gemma 2 展現出以下突出優勢：

強大的多模態性能：在多個基準測試中超越 Gemma 3。原本僅支持文本的 Gemma 3 基礎模型（270M 與 1B）成功適配為高效的多模態編解碼器模型。
卓越的長上下文能力：相較于 Gemma 3 和 T5Gemma，在生成質量上取得了顯著提升。通過引入獨立的編碼器，T5Gemma 2 在處理長上下文問題時表現更佳。
全面提升的通用能力：在代碼、推理和多語言等任務上，T5Gemma 2 整體上均優于其對應規模的 Gemma 3 模型。

訓練后性能。這里的結果僅用于說明，研究團隊對 T5Gemma 2 進行了最小的 SFT，未使用 RL。另外請注意，預訓練和訓練后基準是不同的，因此不同圖表中的分數不可比較。

Gemma 3、T5Gemma 與 T5Gemma 2 的詳細預訓練結果。需要注意的是，Gemma 3 的 270M 與 1B 模型，以及 T5Gemma 的 2B–2B 和 9B–9B 模型均為純文本模型。帶有 “?” 標記的結果為近似值，無法在不同論文之間直接比較。

Gemma 3、T5Gemma 與 T5Gemma 2 的詳細后訓練結果。盡管 T5Gemma 2 的后訓練過程相對輕量化，但其在大多數能力維度上仍然優于 Gemma 3。

實驗結果表明，該適配策略在不同模型架構與不同模態上都具有良好的通用性，同時也驗證了編解碼器架構在長上下文建模方面的獨特優勢。與 T5Gemma 類似，T5Gemma 2 在預訓練階段的性能可達到或超過其 Gemma 3 對應模型，而在后訓練階段則取得了顯著更優的表現

我們能看到，編碼器 - 解碼器架構下的大模型并不弱于僅解碼器架構的模型，甚至具備自己獨特的優勢。

谷歌繼續堅持的編碼器 - 解碼器架構，能否打破被邊緣化的現狀，讓我們拭目以待。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.