編輯|冷貓
最近,或許是年底了,谷歌的發布變得有些密集。比如昨天,谷歌發布了在智能 / 成本上全球性價比最高的模型 Gemini 3 Flash。
![]()
在 Gemini 3 Flash 發布后,大家都以為谷歌今年的模型發布已經收官的時候,谷歌卻又掏出了一個讓大家都意想不到的模型更新:T5Gemma 2
T5Gemma 系列模型似乎沒能給大眾留下什么深刻印象。今年 7 月,谷歌第一次發布了 T5Gemma 模型系列,并且一口氣發布了 32 個模型。
從模型名稱可以看出,T5Gemma 系列模型與 T5 息息相關。T5(Text-to-Text Transfer Transformer) 是 Google 在 2019 年提出的一種編碼器 - 解碼器(Encoder–Decoder)大模型框架,「編解碼器大模型」的思想源頭,幾乎都能追溯到 T5。
T5Gemma 使用了「適應(adaptation)」技術將已經完成預訓練的僅解碼器模型轉換為編碼器 - 解碼器架構。
但遺憾的是,「編碼器 - 解碼器架構」始終沒有成為大模型世界的主流,在「僅解碼器」大語言模型快速迭代的大背景下難逃逐漸被邊緣化的命運。
谷歌是為數不多仍在堅持編碼器 - 解碼器架構大模型的玩家。
今年上半年,谷歌發布了開放模型 Gemma 3 系列,性能強大,反響熱烈,衍生出許多基于 Gemma 3 系列模型的優秀工作。這次更新的 T5Gemma 2 模型正是其中之一。
![]()
簡而言之:T5Gemma 2,是谷歌新一代編碼器 - 解碼器模型,是首個多模態和長上下文的編碼器 - 解碼器模型,建立在 Gemma 3 的強大功能之上。
主要創新和升級功能包括:
- 支持多模態
- 擴展長上下文
- 開箱即用,支持 140 多種語言
- 效率提升的架構創新
同時,谷歌向社區發布了 270M–270M、1B–1B 以及 4B–4B 三種規模的預訓練模型,是社區中首個支持超長上下文(最高 128K)的高性能編解碼器大語言模型
![]()
- 論文鏈接: https://arxiv.org/abs/2512.14856
- HuggingFace 鏈接: https://huggingface.co/collections/google/t5gemma-2
- 博客鏈接: https://blog.google/technology/developers/t5gemma-2
T5Gemma 2 延續了 T5Gemma 的「適應(adaptation)」訓練路線:將一個預訓練的純解碼器模型適配為編解碼器模型;同時,底座采用 Gemma 3 模型,通過結合 Gemma 3 中的關鍵創新,將這一技術擴展到了視覺 - 語言模型領域。
新架構,新能力
高效的架構創新
T5Gemma 2 不僅僅是一次再訓練。它在繼承 Gemma 3 系列許多強大特性的同時,還進行了重要的架構變更:
1. 詞嵌入綁定
在編碼器與解碼器之間 共享詞嵌入參數。這一設計顯著降低了模型的總體參數量,使我們能夠在相同的顯存 / 內存占用下容納更多有效能力 —— 這對全新的 270M–270M 緊湊模型尤為關鍵。
2. 合并注意力
在解碼器中,我們采用了合并注意力機制,將自注意力(self-attention)與交叉注意力(cross-attention)融合為單一、統一的注意力層。這一做法減少了模型參數和架構復雜度,提升了模型并行化效率,同時也有利于推理性能的提升。
新一代模型能力
得益于 Gemma 3 的能力,T5Gemma 2 在模型能力上實現了顯著升級:
1. 多模態能力
T5Gemma 2 模型能夠同時理解和處理圖像與文本。通過引入一個高效的視覺編碼器,模型可以自然地完成視覺問答和多模態推理等任務。
2. 超長上下文
我們對上下文窗口進行了大幅擴展。借助 Gemma 3 的局部 — 全局交替注意力機制(alternating local and global attention),T5Gemma 2 能夠支持最長達 128K token 的上下文輸入。
3. 大規模多語言支持
通過在規模更大、更加多樣化的數據集上進行訓練,T5Gemma 2 開箱即用即可支持 140 多種語言。
性能結果
T5Gemma 2 為緊湊型編碼器 - 解碼器模型設定了新的標準,在關鍵能力領域表現出色,繼承了 Gemma 3 架構強大的多模態和長上下文特性。
![]()
Gemma 3、T5Gemma 和 T5Gemma 2 在五個獨特能力上的預訓練性能。
如上圖所示,T5Gemma 2 展現出以下突出優勢:
- 強大的多模態性能:在多個基準測試中超越 Gemma 3。原本僅支持文本的 Gemma 3 基礎模型(270M 與 1B) 成功適配為 高效的多模態編解碼器模型。
- 卓越的長上下文能力:相較于 Gemma 3 和 T5Gemma,在生成質量上取得了顯著提升。通過引入獨立的編碼器,T5Gemma 2 在處理長上下文問題時表現更佳。
- 全面提升的通用能力:在 代碼、推理和多語言 等任務上,T5Gemma 2 整體上均優于其對應規模的 Gemma 3 模型。
![]()
訓練后性能。這里的結果僅用于說明,研究團隊對 T5Gemma 2 進行了最小的 SFT,未使用 RL。另外請注意,預訓練和訓練后基準是不同的,因此不同圖表中的分數不可比較。
![]()
Gemma 3、T5Gemma 與 T5Gemma 2 的詳細預訓練結果。需要注意的是,Gemma 3 的 270M 與 1B 模型,以及 T5Gemma 的 2B–2B 和 9B–9B 模型均為純文本模型。帶有 “?” 標記的結果為近似值,無法在不同論文之間直接比較。
![]()
Gemma 3、T5Gemma 與 T5Gemma 2 的詳細后訓練結果。盡管 T5Gemma 2 的后訓練過程相對輕量化,但其在大多數能力維度上仍然優于 Gemma 3。
實驗結果表明,該適配策略在不同模型架構與不同模態上都具有良好的通用性,同時也驗證了編解碼器架構在長上下文建模方面的獨特優勢。與 T5Gemma 類似,T5Gemma 2 在預訓練階段的性能可達到或超過其 Gemma 3 對應模型,而在后訓練階段則取得了顯著更優的表現
我們能看到,編碼器 - 解碼器架構下的大模型并不弱于僅解碼器架構的模型,甚至具備自己獨特的優勢。
谷歌繼續堅持的編碼器 - 解碼器架構,能否打破被邊緣化的現狀,讓我們拭目以待。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.