![]()
騰訊在Hugging Face上發(fā)布了一個專門用來翻譯的模型,叫做Hunyuan-MT-7B。根據(jù)它的官方介紹,這個翻譯模型在WMT25競賽中,該模型在參與的31個語言類別中有30個獲得了第一名。并且在同等規(guī)模模型中實現(xiàn)了行業(yè)領先的性能。
而Hunyuan-MT-7B的集成模型Hunyuan-MT-Chimera-7B,是業(yè)界首個開源翻譯集成模型,將翻譯質量提升至新高度。所謂集成模型,是指一種機器學習方法。它的核心思想是,不依賴單個模型進行預測或判斷,而是將多個模型的預測結果結合起來,從而獲得比任何一個單一模型都更好、更穩(wěn)定的最終結果。
那么回到翻譯這個事上來,Chimera的邏輯就是讓MT-7B翻譯系統(tǒng)生成多個不同的翻譯候選版本,會分析這些候選版本,將它們各自的優(yōu)點整合起來。最后,生成一個質量超越了任何一個單一候選版本的、更優(yōu)的最終譯文。
但是由于官網目前只有MT-7B這一種版本,因此本文只對該版本進行了測試。
01
這里我使用的都是很常見的英語臺詞,出自各種經典讀物。
![]()
出自《羅密歐與朱麗葉》,原文通常被翻譯為“姓名算得了什么?我們所稱的玫瑰,換個名字還是一樣芳香”
![]()
出自《雙城記》,這個翻譯的非常精準。
![]()
出自《了不起的蓋茨比》,同樣也翻譯得非常精準。
接下來,提高難度,我開始用一些現(xiàn)代英語臺詞來測試模型的翻譯效果。
![]()
這句話是《英雄聯(lián)盟》戲命師 燼的選定語音,我于殺戮之中盛放,亦如黎明中的花朵。
![]()
這句話來自電影《蜘蛛俠》,通常我們翻譯成“能力越大,責任越大”。
既然英語差不多沒問題,就來試試日語和韓語。
![]()
這是《游戲王5D'S》紅蓮魔龍召喚臺詞,王者的鼓動,現(xiàn)在于此列成陣勢!看著這天地鳴動的力量吧!同調召喚,吾之魂,紅蓮魔龍!日語中的鼓動(こどう)并非全部都是心跳的意思,也可以指脈動、律動、震動等等。
今ここに列をなす,要拆分出來理解。其中“今”代表此時此刻,“ここに”是在這里,指的是地點,“列をなす”是組成一列,而混元將其簡單譯作“此刻在此匯聚”并不是很合適。
在韓語方面,Hunyuan-MT-7B也表現(xiàn)得不錯。
![]()
這是K/DA歌曲《POP STAR》中阿卡麗(田小娟)的第一句歌詞,即便是英語和韓語混雜,MT-7B翻譯得依然非常準確。
![]()
如果帶著Emoji一起翻譯,那么混元MT可能會出現(xiàn)吞字的情況。比如圖中的許秀虧桑提圣經,混元沒有翻譯出??201。?? 是 ?? ???的縮寫,??是魔法,???是抵抗力,因此 ??201 的意思是魔法抗性是201。
02
從官方發(fā)布的技術報告來看,騰訊混元MT設計的目標是提供高質量的多語言互譯能力,現(xiàn)階段支持包括中文、英文、日文以及哈薩克語、維吾爾語、蒙古語、藏語等5種中國少數(shù)民族語言在內的33種語言之間的雙向翻譯。
混元MT的構建采用了一套完整的、系統(tǒng)化的訓練框架,這個框架將模型的訓練過程分解為幾個前后銜接的階段,旨在逐步提升模型的翻譯能力。整個流程從未經特定任務訓練的基礎模型開始,通過一系列專門針對機器翻譯的優(yōu)化步驟,最終產出具備專業(yè)翻譯能力的模型。
訓練流程的第一個環(huán)節(jié)是通用預訓練。這個階段的目標是構建一個具備廣泛知識和多語言基礎理解能力的基座模型,即Hunyuan-7B-Base。在訓練過程中,模型學習了包含中文、英文以及其他多種語言在內的數(shù)據(jù),其中非中英文的多語言數(shù)據(jù)量達到了1.3萬億個tokens。
![]()
為了確保訓練數(shù)據(jù)的質量和多樣性,研發(fā)團隊建立了一套數(shù)據(jù)質量評估體系。該體系從知識價值、真實性和寫作風格三個維度對文本進行打分,并根據(jù)數(shù)據(jù)來源的特性,對不同維度的權重進行調整。比如翻譯專業(yè)知識的網站,就會優(yōu)先選擇知識價值得分高的數(shù)據(jù)。
同時,為了保證內容覆蓋面的均衡,還建立了學科、行業(yè)和內容主題三個層面的標簽系統(tǒng),用以調整不同領域數(shù)據(jù)的比例,并過濾掉低質量或不相關的內容。通過這一階段的訓練,Hunyuan-7B-Base模型在通用知識、邏輯推理、數(shù)學、編程和多語言能力上奠定了基礎。
接下來的第二個環(huán)節(jié)是面向機器翻譯的預訓練。這個階段在通用基座模型的基礎上,加入了大量為翻譯任務篩選的單語和雙語語料,目的是使模型的能力向翻譯領域傾斜和深化。單語數(shù)據(jù)主要來源于mC4和OSCAR等公開數(shù)據(jù)集,并經過了嚴格的清洗流程,包括語言識別、文檔級別去重以及使用語言模型過濾掉高困惑度的低質量文本。
雙語平行語料則來自OPUS和ParaCrawl等公開數(shù)據(jù)集,團隊使用CometKiwi等無需參考譯文的質量評估工具進行篩選,以保證句對的質量。為了確定不同來源數(shù)據(jù)的最佳混合比例,團隊采用了一種名為RegMix的策略,通過在小規(guī)模模型上進行實驗,找到能夠使訓練損失最小化的數(shù)據(jù)配比,并將其應用于正式的訓練中。
此外,為了防止模型在學習新知識時遺忘通用預訓練階段學到的能力,訓練數(shù)據(jù)中還包含了20%的原始預訓練語料作為重放數(shù)據(jù)。
完成兩個預訓練階段后,模型進入第三個環(huán)節(jié),即后訓練階段。這一階段通過監(jiān)督微調(SFT)和強化學習(RL)等技術,將模型的翻譯能力進行精細化調優(yōu)和對齊。監(jiān)督微調分為兩個步驟。第一步使用約300萬句對的平行語料,旨在增強模型的基礎翻譯能力和遵循指令的能力。
這些數(shù)據(jù)來自多個來源,包括Flores-200開發(fā)集、往年的WMT評測測試集、人工標注的中文與少數(shù)民族語言互譯數(shù)據(jù)集,以及使用DeepSeek-V3-0324模型生成的合成數(shù)據(jù)。數(shù)據(jù)同樣經過CometKiwi和GEMBA等質量評估指標的篩選。第二步則使用一個規(guī)模更小但質量更高的數(shù)據(jù)集(約26.8萬句對)對模型進行進一步的精煉。這些數(shù)據(jù)經過了更嚴格的篩選過程,并對多輪評估中得分一致性較差的樣本進行了人工校驗。
監(jiān)督微調之后是強化學習階段。機器翻譯任務的輸出具有語義多樣性,難以用簡單的規(guī)則進行評估,這為強化學習的應用帶來了挑戰(zhàn)。為解決此問題,混元MT采用了GRPO算法,并設計了一個復合獎勵函數(shù)。
![]()
該獎勵函數(shù)包含三個部分:第一部分是質量感知獎勵,使用與人類譯員判斷高度相關的XCOMET-XXL評分和基于DeepSeek-V3-0324模型的GEMBA框架評分,共同評估翻譯的整體質量;第二部分是術語感知獎勵,它利用詞對齊工具提取源文和譯文中的術語等關鍵信息,通過計算二者的重合率來獎勵模型,促使模型更關注專業(yè)術語的準確翻譯;第三部分是重復懲罰,用于檢測和懲罰模型在訓練后期可能出現(xiàn)的重復輸出,以維持生成內容的多樣性和訓練的穩(wěn)定性。
經過這一系列后訓練流程,最終產出的模型即為Hunyuan-MT-7B。
03
在Hunyuan-MT-7B的基礎上,系統(tǒng)還構建了Hunyuan-MT-Chimera-7B模型。該模型采用了一種弱到強的強化學習方法。正如前文所述,其核心思想是在推理時,首先生成多個不同的翻譯候選結果,然后利用一個基于Hunyuan-MT-7B訓練的融合模型,將這些候選結果的優(yōu)點整合起來,生成一個質量超越任何單一候選結果的最終譯文。
這個融合模型的訓練同樣使用強化學習,其獎勵函數(shù)由XCOMET-XXL評分、DeepSeek-V3-0324評分和重復懲罰項構成。這種方法有效地利用了集成學習的優(yōu)勢,在不增加基礎模型參數(shù)量的情況下,進一步提升了翻譯的上限。
在性能表現(xiàn)上,混元MT系統(tǒng)在多個公開評測基準上進行了測試。結果顯示,無論是在WMT24pp還是FLORES-200等通用翻譯測試集上,7B參數(shù)規(guī)模的Hunyuan-MT-7B和Hunyuan-MT-Chimera-7B,其翻譯質量均超過了現(xiàn)有的同等規(guī)模開源模型,也優(yōu)于一些知名的商業(yè)翻譯系統(tǒng)和參數(shù)量遠大于它的通用大模型。
特別是在中文與少數(shù)民族語言互譯這個方向上,混元MT的表現(xiàn)顯著優(yōu)于所有其他對比模型,這體現(xiàn)了其在低資源語言翻譯方向上的針對性優(yōu)化取得了成效。人工評測的結果也證實了這一點,在包含社交、郵件、購物、導航等多個生活場景的中英互譯測試中,Hunyuan-MT-7B的翻譯質量與Gemini-2.5-Pro、DeepSeek-V3-0324等頂尖的大型模型處于同一水平,表明通過面向翻譯任務的系統(tǒng)性優(yōu)化,中等規(guī)模的模型同樣可以達到很高的翻譯水準。
![]()
歡迎在評論區(qū)留言~
如需開白請加小編微信:dongfangmark
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.