<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      拿了30個冠軍的騰訊翻譯模型,實際表現(xiàn)又如何?

      0
      分享至


      騰訊在Hugging Face上發(fā)布了一個專門用來翻譯的模型,叫做Hunyuan-MT-7B。根據(jù)它的官方介紹,這個翻譯模型在WMT25競賽中,該模型在參與的31個語言類別中有30個獲得了第一名。并且在同等規(guī)模模型中實現(xiàn)了行業(yè)領先的性能。

      而Hunyuan-MT-7B的集成模型Hunyuan-MT-Chimera-7B,是業(yè)界首個開源翻譯集成模型,將翻譯質量提升至新高度。所謂集成模型,是指一種機器學習方法。它的核心思想是,不依賴單個模型進行預測或判斷,而是將多個模型的預測結果結合起來,從而獲得比任何一個單一模型都更好、更穩(wěn)定的最終結果。

      那么回到翻譯這個事上來,Chimera的邏輯就是讓MT-7B翻譯系統(tǒng)生成多個不同的翻譯候選版本,會分析這些候選版本,將它們各自的優(yōu)點整合起來。最后,生成一個質量超越了任何一個單一候選版本的、更優(yōu)的最終譯文。

      但是由于官網目前只有MT-7B這一種版本,因此本文只對該版本進行了測試。

      01

      這里我使用的都是很常見的英語臺詞,出自各種經典讀物。


      出自《羅密歐與朱麗葉》,原文通常被翻譯為“姓名算得了什么?我們所稱的玫瑰,換個名字還是一樣芳香”


      出自《雙城記》,這個翻譯的非常精準。


      出自《了不起的蓋茨比》,同樣也翻譯得非常精準。

      接下來,提高難度,我開始用一些現(xiàn)代英語臺詞來測試模型的翻譯效果。


      這句話是《英雄聯(lián)盟》戲命師 燼的選定語音,我于殺戮之中盛放,亦如黎明中的花朵。


      這句話來自電影《蜘蛛俠》,通常我們翻譯成“能力越大,責任越大”。

      既然英語差不多沒問題,就來試試日語和韓語。


      這是《游戲王5D'S》紅蓮魔龍召喚臺詞,王者的鼓動,現(xiàn)在于此列成陣勢!看著這天地鳴動的力量吧!同調召喚,吾之魂,紅蓮魔龍!日語中的鼓動(こどう)并非全部都是心跳的意思,也可以指脈動、律動、震動等等。

      今ここに列をなす,要拆分出來理解。其中“今”代表此時此刻,“ここに”是在這里,指的是地點,“列をなす”是組成一列,而混元將其簡單譯作“此刻在此匯聚”并不是很合適。

      在韓語方面,Hunyuan-MT-7B也表現(xiàn)得不錯。


      這是K/DA歌曲《POP STAR》中阿卡麗(田小娟)的第一句歌詞,即便是英語和韓語混雜,MT-7B翻譯得依然非常準確。


      如果帶著Emoji一起翻譯,那么混元MT可能會出現(xiàn)吞字的情況。比如圖中的許秀虧桑提圣經,混元沒有翻譯出??201。?? 是 ?? ???的縮寫,??是魔法,???是抵抗力,因此 ??201 的意思是魔法抗性是201。

      02

      從官方發(fā)布的技術報告來看,騰訊混元MT設計的目標是提供高質量的多語言互譯能力,現(xiàn)階段支持包括中文、英文、日文以及哈薩克語、維吾爾語、蒙古語、藏語等5種中國少數(shù)民族語言在內的33種語言之間的雙向翻譯。

      混元MT的構建采用了一套完整的、系統(tǒng)化的訓練框架,這個框架將模型的訓練過程分解為幾個前后銜接的階段,旨在逐步提升模型的翻譯能力。整個流程從未經特定任務訓練的基礎模型開始,通過一系列專門針對機器翻譯的優(yōu)化步驟,最終產出具備專業(yè)翻譯能力的模型。

      訓練流程的第一個環(huán)節(jié)是通用預訓練。這個階段的目標是構建一個具備廣泛知識和多語言基礎理解能力的基座模型,即Hunyuan-7B-Base。在訓練過程中,模型學習了包含中文、英文以及其他多種語言在內的數(shù)據(jù),其中非中英文的多語言數(shù)據(jù)量達到了1.3萬億個tokens。


      為了確保訓練數(shù)據(jù)的質量和多樣性,研發(fā)團隊建立了一套數(shù)據(jù)質量評估體系。該體系從知識價值、真實性和寫作風格三個維度對文本進行打分,并根據(jù)數(shù)據(jù)來源的特性,對不同維度的權重進行調整。比如翻譯專業(yè)知識的網站,就會優(yōu)先選擇知識價值得分高的數(shù)據(jù)。

      同時,為了保證內容覆蓋面的均衡,還建立了學科、行業(yè)和內容主題三個層面的標簽系統(tǒng),用以調整不同領域數(shù)據(jù)的比例,并過濾掉低質量或不相關的內容。通過這一階段的訓練,Hunyuan-7B-Base模型在通用知識、邏輯推理、數(shù)學、編程和多語言能力上奠定了基礎。

      接下來的第二個環(huán)節(jié)是面向機器翻譯的預訓練。這個階段在通用基座模型的基礎上,加入了大量為翻譯任務篩選的單語和雙語語料,目的是使模型的能力向翻譯領域傾斜和深化。單語數(shù)據(jù)主要來源于mC4和OSCAR等公開數(shù)據(jù)集,并經過了嚴格的清洗流程,包括語言識別、文檔級別去重以及使用語言模型過濾掉高困惑度的低質量文本。

      雙語平行語料則來自OPUS和ParaCrawl等公開數(shù)據(jù)集,團隊使用CometKiwi等無需參考譯文的質量評估工具進行篩選,以保證句對的質量。為了確定不同來源數(shù)據(jù)的最佳混合比例,團隊采用了一種名為RegMix的策略,通過在小規(guī)模模型上進行實驗,找到能夠使訓練損失最小化的數(shù)據(jù)配比,并將其應用于正式的訓練中。

      此外,為了防止模型在學習新知識時遺忘通用預訓練階段學到的能力,訓練數(shù)據(jù)中還包含了20%的原始預訓練語料作為重放數(shù)據(jù)。

      完成兩個預訓練階段后,模型進入第三個環(huán)節(jié),即后訓練階段。這一階段通過監(jiān)督微調(SFT)和強化學習(RL)等技術,將模型的翻譯能力進行精細化調優(yōu)和對齊。監(jiān)督微調分為兩個步驟。第一步使用約300萬句對的平行語料,旨在增強模型的基礎翻譯能力和遵循指令的能力。

      這些數(shù)據(jù)來自多個來源,包括Flores-200開發(fā)集、往年的WMT評測測試集、人工標注的中文與少數(shù)民族語言互譯數(shù)據(jù)集,以及使用DeepSeek-V3-0324模型生成的合成數(shù)據(jù)。數(shù)據(jù)同樣經過CometKiwi和GEMBA等質量評估指標的篩選。第二步則使用一個規(guī)模更小但質量更高的數(shù)據(jù)集(約26.8萬句對)對模型進行進一步的精煉。這些數(shù)據(jù)經過了更嚴格的篩選過程,并對多輪評估中得分一致性較差的樣本進行了人工校驗。

      監(jiān)督微調之后是強化學習階段。機器翻譯任務的輸出具有語義多樣性,難以用簡單的規(guī)則進行評估,這為強化學習的應用帶來了挑戰(zhàn)。為解決此問題,混元MT采用了GRPO算法,并設計了一個復合獎勵函數(shù)。


      該獎勵函數(shù)包含三個部分:第一部分是質量感知獎勵,使用與人類譯員判斷高度相關的XCOMET-XXL評分和基于DeepSeek-V3-0324模型的GEMBA框架評分,共同評估翻譯的整體質量;第二部分是術語感知獎勵,它利用詞對齊工具提取源文和譯文中的術語等關鍵信息,通過計算二者的重合率來獎勵模型,促使模型更關注專業(yè)術語的準確翻譯;第三部分是重復懲罰,用于檢測和懲罰模型在訓練后期可能出現(xiàn)的重復輸出,以維持生成內容的多樣性和訓練的穩(wěn)定性。

      經過這一系列后訓練流程,最終產出的模型即為Hunyuan-MT-7B。

      03

      在Hunyuan-MT-7B的基礎上,系統(tǒng)還構建了Hunyuan-MT-Chimera-7B模型。該模型采用了一種弱到強的強化學習方法。正如前文所述,其核心思想是在推理時,首先生成多個不同的翻譯候選結果,然后利用一個基于Hunyuan-MT-7B訓練的融合模型,將這些候選結果的優(yōu)點整合起來,生成一個質量超越任何單一候選結果的最終譯文。

      這個融合模型的訓練同樣使用強化學習,其獎勵函數(shù)由XCOMET-XXL評分、DeepSeek-V3-0324評分和重復懲罰項構成。這種方法有效地利用了集成學習的優(yōu)勢,在不增加基礎模型參數(shù)量的情況下,進一步提升了翻譯的上限。

      在性能表現(xiàn)上,混元MT系統(tǒng)在多個公開評測基準上進行了測試。結果顯示,無論是在WMT24pp還是FLORES-200等通用翻譯測試集上,7B參數(shù)規(guī)模的Hunyuan-MT-7B和Hunyuan-MT-Chimera-7B,其翻譯質量均超過了現(xiàn)有的同等規(guī)模開源模型,也優(yōu)于一些知名的商業(yè)翻譯系統(tǒng)和參數(shù)量遠大于它的通用大模型。

      特別是在中文與少數(shù)民族語言互譯這個方向上,混元MT的表現(xiàn)顯著優(yōu)于所有其他對比模型,這體現(xiàn)了其在低資源語言翻譯方向上的針對性優(yōu)化取得了成效。人工評測的結果也證實了這一點,在包含社交、郵件、購物、導航等多個生活場景的中英互譯測試中,Hunyuan-MT-7B的翻譯質量與Gemini-2.5-Pro、DeepSeek-V3-0324等頂尖的大型模型處于同一水平,表明通過面向翻譯任務的系統(tǒng)性優(yōu)化,中等規(guī)模的模型同樣可以達到很高的翻譯水準。


      歡迎在評論區(qū)留言~
      如需開白請加小編微信:dongfangmark



      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      利潤20倍,成本70賣上千!央視再曝光新騙局,已經大量老百姓上當

      利潤20倍,成本70賣上千!央視再曝光新騙局,已經大量老百姓上當

      歷史求知所
      2025-12-23 11:40:05
      今晚,見證歷史了

      今晚,見證歷史了

      中國基金報
      2025-12-24 00:11:07
      Lisa又被罵低俗!穿高衩衣、裸露屁股 網友崩潰:帶壞小孩子

      Lisa又被罵低俗!穿高衩衣、裸露屁股 網友崩潰:帶壞小孩子

      桑葚愛動畫
      2025-12-24 16:21:15
      1983年,李政道回國參加母親葬禮,在機場和哥哥李崇道的一張合影

      1983年,李政道回國參加母親葬禮,在機場和哥哥李崇道的一張合影

      萬物知識圈
      2025-12-24 09:08:29
      廣東人,把雷克薩斯買成了年度最硬氣日系車

      廣東人,把雷克薩斯買成了年度最硬氣日系車

      源Auto
      2025-12-23 19:44:54
      上海炒股大賽冠軍的箴言:如果手里只有20萬,建議死啃713戰(zhàn)法!

      上海炒股大賽冠軍的箴言:如果手里只有20萬,建議死啃713戰(zhàn)法!

      股經縱橫談
      2025-12-24 20:35:04
      壽命與大便次數(shù)有關?研究發(fā)現(xiàn):壽命長的人,每天排便在這個次數(shù)

      壽命與大便次數(shù)有關?研究發(fā)現(xiàn):壽命長的人,每天排便在這個次數(shù)

      DrX說
      2025-10-24 14:15:19
      這四個生肖的人,注定命苦一生,一輩子忙忙碌碌卻無所成

      這四個生肖的人,注定命苦一生,一輩子忙忙碌碌卻無所成

      屏兒愛讀書
      2025-02-18 09:11:18
      嚴防死守36年,利智還是輸了,李連杰終是沒放下一直虧欠的“她”

      嚴防死守36年,利智還是輸了,李連杰終是沒放下一直虧欠的“她”

      法老不說教
      2025-12-24 18:25:17
      當段奕宏和00后演員同框,一個健壯一個油頭粉面,才懂啥叫真男人

      當段奕宏和00后演員同框,一個健壯一個油頭粉面,才懂啥叫真男人

      銀河史記
      2025-12-24 14:32:30
      鄭麗文韓國瑜聯(lián)手清黨渣,侯友宜盧秀燕罕見求和,國民黨或將翻盤

      鄭麗文韓國瑜聯(lián)手清黨渣,侯友宜盧秀燕罕見求和,國民黨或將翻盤

      書紀文譚
      2025-12-24 15:34:03
      杰倫-布朗談哈特摸布倫森屁股:敢在臺上干,他們肯定不是第一次了

      杰倫-布朗談哈特摸布倫森屁股:敢在臺上干,他們肯定不是第一次了

      懂球帝
      2025-12-24 16:19:19
      《阿凡達3》票房斷崖下跌,六天不到30億,全球冠軍夢徹底碎了

      《阿凡達3》票房斷崖下跌,六天不到30億,全球冠軍夢徹底碎了

      影視高原說
      2025-12-24 13:02:48
      1948年,王耀武被俘后,陳毅不解地問:你家里為何會藏了兩臺拖拉機?

      1948年,王耀武被俘后,陳毅不解地問:你家里為何會藏了兩臺拖拉機?

      宅家伍菇涼
      2025-12-07 09:00:04
      英國禁止活煮龍蝦螃蟹,建議擊暈后宰殺!餐館老板怒了:死蟹賣不出價

      英國禁止活煮龍蝦螃蟹,建議擊暈后宰殺!餐館老板怒了:死蟹賣不出價

      紅星新聞
      2025-12-23 18:37:17
      稀土永磁第一股,訂單狂飆200%!

      稀土永磁第一股,訂單狂飆200%!

      投研邦V
      2025-12-24 19:39:33
      全球僅3國能造,俄羅斯拒絕中方請求,我國一怒之下沖至世界領先

      全球僅3國能造,俄羅斯拒絕中方請求,我國一怒之下沖至世界領先

      壹知眠羊
      2025-12-23 07:18:27
      朝鮮不見李在明,韓總統(tǒng)訪華前,派人急赴北京,當面提出1個要求

      朝鮮不見李在明,韓總統(tǒng)訪華前,派人急赴北京,當面提出1個要求

      擲低有聲
      2025-12-23 18:59:36
      交通運輸部:實施新一輪農村公路提升行動

      交通運輸部:實施新一輪農村公路提升行動

      財聯(lián)社
      2025-12-24 10:36:19
      加圖索:自從擔任意大利主教練以來,我一直在照搬里皮的做法

      加圖索:自從擔任意大利主教練以來,我一直在照搬里皮的做法

      懂球帝
      2025-12-24 21:42:36
      2025-12-24 23:27:00
      直面派 incentive-icons
      直面派
      講述值得講述的真實故事
      241文章數(shù) 236關注度
      往期回顧 全部

      科技要聞

      智譜和MiniMax拿出了“血淋淋”的賬本

      頭條要聞

      61歲女"老虎"王峻被查 一直在西藏自治區(qū)工作

      頭條要聞

      61歲女"老虎"王峻被查 一直在西藏自治區(qū)工作

      體育要聞

      26歲廣西球王,在質疑聲中成為本土得分王

      娛樂要聞

      懷孕增重30斤!闞清子驚傳誕一女夭折?

      財經要聞

      北京進一步放松限購 滬深是否會跟進?

      汽車要聞

      “運動版庫里南”一月份亮相???或命名極氪9S

      態(tài)度原創(chuàng)

      健康
      旅游
      親子
      教育
      家居

      這些新療法,讓化療不再那么痛苦

      旅游要聞

      解鎖東方慢生活,年末來南京玄武逛“雅集”

      親子要聞

      母嬰下半場:科研與全齡的雙重突圍|世研消費指數(shù)品牌榜Vol.93

      教育要聞

      183cm初中生為了10塊錢撒嬌,家長無奈吐槽:已經激發(fā)不出母愛了

      家居要聞

      法式大平層 智能家居添彩

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 热99re久久精品这里都是精品| 鲁鲁美女影院| 亚洲AV无码久久精品色欲| 欧美顶级裸体met自慰| 毛多水多高潮高清视频| 色爱综合网| 亚洲人成18在线看久| 久久精品国产99久久久古代| 亚洲精品666| 亚洲区视频| 在线播放国产一区二区三区| 一本色道久久综合精品婷婷| 91视频在线观看18| 国产无遮挡又黄又爽免费网站| 亚洲精选成人| av在线自偷自拍| 九九成人免费视频| 精品人妻一二| 韩国无码一区二区三区| 亚洲国产精品久久久久秋霞影院 | 亚洲3p无码一区二区三区| 小泽玛利亚一区| 人妻精品动漫h无码| 美女视频黄频大全免费| 无码人妻aⅴ一区二区三区69岛| 熟妇与黑人一区二区三区乱码| 毛片无遮挡高清免费| 亚洲午夜精品久久久久久浪潮| 免费专区——色哟哟| 亚洲AV第二区国产精品| 国模和精品嫩模私拍视频 | 国产亚州精品女人久久久久久| 久久夜色撩人精品国产小说| 亚洲成A人| 1024精品| 亚洲国产精品久久久天堂麻豆宅男| 女女互磨互喷水高潮les呻吟| 国产精品国产三级国产专播| 亚洲avav| 国产二区三区不卡免费| 久久婷婷五月天|