
作者 | Robert Krzaczyński
譯者 | 平川
Hugging Face 發布了 FineTranslations,這是一個大規模多語言數據集,包含覆蓋英語和其他 500 多種語言的并行文本、超過 1 萬億個 Token。該數據集是通過使用 Gemma3 27B 將 FineWeb2 語料庫中的非英語內容翻譯成英語來創建的,整個數據生成流程被設計成可復現且公開可查的。
該數據集主要用于提高機器翻譯的質量,特別是將英語翻譯成其他語言。對于許多資源比較少的語言,效果還比較差。通過將非英語的原始文本翻譯成英語,FineTranslations 提供了適用于對現有翻譯模型進行微調的大規模并行數據。內部評估表明,在訓練僅限英語的模型時,生成的英語文本效果與 FineWeb 相當,并且這些數據可以在翻譯之外的任務中重用。
除了翻譯之外,Hugging Face 報告稱,生成的英語語料庫保留了源語言的大量文化和上下文信息。在內部實驗中,使用翻譯后的英語文本訓練出來的模型,其性能與使用原始 FineWeb 數據集訓練的模型相當。這表明,對于僅限英語的模型預訓練來說,FineTranslations 也可以作為一個高質量的補充。
該數據集來源于 FineWeb2,它聚合了 2013 年至 2024 年間從 CommonCrawl 快照中收集的多語言 Web 內容。為了減少由高度重復或特定領域內容(如宗教文本和維基百科頁面)所導致的偏差,其中只包含 bible_wiki_ratio 低于 0.5 的語言子集。每種語言最多處理了 500 億個 Token,優先應用 FineWeb2-HQ 的質量分類器(如有可用),否則使用隨機抽樣。
Hugging Face 使用 datatrove 框架 完成了大規模的翻譯工作。該框架在 Hugging Face 集群上實現了強大的檢查點機制、異步執行和 GPU 的高效利用。文檔被分割成最多包含 512 個 Token 的塊,為了保持跨段落上下文的連貫性,他們采用了滑動窗口策略。為了減輕大規模翻譯中常見的問題,Hugging Face 引入了額外的保護措施,包括早期對惡意或垃圾內容的分類、嚴格的格式約束,以及確保換行與結構一致性的后處理流程。
每個數據集條目包含原始文本塊和翻譯文本塊、語言和字符集標識符、Token 計數、教育質量評分,以及指向原始 CommonCrawl 數據源的引用。該數據集可通過 Hugging Face 數據集庫訪問(支持流式處理,可進行大規模處理),或直接通過基于 datatrove 的管道使用。
Achref Karoui 在評論此次發布時表示:
太棒了!這次發布將彌合差距,讓各個社區都能夠更好地將流行模型與他們的語言相匹配。
FineTranslations 現已在 Hugging Face 上提供。該數據集遵循開放數據共享署名(ODC-By)v1.0 許可,其使用受 CommonCrawl 的條款約束。
https://www.infoq.com/news/2026/01/huggingface-fine-translations/
聲明:本文為 InfoQ 翻譯,未經許可禁止轉載。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.