網易首頁 > 網易號 > 正文申請入駐

Hugging Face 發布 FineTranslations：一個萬億級的多語言平行文本數據集

2026-01-29 14:57:46　來源: InfoQ

北京舉報

分享至

作者 | Robert Krzaczyński

譯者 | 平川

Hugging Face 發布了 FineTranslations，這是一個大規模多語言數據集，包含覆蓋英語和其他 500 多種語言的并行文本、超過 1 萬億個 Token。該數據集是通過使用 Gemma3 27B 將 FineWeb2 語料庫中的非英語內容翻譯成英語來創建的，整個數據生成流程被設計成可復現且公開可查的。

該數據集主要用于提高機器翻譯的質量，特別是將英語翻譯成其他語言。對于許多資源比較少的語言，效果還比較差。通過將非英語的原始文本翻譯成英語，FineTranslations 提供了適用于對現有翻譯模型進行微調的大規模并行數據。內部評估表明，在訓練僅限英語的模型時，生成的英語文本效果與 FineWeb 相當，并且這些數據可以在翻譯之外的任務中重用。

除了翻譯之外，Hugging Face 報告稱，生成的英語語料庫保留了源語言的大量文化和上下文信息。在內部實驗中，使用翻譯后的英語文本訓練出來的模型，其性能與使用原始 FineWeb 數據集訓練的模型相當。這表明，對于僅限英語的模型預訓練來說，FineTranslations 也可以作為一個高質量的補充。

該數據集來源于 FineWeb2，它聚合了 2013 年至 2024 年間從 CommonCrawl 快照中收集的多語言 Web 內容。為了減少由高度重復或特定領域內容（如宗教文本和維基百科頁面）所導致的偏差，其中只包含 bible_wiki_ratio 低于 0.5 的語言子集。每種語言最多處理了 500 億個 Token，優先應用 FineWeb2-HQ 的質量分類器（如有可用），否則使用隨機抽樣。

Hugging Face 使用 datatrove 框架完成了大規模的翻譯工作。該框架在 Hugging Face 集群上實現了強大的檢查點機制、異步執行和 GPU 的高效利用。文檔被分割成最多包含 512 個 Token 的塊，為了保持跨段落上下文的連貫性，他們采用了滑動窗口策略。為了減輕大規模翻譯中常見的問題，Hugging Face 引入了額外的保護措施，包括早期對惡意或垃圾內容的分類、嚴格的格式約束，以及確保換行與結構一致性的后處理流程。

每個數據集條目包含原始文本塊和翻譯文本塊、語言和字符集標識符、Token 計數、教育質量評分，以及指向原始 CommonCrawl 數據源的引用。該數據集可通過 Hugging Face 數據集庫訪問（支持流式處理，可進行大規模處理），或直接通過基于 datatrove 的管道使用。

Achref Karoui 在評論此次發布時表示：

太棒了！這次發布將彌合差距，讓各個社區都能夠更好地將流行模型與他們的語言相匹配。

FineTranslations 現已在 Hugging Face 上提供。該數據集遵循開放數據共享署名（ODC-By）v1.0 許可，其使用受 CommonCrawl 的條款約束。

https://www.infoq.com/news/2026/01/huggingface-fine-translations/

聲明：本文為 InfoQ 翻譯，未經許可禁止轉載。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.