在 RAG(檢索增強生成)、語義搜索和大規模數據分析的浪潮中,嵌入模型(Embedding Model)是不可或缺的底層基石。然而,當前的 Embedding 研究正面臨兩大挑戰:
- 英語中心化偏見:多數模型在英文以及中文上表現強悍,但在其他中低資源語言上力不從心。
- 透明度鴻溝:頂尖模型(如 Gemini、Qwen3-Embedding 等)多為閉源 API 或僅開放權重,其訓練數據和方法論往往秘而不宣,嚴重阻礙了開源社區的復現與進化。
針對這些痛點,螞蟻集團聯合上海交通大學正式發布并開源了 F2LLM-v2。這不僅是一個性能霸榜的工具,更是對“開源透明”和“語言普惠”的一次深度踐行。
![]()
開源地址: GitHub:https://github.com/codefuse-ai/CodeFuse-Embeddings[1] Hugging Face:https://huggingface.co/collections/codefuse-ai/f2llm[2]1. 真正的“全開源”:數據、代碼、檢查點全量交付
與市面上許多閉源接口或黑盒模型不同,F2LLM 團隊始終堅持開源精神。
這一次,團隊精心構建了一個包含6000萬高質量樣本的訓練語料庫,涵蓋282種自然語言和40多種編程語言。最重要的是,這些數據全部源自公開資源,且團隊公開了完整的訓練配方、中間檢查點以及相關代碼。
這種全方位透明度不僅方便研究者復現,更為全球開發者構建真正包容、多語種的 AI 應用提供了肥沃的土壤。
2. 霸榜 11 項 MTEB,定義多語言 SOTA
F2LLM-v2 在 MTEB(最權威的大規模文本嵌入評測基準)上的表現堪稱驚艷。其14B與8B版本在 11 個 MTEB 分支榜單上摘得桂冠。
無論是歐洲語言、斯堪的納維亞語系,還是波斯語、越南語等中低資源語言,F2LLM-v2 均刷新了 SOTA 記錄。特別是在代碼搜索領域,F2LLM-v2 延續了 CodeFuse 家族的強項,與團隊數月前開源的代碼專用嵌入模型 C2LLM 并列第一,成為開發者構建智能化代碼庫檢索的首選。
![]()
3. 全尺寸布局:從 80M 到 14B 的極致覆蓋
為了適應從邊緣設備到大型數據中心的全場景需求,F2LLM-v2 推出了8 種不同尺寸的模型:
- 輕量級(80M / 160M / 330M):適用于對延遲極其敏感的終端應用。
- 主流級(0.6B / 1.7B / 4B):兼顧性能與效率。
- 重型(8B / 14B):為企業級檢索系統提供最高精度的語義表征。
值得關注的是,通過模型剪枝和知識蒸餾技術,小尺寸模型在推理效率大幅提升的同時保留了強大性能,打破了“小模型無高性能”的迷思。
同時,F2LLM-v2 家族的所有模型均支持套娃式表征,任意截取輸出嵌入的開頭維度即可獲得接近全維度的性能。這為開發者在存儲成本和檢索速度之間提供了極大的靈活權衡空間。
![]()
4. 結語:共同打造一個更包容、更透明的 AI 世界
F2LLM-v2 不僅僅是一個技術報告中的數字,它代表了開源社區的一種力量——不依賴封閉數據與技術,依然能做出世界頂級性能的模型。
無論你是正在構建多語言 RAG 系統的開發者,還是專注于向量表征的研究者,F2LLM-v2 都是一個值得點贊和深入挖掘的開源寶庫。
立刻加入開源社區,共同探索 F2LLM-v2 的無限可能!
- https://github.com/codefuse-ai/CodeFuse-Embeddings
- https://huggingface.co/collections/codefuse-ai/f2llm
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.