海外對美團開源的這個模型 LongCat-Flash 評價不錯啊,刷到好幾個介紹貼了。
基準測試與 DeepSeek-V3、Qwen3 等差不多,同時推理速度非常快,比DeepSeek-V3 快了至少一倍,在千億參數量下,還能用低成本實現100 tokens/秒的推理速度,非常經濟了可以說。
仔細看了一下論文和介紹記個筆記
MoE 模型總參數 560B,激活參數平均 27B,能根據上下文自適應激活參數數量。
在 20T 數據上訓練,數據處理包括:長上下文擴展,預處理有抽取、過濾和去重。
得益于“Zero-Computational expert”機制。模型架構創新包括每層有兩個注意力塊(Attention block),同時包含前饋網絡(FFN)和混合專家(MoE),并引入零計算專家作為“匯聚點”,讓簡單 token 可以選擇不計算,提升效率。
負載均衡方面,采用類似 dsv3 的輔助損失和衰減機制。擴展性上,模型先訓練小模型再堆疊擴展,并用超參數遷移優化。穩定性方面,跟蹤梯度范數比和專家余弦相似度,采用 z-loss 控制激活值,優化 Adam epsilon。
生僻概念解釋:
Zero-Computational expert(零計算專家):模型中的一種特殊專家,token 可以選擇它而不進行實際計算,相當于“跳過”處理,節省算力。
dsv3(輔助損失機制):用于負載均衡的損失函數,幫助模型合理分配 token 到不同專家。
z-loss:一種正則化損失,用于控制隱藏狀態的激活值,防止梯度爆炸。
Adam epsilon:Adam 優化器中的一個參數,影響數值穩定性,設得很小可以提升訓練精度。
模型可以在這里體驗:https://longcat.chat/
![]()
![]()
![]()
![]()
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.