網易首頁 > 網易號 > 正文申請入駐

匿名大象模型被螞蟻認領！推理速度沖到第一，還能生成百萬小說

2026-04-22 15:14:37　來源: 智東西

北京舉報

分享至

智東西
作者李水青
編輯心緣

智東西4月22日報道，上周沖上OpenRouter熱榜（Trending）第一的匿名測試模型Elephant Alpha今早正式揭曉真身——螞蟻旗下的百靈模型Ling-2.6-flash。

匿名上線以來，該模型調用量持續增長，連續多日位列熱榜榜首，日均tokens調用量達100B級別。不少網友試用后表示印象深刻，有人稱這是“用過最快的模型”“token效率很高”。

螞蟻今日宣布正式推出Ling-2.6-flash。該模型總參數量104B，激活參數7.4B，為Instruct模型。如下圖所示，該模型在Agent相關基準上達到同尺寸SOTA水平，并在其他核心能力上表現出色。

Ling-2.6-flash追求的是在控制token消耗的前提下，保持對Agent任務的強競爭力，主要具備以下三大核心能力：

1、混合線性架構，釋放推理效率：通過引入混合線性架構，模型從底層優化計算效率。在4卡H20條件下，推理速度最快可達340 tokens/s，Prefill吞吐達到Nemotron-3-Super的2.2倍。

2、token效率優化，提升智效比：訓練過程中對token效率進行針對性校準，力求以更精簡輸出完成目標。在Artificial Analysis完整評測中，Ling-2.6-flash僅消耗15M tokens，約為Nemotron-3-Super等模型的1/10。

3、面向Agent場景定向增強：針對工具調用、多步規劃與任務執行能力持續打磨。在BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench等評測中，即使面對激活參數更大的模型，依然取得相近甚至SOTA級別的表現。

從智東西上周對該模型的實測來看，其在執行速度、指令響應、前端原型開發與長文件處理上表現高效，Agent規劃與工具調用能力較強，但在項目級應用開發上仍有局限。總體而言，這是一款在輕量級、高頻任務中具有優勢的高效模型。

▲智東西用該模型接入類OpenClaw產品生成泰國7日游攻略網站

Ling-2.6-flash將在OpenRouter與官方平臺同步提供一周免費API調用。

官方免費期結束后，平臺仍將提供每日50萬tokens免費額度；超出部分按量計費：輸入0.6元/百萬tokens，輸出1.8元/百萬tokens。模型的BF16、FP8、INT4等版本也將于近期開源。

OpenRouter體驗地址：
https://openrouter.ai/inclusionai/ling-2.6-flash:free

Ling-2.6-flash官方體驗及API地址：
https://ling.tbox.cn/chat

一、實測：秒級響應、指哪打哪，幾十分鐘產出百萬字長篇

智東西在體驗中首先嘗試了一些編程小項目，發現其響應速度和Agent工具調用能力較強。

首先是一個網站，這主要考察模型的前端能力。拿到開發任務后，該模型對網站的幾個核心組件進行了規劃，并主動為這一網站加入了明暗模式切換、移動端響應式設計等我們并未要求的功能，最終耗時1分鐘左右完成開發。

當我們要求它將網站的主色調改成綠色后，該模型用不到10秒鐘就完成了修改，其他大部分模型在處理修改任務時往往需要通讀上下文，逐一修改，花上幾分鐘。

而它基本做到了指哪兒打哪兒，這對于一些快速、高頻的網站調試需求是很實用的。

我們也試了試它有沒有打造項目級任務的能力，讓它根據自己的內部知識，復刻一個支付軟件。我們是在Kilo Code插件中體驗的模型編程，由該模型驅動的多個子Agent并行工作，進一步放大了它的輸出速度優勢，但是其最終打造的結果僅能算是一個原型。這種表現可能與其較小的參數量有關。

（更多體驗案例移步→《匿名模型“大象”攪局OpenRouter：100B參數沖到熱榜第一，實測結果如何》）

螞蟻官方也公布了一些Ling-2.6-flash的實戰演示：

在代碼場景，以網頁生成為例，Ling-2.6-flash兼具高審美表達與高速代碼生成能力，能準確調用前端組件與圖標庫，適合單頁面演示和原型制作中的快速驗證。

其INT4量化版本可在DGX Spark上運行，下面視頻為基于Ling-2.6-flash&DGX Spark 構建業界SOTA Hermes一體機教程。

Ling-2.6-flash結合Kilo Code可將視覺指令快速轉化為高質量界面，勝任個性化視覺風格生成、報刊級排版及周刊、報告等辦公內容的即時生成。

在文本場景，Ling-2.6-flash僅憑Prompt即可勝任多步驟文本任務執行，在指令遵循、文風調整與實時生成方面表現突出。

在Agent工具調用場景，該模型具備強大的上下文檢索、工具調用與高速響應能力，適合復雜信息處理與知識增強場景。

基于Ling-2.6-flash，長篇寫作助手autonovel可覆蓋世界觀設定、角色構建、大綱生成到正文創作的全流程，以200+ tokens/s的生成速度，僅需幾十分鐘即可產出百萬字長稿。

在需求整理和排期等真實工作場景中，Ling-2.6-flash能穩定參與信息檢索、任務拆解、內容處理與工具協同，具備較低的幻覺率與較高的結果可用性。

二、架構升級：推理吞吐最高提升4倍

Ling-2.6-flash延用了Ling 2.5的模型架構設計：在Ling 2.0架構基礎上引入混合線性注意力機制，通過增量訓練將GQA注意力機制升級為1:7的MLA+Lightning Linear高效混合架構。

得益于混合注意力機制與高度稀疏化的MoE架構，Ling-2.6-flash在推理效率上優勢顯著。與同尺寸級別的主流SOTA模型相比，首字響應更快，長輸出場景下的生成效率更高，Prefill吞吐與Decode吞吐最高均可達到約4倍提升。隨著上下文長度和生成長度增加，吞吐優勢進一步放大。

在預訓練階段，團隊通過大規模算子融合提升訓練效率；推理側則圍繞真實部署場景深度適配，使融合算子在融合粒度、實現路徑與數值行為上盡可能與訓練側保持一致。相關推理算子將隨linghe陸續開源。

針對不同精度場景，推理鏈路進行了系統性優化：

BF16推理：實現QK Norm+RoPE、Group RMSNorm+Sigmoid Gate等關鍵算子深度融合，MoE Router GEMM與LM Head GEMM采用BF16 Input+FP32 Output計算方式。

FP8推理：進一步融合RMSNorm、SwiGLU與量化算子，針對小Batch Size引入Split-K的Blockwise FP8 GEMM，以此帶來更高的系統吞吐、單用戶TPS、更短的等待時間，以及在真實交互場景下更穩定、更流暢的使用體驗。

在Artificial Analysis榜單的Output Speed維度測評中，Ling-2.6-flash以215 tokens/s的輸出速度處于第一梯隊。

三、更優性能，token消耗僅為同行十分之一

在Artificial Analysis的Intelligence vs. Output tokens對比中，Ling-2.6-flash展現了突出的token效率優勢：以15M output tokens實現了26分的Intelligence Index，在保持較強智能水平的同時將輸出消耗控制在相對更低的位置。相比部分依賴更長輸出換取更高分數的模型，它在“智能表現”與“輸出成本”之間取得了更優平衡。

對于開發者和企業場景而言，這種能力帶來的價值可能是更低的推理開銷、更快的首字響應、更短的整體生成時延，以及更流暢的交互體驗。

▲基于AA榜單的官方測評分數繪制

從token消耗看，在 Artificial Analysis Intelligence Index 的完整評測中，Ling-2.6-flash的總消耗僅為15M tokens，而Nemotron-3-Super等模型達到或超過110M tokens——僅用約1/10的token消耗完成同類評測任務，智效比更高。

四、強化學習特訓：Agent能力對標SOTA

為增強模型Agent能力，團隊顯著擴展了Ling-2.6-flash訓練數據的難度與廣度，依托自研的大規模高保真交互環境，進行了針對性的General Agent與Coding Agent強化學習（RL）訓練。

模型在指令遵循、工具調用、多步規劃及長程執行方面表現提升顯著，在BFCL-V4、TAU2-bench、SWE-bench Verified、PinchBench等榜單上表現優異。通過RL優化泛化性與穩定性，在Claude Code、Kilo Code、Qwen Code、Hermes Agent、OpenClaw等框架中均展現了良好的使用體驗。

此外，Ling-2.6-flash在通用知識、數學推理、指令遵循及長文本解析等維度保持優秀水準，各項指標對齊同尺寸SOTA模型。

結語：部分高復雜度場景受限，將繼續探索智效比邊界

經過一周的持續迭代和優化，Ling-2.6-flash在Agent場景的泛化性和穩定性方面獲得進一步提升。

Ling-2.6-flash在工具調用、多步規劃與長程任務執行等關鍵維度上實現了明顯提升。但百靈團隊坦言，部分高復雜度場景中，受限于推理深度，模型仍可能出現一定的工具幻覺；此外，在中英雙語自然切換、復雜指令遵循等方面仍有優化空間。

該模型后續迭代將繼續探索智效比的更優邊界，在保持高效推理特性的同時，進一步推動智能產出質量與token效率之間的深度平衡。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.