網易首頁 > 網易號 > 正文申請入駐

“AI預測未來”！碾壓馬斯克Grok-4！國產 AI登頂全球

2026-04-05 08:37:09　來源: 鈦媒體APP

北京舉報

分享至

大模型圈，變天了。

2026年3月29日，一份名為FutureX的全球動態評測榜單刷新了成績。北京中關村學院信息智能團隊自主研發的智能體系統Milkyway，以60.9分的絕對優勢霸榜！

這個分數有多夸張？

作為對比，由埃隆·馬斯克（Elon Musk）旗下xAI打造、曾被寄予厚望的Grok-4，在這份榜單上僅拿到了25.9分。Milkyway的得分是它的一倍還多（Grok-4曾拿下該項目的首期冠軍）。

陳天橋團隊的MiroFlow框架（搭載GPT-5等），得分也高達57.5分。它在最難的Level 4依然能逼近50分大關，對復雜不確定性的掌控力令人驚嘆。

智譜的GLM-5-thinking則拿到37.3分，深度求索的DeepSeek-V3.2-thinking拿下31.2分。阿里的千問Qwen-3.5-plus-thinking則拿到26.9分，位列第17。

Grok-4以25.9分排在第18位。馬斯克曾公開斷言：“預測未來的能力，是對模型智能性最好的測試。”

如今，這場關于“預言能力”的殘酷試煉，撕下了傳統大模型靠“刷靜態題庫”營造的遮羞布。

誰在成功預判真實世界？

過去幾年，所有前沿大模型在MMLU、HumanEval這些傳統學術題庫里，幾乎都能輕松刷出90%以上的高分。

但商業世界不需要做題家。市場真正關心的是：大模型能預測下周某款爆品的銷量嗎？能判斷地緣博弈的走向嗎？

一部分敏銳的頂尖團隊已經交出了答卷。在FutureX已經公開的過往實戰記錄（FutureX-Past數據集）中，記錄了大量被AI智能體成功拆解的真實世界考題：

比如微觀商業。 AI需要在2025年底，通過自主抓取網頁和歷史數據，預測Temu美國區特定商戶在12月5日的某款商品精準銷量。

比如宏觀氣候。 AI需要基于NASA的Gistemp數據，推演12月全球平均氣溫相較于歷史基準期的偏差。

甚至還有高度嘈雜的地緣政治與體育賽事。 預測誰能進入2026年1月葡萄牙總統選舉的第二輪；預測墨西哥甲級聯賽中，克雷塔羅足球俱樂部對陣蒂華納的賽果。

面對這些問題，瞎蒙是沒有用的。系統必須像頂級情報分析師一樣，在全球碎片化的蛛絲馬跡中搜尋信號，過濾虛假新聞，最終給出一個沒有模糊空間的答案。

對錯，全由現實世界來裁定。

AI告別開卷考試

為什么各大巨頭現在都盯著FutureX？因為它是真正的“閉卷實戰”。

這個由字節跳動Seed團隊、斯坦福大學、復旦大學和普林斯頓大學等聯合發起的國際評測基準，徹底干掉了一個大模型作弊的溫床——數據污染。

以往的靜態考題，模型在訓練時可能早就把答案背下來了。但FutureX考的是尚未揭曉的未來事件。它每天從全球195個高質量信源中實時提取新考題，模型根本無從作弊。

FutureX采用的是“折疊式”評分邏輯，拒絕模型靠蒙對簡單的“是與否”來刷分。它大幅壓縮了二元對立事件的數量，并將難度分為四個等級：

Level 1 是基礎事件，權重僅占10% 8。

Level 2 考察有變量的趨勢預測，占20% 8。

Level 3（多步深度推理）與 Level 4（極高不確定性的宏觀預測）作為難點資產，合計占了總分的70%。

這就像是一張考卷，前面的選擇題只占30分，剩下70分全是需要海量推演的壓軸大題。

階層固化與偏科大賞：各家大模型的殘酷折疊

在這種高壓測試下，2026年3月的真實榜單展現出了極其冰冷的技術分化。

以被其他家反超的Grok-4為例，拆解Grok-4的成績單會發現一個致命弱點：它在Level 1的簡單任務里拿了71.43的高分，但在需要深度推理的Level 3，得分卻發生了斷崖式下跌，僅有8.21分。而以第三方Agent接入的基礎模型GPT5.2更是慘烈，如同失去方向感的盲人，僅得10.3分。

不過，總分拉胯不代表全盤皆輸。為了更精準地衡量大模型的工業落地能力，FutureX專門設立了“細分預測任務”（涵蓋基礎事件與要求極高精度的FutureX-Pro垂直領域），這直接暴露了各家大模型的“偏科”體質：

政治與科技領域：擅長邏輯推理的GPT-5分別以72%和68%的準確率稱霸，DeepSeek-R1和Claude-3.7緊隨其后。

體育賽事（高頻動態博弈）：DeepSeek-R1拔得頭籌（64%），Claude-3.7（60%）排在次席。

金融（FutureX-Finance）：要求預測財報和宏觀指標，誤差必須控制在5%以內。GPT-5-high和Grok-4在這里找回了主場，分別以46.37和41.25分領跑。

零售（FutureX-Retail）：考驗銷量與供應鏈預測。Claude-Opus和Kimi-K2展現出極強的“商業直覺”，在評估不確定性的概率分布任務上得分最高。

公共衛生（FutureX-PublicHealth）：解讀官方公報預測疾病指標。GPT-5-High和Kimi-K2-thinking憑借極高的問題覆蓋率占據榜首。

此外，字節的豆包（Seed1.6）和谷歌的Gemini Deep Research也在各類高難度交叉分析榜單中穩居前四。

Milkyway和MiroMind之所以能在綜合榜單上超越這些“偏科”的算力怪獸，秘密不在于參數量，而在于“Harness層（腳手架）”和“驗證機制”的深度攻關。它們引入了DAG（有向無環圖）推理協議和雙層驗證器。簡單來說，它們在模型內部建了一個“風控中臺”，每搜索一條信息、每推理一步，都有機制在實時審計，強制糾錯。

一個時代結束了，新的機會正在升起

FutureX的榜單更迭，不僅僅是一場技術極客的狂歡，它向所有創業者和普通人釋放了一個強烈的信號：

第一，套殼聊天的時代結束了。

大模型的價值不再是寫幾首詩、寫幾封郵件，而是走向“Action Engine（行動引擎）”。誰能幫企業在紅海物流停擺前提前兩周調整供應鏈？誰能在金融市場里捕捉到微弱的宏觀信號？高價值的“預見力”才是下一步的真金白銀。

第二，產業鏈的縫隙藏著大機會。

沒有哪一個模型能夠通吃所有細分領域。這正是創業者的機會。搭建更優秀的智能體外殼（Agent Harness）、設計更抗干擾的驗證流、在特定垂直領域（如零售銷量、病理演變、區域地緣）投喂高質量的反饋信號。

未來的贏家，不一定是擁有最多GPU的人，但一定是最懂如何在不確定性中建立規則、馴服AI的人。（本文首發鈦媒體App，作者｜硅谷Technews，編輯｜林深）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.