<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型預言家誕生!中國團隊登頂全球榜單,馬斯克預言被改寫?

      0
      分享至



      大模型圈,變天了。

      近日,一份名為FutureX的全球動態評測榜單刷新了成績。北京中關村學院信息智能團隊自主研發的智能體系統Milkyway,以60.9分的絕對優勢霸榜!



      這個分數有多夸張?

      作為對比,由埃隆·馬斯克(Elon Musk)旗下xAI打造、曾被寄予厚望的Grok-4,在這份榜單上僅拿到了25.9分。Milkyway的得分是它的一倍還多(Grok-4曾拿下該項目的首期冠軍)。

      陳天橋團隊的MiroFlow框架(搭載GPT-5等),得分也高達57.5分。它在最難的Level 4依然能逼近50分大關,對復雜不確定性的掌控力令人驚嘆。



      智譜的GLM-5-thinking則拿到37.3分,深度求索的DeepSeek-V3.2-thinking拿下31.2分。阿里的千問Qwen-3.5-plus-thinking則拿到26.9分,位列第17。

      Grok-4以25.9分排在第18位。馬斯克曾公開斷言:“預測未來的能力,是對模型智能性最好的測試。”



      如今,這場關于“預言能力”的殘酷試煉,撕下了傳統大模型靠“刷靜態題庫”營造的遮羞布。

      過去幾年,所有前沿大模型在MMLU、HumanEval這些傳統學術題庫里,幾乎都能輕松刷出90%以上的高分。

      但商業世界不需要做題家。市場真正關心的是:大模型能預測下周某款爆品的銷量嗎?能判斷地緣博弈的走向嗎?

      一部分敏銳的頂尖團隊已經交出了答卷。在FutureX已經公開的過往實戰記錄(FutureX-Past數據集)中,記錄了大量被AI智能體成功拆解的真實世界考題:

      比如微觀商業。AI需要在2025年底,通過自主抓取網頁和歷史數據,預測Temu美國區特定商戶在12月5日的某款商品精準銷量。

      比如宏觀氣候。AI需要基于NASA的Gistemp數據,推演12月全球平均氣溫相較于歷史基準期的偏差。

      甚至還有高度嘈雜的地緣政治與體育賽事。預測誰能進入2026年1月葡萄牙總統選舉的第二輪;預測墨西哥甲級聯賽中,克雷塔羅足球俱樂部對陣蒂華納的賽果。

      面對這些問題,瞎蒙是沒有用的。系統必須像頂級情報分析師一樣,在全球碎片化的蛛絲馬跡中搜尋信號,過濾虛假新聞,最終給出一個沒有模糊空間的答案。

      對錯,全由現實世界來裁定。

      為什么各大巨頭現在都盯著FutureX?因為它是真正的“閉卷實戰”。

      這個由字節跳動Seed團隊、斯坦福大學、復旦大學和普林斯頓大學等聯合發起的國際評測基準,徹底干掉了一個大模型作弊的溫床——數據污染。

      以往的靜態考題,模型在訓練時可能早就把答案背下來了。但FutureX考的是尚未揭曉的未來事件。它每天從全球195個高質量信源中實時提取新考題,模型根本無從作弊。

      FutureX采用的是“折疊式”評分邏輯,拒絕模型靠蒙對簡單的“是與否”來刷分。它大幅壓縮了二元對立事件的數量,并將難度分為四個等級:



      Level 1是基礎事件,權重僅占10% 8。

      Level 2考察有變量的趨勢預測,占20% 8。

      Level 3(多步深度推理)與Level 4(極高不確定性的宏觀預測)作為難點資產,合計占了總分的70%。

      這就像是一張考卷,前面的選擇題只占30分,剩下70分全是需要海量推演的壓軸大題。



      在這種高壓測試下,2026年3月的真實榜單展現出了極其冰冷的技術分化。

      以被其他家反超的Grok-4為例,拆解Grok-4的成績單會發現一個致命弱點:它在Level 1的簡單任務里拿了71.43的高分,但在需要深度推理的Level 3,得分卻發生了斷崖式下跌,僅有8.21分。而以第三方Agent接入的基礎模型GPT5.2更是慘烈,如同失去方向感的盲人,僅得10.3分。

      不過,總分拉胯不代表全盤皆輸。為了更精準地衡量大模型的工業落地能力,FutureX專門設立了“細分預測任務”(涵蓋基礎事件與要求極高精度的FutureX-Pro垂直領域),這直接暴露了各家大模型的“偏科”體質:



      政治與科技領域:擅長邏輯推理的GPT-5分別以72%和68%的準確率稱霸,DeepSeek-R1和Claude-3.7緊隨其后。

      體育賽事(高頻動態博弈):DeepSeek-R1拔得頭籌(64%),Claude-3.7(60%)排在次席。

      金融(FutureX-Finance):要求預測財報和宏觀指標,誤差必須控制在5%以內。GPT-5-high和Grok-4在這里找回了主場,分別以46.37和41.25分領跑。

      零售(FutureX-Retail):考驗銷量與供應鏈預測。Claude-Opus和Kimi-K2展現出極強的“商業直覺”,在評估不確定性的概率分布任務上得分最高。

      公共衛生(FutureX-PublicHealth):解讀官方公報預測疾病指標。GPT-5-High和Kimi-K2-thinking憑借極高的問題覆蓋率占據榜首。

      此外,字節的豆包(Seed1.6)和谷歌的Gemini Deep Research也在各類高難度交叉分析榜單中穩居前四。

      Milkyway和MiroMind之所以能在綜合榜單上超越這些“偏科”的算力怪獸,秘密不在于參數量,而在于“Harness層(腳手架)”和“驗證機制”的深度攻關。它們引入了DAG(有向無環圖)推理協議和雙層驗證器。簡單來說,它們在模型內部建了一個“風控中臺”,每搜索一條信息、每推理一步,都有機制在實時審計,強制糾錯。

      FutureX的榜單更迭,不僅僅是一場技術極客的狂歡,它向所有創業者和普通人釋放了一個強烈的信號:

      第一,套殼聊天的時代結束了。

      大模型的價值不再是寫幾首詩、寫幾封郵件,而是走向“Action Engine(行動引擎)”。誰能幫企業在紅海物流停擺前提前兩周調整供應鏈?誰能在金融市場里捕捉到微弱的宏觀信號?高價值的“預見力”才是下一步的真金白銀。

      第二,產業鏈的縫隙藏著大機會。

      沒有哪一個模型能夠通吃所有細分領域。這正是創業者的機會。搭建更優秀的智能體外殼(Agent Harness)、設計更抗干擾的驗證流、在特定垂直領域(如零售銷量、病理演變、區域地緣)投喂高質量的反饋信號。

      未來的贏家,不一定是擁有最多GPU的人,但一定是最懂如何在不確定性中建立規則、馴服AI的人。

      聲明:個人原創,僅供參考

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      事實證明,73歲無兒無女的遲重瑞,早已被陳麗華“安排”好了后路

      事實證明,73歲無兒無女的遲重瑞,早已被陳麗華“安排”好了后路

      鄉野小珥
      2026-04-08 17:29:22
      貝爾湖的歸屬終于有了結果?歷經8年艱苦談判,我國拿回多少面積

      貝爾湖的歸屬終于有了結果?歷經8年艱苦談判,我國拿回多少面積

      抽象派大師
      2026-04-09 14:45:59
      岳父剛被查,言之鑿鑿的女婿又落馬了

      岳父剛被查,言之鑿鑿的女婿又落馬了

      正經社
      2026-04-09 15:14:15
      張嘉譯西安別墅慶生,染完頭發直接年輕10歲,年紀越大越有魅力!

      張嘉譯西安別墅慶生,染完頭發直接年輕10歲,年紀越大越有魅力!

      柒佰娛
      2026-04-09 09:52:39
      后續!福建車輛墜河5死:親屬發聲曝事發經過,提供二手車新線索

      后續!福建車輛墜河5死:親屬發聲曝事發經過,提供二手車新線索

      生活魔術專家
      2026-04-09 13:06:05
      深感痛心!深圳市衛健委深夜發布情況說明

      深感痛心!深圳市衛健委深夜發布情況說明

      梅斯醫學
      2026-04-09 09:21:21
      太黑了!315晚會后,最先塌房的不是奶茶,也不是辣條,而是雞蛋

      太黑了!315晚會后,最先塌房的不是奶茶,也不是辣條,而是雞蛋

      小熊侃史
      2026-04-07 07:20:08
      孫楊張豆豆官宣生娃!諸多細節被扒,兩人相親認識,21年確認關系

      孫楊張豆豆官宣生娃!諸多細節被扒,兩人相親認識,21年確認關系

      八斗小先生
      2026-04-09 17:24:02
      16歲四肢癱瘓少女誤買2000多元鄧紫棋演唱會門票,平臺不予退票,父親急哭:女兒根本無法去看,這些錢是全家一個月的生活費

      16歲四肢癱瘓少女誤買2000多元鄧紫棋演唱會門票,平臺不予退票,父親急哭:女兒根本無法去看,這些錢是全家一個月的生活費

      大象新聞
      2026-04-09 16:45:05
      尺度之大真是驚到我了,一定會再次消失

      尺度之大真是驚到我了,一定會再次消失

      戰爭電影精選
      2026-04-08 18:23:07
      每隊幾乎都報滿4名職業球員贊助總金額翻了好幾倍蘇超初心還在嗎

      每隊幾乎都報滿4名職業球員贊助總金額翻了好幾倍蘇超初心還在嗎

      林子說事
      2026-04-09 14:28:57
      上半年北京小客車指標資格審核結果公布,無車家庭積分本月發布

      上半年北京小客車指標資格審核結果公布,無車家庭積分本月發布

      新京報
      2026-04-09 14:20:06
      此人屠殺百萬民眾,卻被專家吹捧為千古完人、民族英雄,實在可笑

      此人屠殺百萬民眾,卻被專家吹捧為千古完人、民族英雄,實在可笑

      長風文史
      2026-04-07 20:53:07
      新華社權威快報|中國自貿試驗區擴圍至23個 新增內蒙古

      新華社權威快報|中國自貿試驗區擴圍至23個 新增內蒙古

      新華社
      2026-04-09 17:01:03
      晚飯七分飽被推翻了?醫生調查:過了56歲,吃飯盡量要做到這5點

      晚飯七分飽被推翻了?醫生調查:過了56歲,吃飯盡量要做到這5點

      蜉蝣說
      2026-02-03 15:00:19
      55年授銜時,毛主席流淚道:若澤覃還在,我們毛家可能會出個將軍

      55年授銜時,毛主席流淚道:若澤覃還在,我們毛家可能會出個將軍

      抽象派大師
      2026-04-09 14:42:02
      5-0!5-2!亞洲杯8強對陣出爐!中國女足確定對手,進世界杯穩了

      5-0!5-2!亞洲杯8強對陣出爐!中國女足確定對手,進世界杯穩了

      林子說事
      2026-04-09 12:52:16
      56歲魯豫坐竹椅瘦脫相!手骨像枯枝,這病態美讓人心疼又上頭?

      56歲魯豫坐竹椅瘦脫相!手骨像枯枝,這病態美讓人心疼又上頭?

      娛樂領航家
      2026-02-12 23:00:04
      中國寧可向美國購買轉基因大豆,也不考慮俄羅斯,到底是為什么?

      中國寧可向美國購買轉基因大豆,也不考慮俄羅斯,到底是為什么?

      文史道
      2026-03-20 06:45:03
      外媒:人麻了,特朗普神助攻,將中國人民幣變成世界下一個安全港

      外媒:人麻了,特朗普神助攻,將中國人民幣變成世界下一個安全港

      通鑒史智
      2026-04-09 11:54:51
      2026-04-09 22:59:00
      哭藍了海a
      哭藍了海a
      哭藍了海
      457文章數 80關注度
      往期回顧 全部

      科技要聞

      Meta凌晨首發閉源大模型 扎克伯格又行了?

      頭條要聞

      白宮打擊伊朗決策內幕披露:魯比奧曾直言以計劃亂扯

      頭條要聞

      白宮打擊伊朗決策內幕披露:魯比奧曾直言以計劃亂扯

      體育要聞

      8萬人面前心臟驟停 現在他還站在球場上

      娛樂要聞

      金莎官宣結婚 與老公孫丞瀟相差18歲

      財經要聞

      停火又懸了,最糟糕的情況要來了?

      汽車要聞

      文飛掌舵,給神行者帶來了什么?

      態度原創

      家居
      教育
      藝術
      手機
      公開課

      家居要聞

      清新自然 復古風尚

      教育要聞

      小學競賽題:家長表示超綱了,學霸解法太妙了

      藝術要聞

      龐茂琨 2026油畫寫生新作

      手機要聞

      摩托羅拉小折疊渲染圖曝光,大小折疊屏都將發布

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版