<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      馬斯克押注的"預言測試",自家AI差點墊底

      0
      分享至


      2026年3月29日,一份叫FutureX的全球榜單更新了。北京中關村學院信息智能團隊做的Milkyway系統,拿了60.9分,直接登頂。

      作為參照,馬斯克旗下xAI的Grok-4,只拿到25.9分。Milkyway比它高出一倍還多——而Grok-4曾經是這榜單的首期冠軍。

      陳天橋團隊的MiroFlow框架(用的GPT-5),也有57.5分。它在最難的Level 4還能逼近50分,對復雜不確定性的把控相當穩。

      智譜GLM-5-thinking 37.3分,DeepSeek-V3.2-thinking 31.2分,阿里Qwen-3.5-plus-thinking 26.9分排第17。

      Grok-4以25.9分落在第18位。馬斯克說過:"預測未來的能力,是對模型智能性最好的測試。"

      這場"預言能力"的試煉,把傳統大模型靠"刷靜態題庫"撐起來的體面,撕了個口子。

      過去幾年,主流大模型在MMLU、HumanEval這些學術題庫里,基本都能刷到90%以上。但商業世界不需要做題家。市場真正想問的是:能預測下周哪款爆品賣爆嗎?能判斷地緣博弈往哪走嗎?

      一部分團隊已經交卷了。FutureX公開的實戰記錄里,存著大量被AI成功拆解的真實考題:

      微觀商業——2025年底,AI自主抓取網頁和歷史數據,預測Temu美國區某商戶12月5日的單品銷量。

      宏觀氣候——基于NASA的Gistemp數據,推演12月全球平均氣溫較歷史基準的偏差。

      甚至還有地緣政治和體育賽事——2026年1月葡萄牙總統選舉誰能進第二輪;墨西哥甲級聯賽克雷塔羅對蒂華納的賽果。

      這些問題,瞎蒙沒用。系統得像頂級情報分析師,在全球碎片信息里找信號、過濾假新聞,最后給出一個不帶模糊地帶的答案。

      為什么巨頭都在盯FutureX?因為它是真正的"閉卷實戰"。

      這個由字節Seed、斯坦福、復旦、普林斯頓等聯合發起的評測基準,干掉了一個作弊溫床——數據污染。

      以前的靜態考題,模型訓練時可能早就背過答案。但FutureX考的是還沒發生的未來事件。它每天從全球195個信源實時抽新題,模型根本沒法提前準備。

      FutureX用"折疊式"評分,拒絕靠蒙"是與否"刷分。它壓縮了二元對立事件的數量,難度分四級:

      Level 1基礎事件,權重只占10%。

      Level 2考察帶變量的趨勢預測,占20%。

      Level 3(多步深度推理)和Level 4(極高不確定性的宏觀預測)合計占70%——前面選擇題30分,后面70分全是壓軸大題。

      這種高壓測試下,2026年3月的榜單呈現出冰冷的技術分化。

      以被反超的Grok-4為例,拆解成績單會發現致命傷:Level 1簡單任務拿了71.43分,但Level 3深度推理斷崖跌到8.21分。而第三方Agent接入的GPT5.2更慘,像失去方向感的盲人,僅得10.3分。

      不過總分低不代表全輸。FutureX專門設了"細分預測任務"(含基礎事件和高精度的FutureX-Pro垂直領域),直接暴露各家"偏科"體質:

      政治與科技:擅長邏輯推理的GPT-5以72%和68%準確率領跑,DeepSeek-R1和Claude-3.7跟上。

      體育賽事(高頻動態博弈):DeepSeek-R1第一(64%),Claude-3.7(60%)第二。

      金融(FutureX-Finance):預測財報和宏觀指標,誤差須控在5%以內。GPT-5-high和Grok-4找回主場,分別以46.37和41.25分領先。

      零售(FutureX-Retail):考驗銷量與供應鏈預測。Claude-Opus和Kimi-K2在評估不確定性概率分布上得分最高。

      公共衛生(FutureX-PublicHealth):解讀官方公報預測疾病指標。GPT-5-High和Kimi-K2-thinking靠極高問題覆蓋率占榜首。

      此外,字節豆包(Seed1.6)和谷歌Gemini Deep Research在高難度交叉分析榜單里穩居前四。

      Milkyway和MiroFlow能在綜合榜超越這些"偏科"算力怪獸,秘密不在參數量,而在"Harness層(腳手架)"和"驗證機制"的深耕。它們引入DAG(有向無環圖)推理協議和雙層驗證器——在模型內部建了個"風控中臺",每搜一條信息、每推一步,都有機制實時審計、強制糾錯。

      FutureX的榜單更迭,不只是技術圈的狂歡。它向創業者和普通人釋放了一個信號:

      大模型的價值不再是寫詩寫郵件,而是走向"Action Engine(行動引擎)"。誰能在紅海物流停擺前兩周幫企業調供應鏈?誰能在金融市場里捕捉到微弱的宏觀信號?高價值的"預見力"才是下一步的真金白銀。

      沒有一個模型能通吃所有細分領域。這正是創業者的機會——搭更優的智能體外殼、設計更抗干擾的驗證流、在特定垂直領域投喂高質量反饋信號。

      未來的贏家,不一定是GPU最多的人,但一定是最懂如何在不確定性里建立規則、馴服AI的人。

      FutureX的每日考題仍在滾動更新。Milkyway團隊內部流傳著一個細節:系統在某次Level 4預測中,曾連續否決了37次自身推理路徑,直到第38次才輸出最終答案——而那次預測,與真實結果僅差1.2%。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      男孩偷自行車后續:被通報全校社死,寶媽拒不道歉,婆婆主動賠罪

      男孩偷自行車后續:被通報全校社死,寶媽拒不道歉,婆婆主動賠罪

      潮鹿逐夢
      2026-04-07 11:42:53
      突發!伊朗大規模導彈襲擊,全球市場應聲跳水

      突發!伊朗大規模導彈襲擊,全球市場應聲跳水

      魏家東
      2026-04-07 14:12:21
      美媒稱美軍襲擊伊朗哈爾克島上的軍事目標

      美媒稱美軍襲擊伊朗哈爾克島上的軍事目標

      界面新聞
      2026-04-07 19:34:07
      女首富陳麗華離世,被曝生前已分好遺產,遲重瑞放棄生育獲百億

      女首富陳麗華離世,被曝生前已分好遺產,遲重瑞放棄生育獲百億

      萌神木木
      2026-04-07 12:18:10
      伊朗、沙特 石化設施遭襲 油價直線飆升 美油漲破116美元

      伊朗、沙特 石化設施遭襲 油價直線飆升 美油漲破116美元

      每日經濟新聞
      2026-04-07 13:41:19
      85歲富商陳麗華去世,和老公互稱董事長遲先生,百億遺產早有安排

      85歲富商陳麗華去世,和老公互稱董事長遲先生,百億遺產早有安排

      新金牌娛樂觀察家
      2026-04-07 11:30:32
      吃了20年才知道,它竟是“天然葉酸”,現在正當季,常吃身體棒

      吃了20年才知道,它竟是“天然葉酸”,現在正當季,常吃身體棒

      阿龍美食記
      2026-04-07 10:42:05
      鄭麗文剛抵滬,沉默8天的賴清德重申愿和大陸交流,但有一個前提

      鄭麗文剛抵滬,沉默8天的賴清德重申愿和大陸交流,但有一個前提

      李健政觀察
      2026-04-07 18:22:06
      理想汽車高管:張雪三缸機繞開所有海外專利壁壘 解決了國產大排摩托卡脖子問題

      理想汽車高管:張雪三缸機繞開所有海外專利壁壘 解決了國產大排摩托卡脖子問題

      快科技
      2026-04-07 10:06:17
      繼續斬首,再次成功,為何伊朗破不了以色列的斬首戰術?

      繼續斬首,再次成功,為何伊朗破不了以色列的斬首戰術?

      高博新視野
      2026-04-07 08:00:11
      特朗普已做好開戰準備?王毅曾警告:中美一旦沖突,結局只有一個

      特朗普已做好開戰準備?王毅曾警告:中美一旦沖突,結局只有一個

      通鑒史智
      2026-04-07 09:52:15
      快訊!俄羅斯強勢介入了!

      快訊!俄羅斯強勢介入了!

      達文西看世界
      2026-04-07 17:59:10
      反詐老陳連續4年曬納稅證明:2025年收入42.3萬元,較2022年133.6萬元的總收入,其收入下降了超90萬元

      反詐老陳連續4年曬納稅證明:2025年收入42.3萬元,較2022年133.6萬元的總收入,其收入下降了超90萬元

      臺州交通廣播
      2026-04-07 18:46:55
      又一艘護衛艦被擊沉,俄羅斯這次真急了

      又一艘護衛艦被擊沉,俄羅斯這次真急了

      史政先鋒
      2026-04-07 10:22:32
      痛心!安徽失蹤6歲女孩,已遇害,兇手是熟人,正臉照曝光

      痛心!安徽失蹤6歲女孩,已遇害,兇手是熟人,正臉照曝光

      魔都姐姐雜談
      2026-04-07 04:25:35
      郭艾倫正式辟謠:我沒有被騙 被詐騙是造謠 要追究法律責任

      郭艾倫正式辟謠:我沒有被騙 被詐騙是造謠 要追究法律責任

      醉臥浮生
      2026-04-07 13:50:59
      拆解車企2025年報 賽力斯為何能站穩高端局

      拆解車企2025年報 賽力斯為何能站穩高端局

      銠財
      2026-04-07 17:33:20
      他貪腐1.54億元被判死緩,三“虎”被指受賄數額特別巨大

      他貪腐1.54億元被判死緩,三“虎”被指受賄數額特別巨大

      上觀新聞
      2026-04-07 12:39:10
      外交部回應鄭麗文率團訪問大陸:臺灣問題是中國內政

      外交部回應鄭麗文率團訪問大陸:臺灣問題是中國內政

      澎湃新聞
      2026-04-07 15:42:27
      事故調查報告:湖南湘潭一致3死爆燃事故,公司負責人因盲目救火遇難

      事故調查報告:湖南湘潭一致3死爆燃事故,公司負責人因盲目救火遇難

      澎湃新聞
      2026-04-07 17:04:26
      2026-04-07 20:19:00
      字節漫游指南
      字節漫游指南
      有態度網友ytd
      1193文章數 14關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      英媒:伊朗最高領袖病重昏迷 無法參與任何國家決策

      頭條要聞

      英媒:伊朗最高領袖病重昏迷 無法參與任何國家決策

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      本地
      旅游
      房產
      游戲
      公開課

      本地新聞

      跟著歌聲游安徽,聽古村回響

      旅游要聞

      春日登高正當時 濟南天橋這些登山好去處別錯過

      房產要聞

      猛料!又有世界500強級巨頭,低調買入海棠灣!

      大話西游手游通用套裝哪個好用?仙族首選容止,變身卡不再被克

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版