<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      黑馬AI橫掃預測市場!預測未來勝率已超過人類

      0
      分享至


      新智元報道

      編輯:Aeneas

      【新智元導讀】大模型能否預測未來?UniPat AI構建了一套完整的預測智能基礎設施,Echo,包含動態評測引擎、面向未來事件的訓練范式和預測專用模型EchoZ-1.0。在其公開的General AI Prediction Leaderboard上,EchoZ-1.0穩居第一,并在與Polymarket人類交易市場的直接對比中展現出顯著優勢。

      過去一年,預測能力越來越受到模型廠商的重視。但預測領域有一個根本性的驗證難題:你說你能預測未來,怎么證明?

      發布時的demo無法追溯,事后公布的案例存在選擇性偏差,通用基準測試衡量的是語言理解和推理能力,跟真實預測是兩碼事。

      UniPat AI近日發布的Echo系統,試圖用一套完整的基礎設施來回答這個問題。Echo由三個緊密耦合的組件構成:

      • 一個持續運轉的動態評測引擎,

      • 一套面向未來事件的后訓練流程(Train-on-Future),

      • 一個未來可能的AI原生預測API


      官網:https://echo.unipat.ai/

      Blog:https://unipat.ai/blog/Echo

      核心模型EchoZ-1.0是第一個在Train-on-Future范式下端到端訓練的大語言模型。

      在General AI Prediction Leaderboard 上(2026年3月數據),EchoZ-1.0以Elo 1034.2排名第一,領先 Google的Gemini-3.1-Pro(1032.2)和Anthropic的Claude-Opus-4.6(1017.2)。

      排行榜涵蓋12個模型,覆蓋政治、經濟、體育、科技、加密貨幣等7個領域,活躍題目超過1000道。


      EchoZ在排名魯棒性測試中穩定第一

      排名本身只是一個快照,排名的穩定性更值得關注。

      博客中披露了一組σ參數敏感性測試:調整Elo框架中的σ參數(控制Brier Score差異向勝率的轉化強度)從 0.01到0.50共9個取值,重新計算全部模型排名。

      這個參數簡單來說,就是控制「模型之間表現差距」會被放大到什么程度。

      EchoZ在全部9個分組均保持第一,是唯一排名未發生任何波動的模型。作為對比,GPT-5.2的排名在第2到第9之間波動過8個位次。

      更有說服力的一個細節是,EchoZ的競爭對手不僅有頂級大模型,還有預測市場上真實投入資金的人類交易者的聚合判斷,EchoZ的Elo分數顯著高于這條基線。與此同時,Echo官網公開了所有預測問題、模型輸出的概率分布和最終結算結果,任何人都可以回溯驗證。

      三個層面的可驗證性疊加在一起(動態排行榜、實盤市場對照、全量數據公開),構成了Echo與此前各種「AI 預測」最根本的區別。

      那么,EchoZ對人類預測者的實際優勢有多大?Unipat AI給出了一組分層對比:將EchoZ與人類市場在同一預測批次中的同一問題上進行比較,基于Brier Score計算勝率,按領域、預測期限和市場不確定性三個維度展開:


      • 政治與治理領域:EchoZ勝率63.2%

      • 長期預測(7天以上):EchoZ勝率59.3%

      • 市場不確定區間(人類信心55%-70%):EchoZ勝率57.9%

      一個值得注意的規律是:人類預測者越猶豫的場景(高不確定性、長時間跨度、復雜政治博弈)EchoZ的優勢反而越明顯。這暗示模型在信息整合和概率校準上的系統性優勢,恰好在人類直覺最不可靠的區域得到了最大程度的釋放。

      一個持續生長的評測引擎

      構建評測基準本身并不新鮮,但Echo的做法有一個關鍵差異:它構建的不是一個靜態的題庫,而是一個能夠自動出題、自動結算、持續更新排名的動態系統。

      為什么「動態」這件事很重要?

      拿一道具體的預測題來說:「2026年3月31日收盤時,全球市值最大的公司是哪家?」如果模型A在3月1日給出了預測,模型B在3月28日給出了預測,兩者的正確率能直接比較嗎?

      顯然不能。

      越接近結算時間,可用信息越多,預測難度越低。這就是現有預測基準的第一個結構性問題:時序不對稱。

      第二個問題是題源過于單一:現有基準的題目幾乎全部來自預測市場,偏向容易結算的二元問題,大量來自專業領域和新興話題的預測需求被遺漏了。

      Echo Leaderboard 的架構正是圍繞這兩個問題展開的。整套系統可以拆解為四個階段的持續循環:


      Echo 評測引擎構建流程

      第一步,數據采集。

      三條數據管道同時運行。

      第一條對接Polymarket等預測市場,篩選有明確結算規則和高質量共識信號的合約。

      第二條面向開放域,抓取Google Trends等實時趨勢,自動生成關于尚未發生事件的預測問題,由agent持續搜索進展并自動結算。

      第三條來自真實專業場景:科研、工程、醫療等領域的專家將自己工作流中有價值的預測題貢獻到系統中,并在預定時間點給出權威判定。

      從Polymarket上的大眾共識到實驗室里的專家判斷,三條管道覆蓋了一個相當完整的預測光譜。

      第二步,預測點調度。

      每道題不只做一次預測。系統使用對數調度算法,根據題目的結算周期長度分配多個prediction points(預測時間點),既保證了生命周期內的覆蓋密度,又控制了計算開銷。

      第三步,對戰構建。

      這是解決時序不對稱問題的關鍵環節。評測使用point-aligned Elo機制:嚴格只比較「同一道題、同一預測時間點」的結果。所有參賽模型在完全相同的信息上下文下對決,公平性由此建立。

      第四步,Elo評分更新。

      基于Bradley-Terry MLE算法計算全局排名。實驗數據顯示,這套框架對新加入模型的排名收斂速度是傳統Avg Brier方法的2.7倍。


      模型排名收斂速度對比

      這四步構成一個不斷循環的閉環:新題目持續流入,新的預測點持續觸發,對戰持續發生,排行榜持續更新。用一句話概括:

      Echo造了一把動態校準的尺子,而這把尺子本身也在不停生長。

      Train-on-Future:

      當推理過程本身成為訓練信號

      評測引擎解決了「怎么量」的問題,接下來要回答的是「怎么訓」。Echo 的訓練流程同樣是一套結構化的系統,UniPat稱之為Train-on-Future范式,由三個核心機制組成。

      在展開之前,有必要先理解傳統路徑(Train-on-Past)為什么走不通。用歷史事件的已知結果來訓練預測模型,面臨兩個很難繞過的困難。

      第一個是工程悖論:互聯網內容持續更新,用過去的事件做訓練題時,模型在搜索網頁的過程中幾乎必然會撞上包含答案的信息,數據泄露在工程實現上極難杜絕。

      第二個是結果導向偏差:現實事件充滿隨機性,一個邏輯嚴密的分析可能因為黑天鵝事件而給出「錯誤」答案,一個粗糙的猜測可能碰巧命中。直接用最終結果做訓練信號,模型很容易過擬合到噪聲上。

      Train-on-Future 的三個機制分別瞄準了這些問題:

      機制一:動態問題合成。

      與使用歷史題庫不同,Echo通過一條自動化管道,持續從實時數據流中生成關于未來事件的高信息量預測問題。因為每道題都關乎尚未發生的事件,訓練天然不存在數據泄露的問題。

      機制二:Automated Rubric Search。

      這是整個訓練范式中最有技術含量的部分。Echo的做法是:把訓練信號建立在推理過程的質量上,而非最終預測的對錯。但隨之而來的問題是,「好的推理過程」該如何定義?

      舉一個體育預測領域的具體例子。Echo的Rubric中有一個維度叫做Precursor and External Catalyst Evaluation」,評估模型是否利用高度相關的先行信號或外部驅動因素。

      得5分的標準是:識別具體的近期或即將發生的催化因素(如關鍵球員回歸、連續客場結束、關鍵對位變化),并分析這些因素與比賽結果之間的歷史關聯。

      得 1 分的標準是:僅泛泛提及「狀態不錯」或「士氣提升」等模糊因素,而未綁定具體可驗證事件。

      另一個維度是Multi-Factor Causal Synthesis」,評估模型是否將多個獨立因素整合為一個有因果結構的預測結論。

      得5分的標準是:明確整合至少三個相互獨立的因素(如傷病情況、近期狀態、主客場表現、賠率基線),并解釋這些因素如何相互作用(如傷病削弱進攻效率,而主場優勢部分對沖該影響),最終形成一個加權后的整體判斷。

      得1分的標準是:僅基于單一因素(如「某隊最近連勝」)直接得出結論,或簡單羅列信息而沒有解釋各因素之間的作用關系。

      總結來說,這兩個維度分別關注模型是否能夠在時間維度上引入可量化的前瞻性的關鍵變化,并在同一時點上將這些變化與既有信息整合為結構化的因果判斷,從而提升預測的完整性與動態適應能力。


      模型按rubrics打分的排名與Elo排名相關系數隨rubrics質量提升而提升。

      這些維度高度具體,顯然不是泛泛而談的「推理質量」。但靠人工設計也走不遠,預測領域噪聲極高,不同領域的邏輯差異很大。

      Echo把這個問題轉化成了一個數據驅動的搜索任務:由LLM生成候選評分標準(rubric),每一輪基于上一輪的反饋進行迭代,搜索目標是讓rubric產生的模型排名與真實Elo排名之間的Spearman ρ最大化。

      搜索按領域獨立進行,政治領域和體育領域各自搜索出20個評分維度。實驗數據顯示,rubric的評估質量在迭代過程中持續攀升。

      機制三:Map-Reduce Agent架構。

      訓練完成后,EchoZ-1.0在推理階段采用分布式的Map-Reduce流程。

      Map階段將一個宏觀預測問題分解為多個正交子任務,派出多個agent并行完成信息采集和領域推理;Reduce階段由聚合節點處理跨源沖突、對齊因果鏈,輸出最終的概率判斷。

      這個循環支持多輪自適應迭代,直到信息覆蓋度和推理深度趨于穩定。

      這套訓練范式的本質可以這樣理解:

      不僅考察模型猜對了沒有,也考察模型的分析過程是不是優秀。而「評價分析過程」這件事本身,也由這個系統自動完成。

      值得留意的下一步

      據了解,UniPat計劃將EchoZ-1.0的預測能力封裝為一套AI-native Prediction API對外開放。

      從博客已披露的技術架構來看,這套API將支持自然語言形式的預測問題輸入,返回包含概率分布、分層證據鏈、反事實脆弱性評估和監測建議的完整結構化報告,每份報告由多輪Map-Reduce agent對實時網絡證據循環檢索和推理后生成。

      UniPat在官網上為Echo寫下了這樣一句話:「The future is no longer a probability you guess — it is a parameter you integrate.」

      當預測從一種直覺判斷變成一個可調用、可集成的參數,它能嵌入的決策場景,金融市場、算法交易、企業戰略,遠比當前看到的要多。

      UniPat為Echo定義了四個關鍵詞:General、Evaluable、Trainable,以及Profitable。而落地的效果,則需要期待API的正式上線。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      為什么WTO很少被提起了?中國入世談判花了15年,如今幾乎被架空

      為什么WTO很少被提起了?中國入世談判花了15年,如今幾乎被架空

      古史青云啊
      2026-04-07 14:52:09
      透露什么信號?蘇林一人身兼兩大關鍵職務,打破越南領導權力架構

      透露什么信號?蘇林一人身兼兩大關鍵職務,打破越南領導權力架構

      40度觀察
      2026-04-07 17:40:54
      25歲小伙不敢脫掉上衣,只因胸前密密麻麻長著……在福建這家醫院,他重獲新生

      25歲小伙不敢脫掉上衣,只因胸前密密麻麻長著……在福建這家醫院,他重獲新生

      福建衛生報
      2026-04-07 20:05:47
      4月7日突發!張雪峰妻子李麗倩正面回應:我不是博士,也不在河南

      4月7日突發!張雪峰妻子李麗倩正面回應:我不是博士,也不在河南

      行者聊官
      2026-04-07 19:07:17
      張本智和觀戰決賽面露恐懼!日本球迷盼他退位:松島已成日乒最強

      張本智和觀戰決賽面露恐懼!日本球迷盼他退位:松島已成日乒最強

      顏小白的籃球夢
      2026-04-07 08:22:42
      美媒:“無法無天的世界代價高昂”

      美媒:“無法無天的世界代價高昂”

      參考消息
      2026-04-07 16:50:06
      研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

      研究表明:男性嫖娼率6.4%,女性出軌率15%,且越有錢越開放!

      黯泉
      2026-04-01 17:28:39
      東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

      東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

      番外行
      2026-03-31 08:28:28
      10萬億財政轉移支付,被誰拿走了?

      10萬億財政轉移支付,被誰拿走了?

      國民經略
      2026-04-07 12:10:36
      剛從日本回來,說點不中聽的:日本的真實面目,可能讓你很意外

      剛從日本回來,說點不中聽的:日本的真實面目,可能讓你很意外

      復轉這些年
      2026-04-01 09:17:19
      退役11年,周薪仍超9萬鎊!亨利這是妥妥的人生贏家

      退役11年,周薪仍超9萬鎊!亨利這是妥妥的人生贏家

      樂道足球
      2026-04-07 17:17:10
      突然!以色列,發動大規模空襲!霍爾木茲海峽,傳來最新消息

      突然!以色列,發動大規模空襲!霍爾木茲海峽,傳來最新消息

      數據寶
      2026-04-07 21:16:12
      年卡1.3萬高端健身房,字節員工無法免費享受了

      年卡1.3萬高端健身房,字節員工無法免費享受了

      三言科技
      2026-04-07 18:43:10
      菊花和它是絕配!清肝明目,降火又潤肺~睡眠也好了~春天養肝正當季!

      菊花和它是絕配!清肝明目,降火又潤肺~睡眠也好了~春天養肝正當季!

      環京快爆
      2026-04-07 08:16:07
      詐尸了!哈梅內伊死而復生?特朗普大秀軍功,伊朗做出了一個舉動

      詐尸了!哈梅內伊死而復生?特朗普大秀軍功,伊朗做出了一個舉動

      起喜電影
      2026-04-07 16:21:57
      一個飛行員,美國為什么下這么大血本?1979年的教訓,至今不敢忘

      一個飛行員,美國為什么下這么大血本?1979年的教訓,至今不敢忘

      文史達觀
      2026-04-07 06:45:06
      網友:陳思誠祖宗18代都要感謝佟麗婭,她生了一個清爽版的自己

      網友:陳思誠祖宗18代都要感謝佟麗婭,她生了一個清爽版的自己

      好賢觀史記
      2026-04-07 13:55:11
      勞動節放假通知:連休5天,需調休

      勞動節放假通知:連休5天,需調休

      看看新聞Knews
      2026-04-07 17:02:25
      醫生告誡:每天睡前玩手機的人,不用半年時間,睡眠或有這6變化

      醫生告誡:每天睡前玩手機的人,不用半年時間,睡眠或有這6變化

      白話電影院
      2026-04-05 15:34:47
      湖北發布社會公眾風險提示:強對流來襲,局地有冰雹

      湖北發布社會公眾風險提示:強對流來襲,局地有冰雹

      界面新聞
      2026-04-07 13:32:37
      2026-04-07 23:15:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14918文章數 66754關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

      頭條要聞

      特朗普恐嚇4小時摧毀伊朗 伊朗稱"打穿"海法未見攔截

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      房產
      家居
      健康
      數碼
      公開課

      房產要聞

      重磅!三亞擬出安居房新政!

      家居要聞

      雅致愜意 感知生活之美

      干細胞抗衰4大誤區,90%的人都中招

      數碼要聞

      榮耀官宣WIN系列游戲本:4月23日發布!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版