<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型碰到真難題了,測了500道,o3 Pro僅通過15%

      0
      分享至




      機器之心報道

      機器之心編輯部

      基準測試是檢驗大模型能力的一種方式,一般而言,一個有用的基準既要足夠難,又要貼近現實:問題既能挑戰前沿模型,又要反映真實世界的使用場景。

      然而,現有測試面臨著「難度–真實性」的矛盾:側重于考試的基準往往被人為設置得很難,但實際價值有限;而基于真實用戶交互的基準又往往偏向于簡單的高頻問題。

      在此背景下,來自斯坦福大學、華盛頓大學等機構的研究者探索了一種截然不同的方式:在未解決的問題上評估模型的能力。

      與一次性打分的靜態基準不同,該研究不斷收集未解決的問題,然后通過驗證器輔助篩選與社區驗證機制,實現對模型的持續異步評估。

      具體而言,本文提出了 UQ(Unsolved Questions),這是一個由 500 道題組成的測試集,涵蓋計算機理論、數學、科幻、歷史等主題,用于考察模型在推理、事實準確性以及瀏覽等方面的能力。UQ 在設計上兼具難度大與貼近真實兩大特點:這些問題大多是人類遇到但尚未解決的難題,因此攻克它們可直接產生現實價值。



      • 論文標題:UQ: Assessing Language Models on Unsolved Questions
      • 論文地址:https://arxiv.org/pdf/2508.17580v1
      • 項目地址:https://uq.stanford.edu/

      總結而言,本文貢獻如下:

      • 提出了 UQ 數據集及其收集流程:結合規則過濾器、大語言模型評審以及人工審核,以確保最終問題的質量;
      • UQ-Validators:復合驗證策略,利用生成器–驗證器之間的能力差距來構建無真值驗證系統(一般而言模型驗證能力優于生成能力),并對候選答案進行預篩選,以便后續人工審核;
      • UQ-Platform:一個開放平臺,讓專家能夠共同驗證問題與答案,從而實現持續的、異步的、社區驅動的評估。

      實驗中,表現最好的模型僅在 15% 的問題上通過了 UQ 驗證,而初步人工核查已經在這些通過驗證的答案中識別出一些正確解答。



      數據集介紹

      UQ 數據集由 500 道具有挑戰性的未解決問題組成,問題來源問答社區 Stack Exchange,并且是經過三輪篩選得到的。



      在篩選流程上,本文首先人工選擇了 80 個 Stack Exchange 社區(例如 Math Overflow、Physics),并抓取其中未解答的問題,得到大約 300 萬個原始候選問題。

      隨后,進入多階段篩選流程。篩選的每一階段都會逐步縮小問題池:基于規則的篩選將問題縮減至 33,916 個(占原始問題池的 1.13%);基于大語言模型的篩選進一步縮減至 7,685 個(占原始的 0.26%);最終通過人工審核(如剔除殘留的重復、過于簡單、偏題或違反規則的問題),得到一個精心整理的 500 道題集(占原始的 0.02%)。

      隨著問題在篩選流程中逐步推進,它們的難度和質量也在逐漸提升。尤其是基于大語言模型的篩選,顯著提高了問題的難度。



      數據集組成如下所示,主要包含科學類問題,其次是技術類與生活藝術類。本文還發現不同領域的問題能探測模型的不同能力:例如數學問題通常需要開放式證明,而科幻奇幻類問題則偏重瀏覽檢索能力(如根據片段情節識別書籍名稱)。

      一旦某個問題被判定為已解決,研究者就會在后續版本中將該問題移除,并用新的未解決問題替換。



      UQ 驗證器

      雖然 UQ 數據集非常具有價值,但要將其用作模型性能的基準,仍需配套的評分指標。然而,由于缺乏標準答案,無法像考試基準那樣進行自動驗證。

      因此,本文轉向無監督驗證器,即無需標準答案。由于未解問題往往極具挑戰性,這些驗證器的主要目標并非證明某個候選答案正確,而是排除錯誤的候選答案;因此,本文刻意使用 validator(驗證器)一詞,而非 judge 或 verifier。

      需要特別指出的是,由于缺少標準答案,這類驗證器本身可能經常出錯,但它們仍能在后續人工審核中發揮輔助作用。

      據了解,本文之所以開發無需標準答案的驗證器,核心動機在于這樣一個假設:對難題候選答案進行驗證可能比生成這些答案更容易。實驗中采用了這樣的流程,讓一系列能力遞增的模型(例如 o3-mini → o4-mini → o3)回答這 500 道題,記錄它們的答題準確率;接著,讓每個模型在不接觸標準答案的情況下,驗證其他所有模型給出的答案;最后,用真實答案對這些驗證結論進行打分,計算驗證準確率。

      圖 5 左顯示:隨著模型能力的提升,它們在驗證準確率上的進步速度明顯快于答題準確率。



      實驗中使用的驗證器 pipeline:



      實驗及結果

      實驗評估了 5 個模型,包括 o3、o4-mini、o3-mini、Gemini 2.5 Pro 和 Claude 3.7 Sonnet。

      表 1 結果顯示,與原始基線相比,驗證策略能夠實質性地提高驗證的準確率和精度。例如,對 Claude 3.7 Sonnet 而言,準確率從 21.6% 提升到 73.2%,精度從 13.26% 提升到 20%,但往往是以召回率下降為代價。



      為了確認最終得到的最佳 UQ 驗證器對人類評審者有幫助,該研究邀請若干評審員對 25 個驗證問題進行評分,判斷其給出的判斷理由鏈是否在邏輯上成立。表 2 顯示,人類評審與驗證器的一致率及理由鏈的準確性都很高,表明該驗證器能為人類評審者提供有效支持。



      將大語言模型用于答案驗證時,另一個挑戰是它們常常表現出明顯的評估偏見。當研究者把前沿模型直接應用于本場景時,發現所有模型在評估自身或同系模型(即同一開發者的模型)時,都出現了過度樂觀現象:預測出的模型性能遠高于實際性能,如圖 7 所示。

      • Gemini 明顯偏向自身,相對于其他模型給出顯著更高的評分;
      • Claude 對所有答案模型(不僅僅是自身)都表現出過度樂觀;
      • OpenAI 的 o 系列模型則對其他 o 系列同門模型給出過高評價。

      隨著模型能力遞增(o3-mini → o3),這種偏見雖有所降低,但并未徹底消除。

      本文進一步發現,采用復合驗證器能夠顯著削弱答案驗證中的自我偏見與過度樂觀。



      最后,本文還發現,一個更強的答案生成模型并不一定就是更強的答案驗證模型。

      本文通過基線提示法和 3 輪迭代驗證流程繪制了模型在 500 個 HLE 問題上的驗證準確率與答案準確率關系圖。雖然更好的答案性能通常預示著更好的驗證性能(整體呈上升趨勢),但并非絕對。

      例如:在沒有流程驗證時,o3 作為答案模型弱于 Gemini 2.5 Pro,但作為驗證模型卻更強;采用流程驗證后,o3-mini 與 Claude 3.7 Sonnet 之間觀察到同樣的逆轉趨勢。此外,盡管 Claude 3.7 Sonnet 在答案準確率上顯著落后于 Gemini 2.5 Pro,但其基于流程驗證的表現卻超越了 Gemini 2.5 Pro 的基線驗證性能。



      了解更多內容,請參考原論文。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      CBA最新消息!三帥引發球迷不滿,北京男籃醞釀換外援 陶漢林受傷

      CBA最新消息!三帥引發球迷不滿,北京男籃醞釀換外援 陶漢林受傷

      中國籃壇快訊
      2025-12-17 17:28:40
      中國援助柬埔寨那么多年,卻養出一個洪森白眼狼,是該告一段落了

      中國援助柬埔寨那么多年,卻養出一個洪森白眼狼,是該告一段落了

      我心縱橫天地間
      2025-12-16 12:38:59
      “新冠疫苗之父”落馬,榮譽清零!打過三針的網友慌了

      “新冠疫苗之父”落馬,榮譽清零!打過三針的網友慌了

      胡嚴亂語
      2025-12-07 15:51:07
      苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項目泡湯

      苦等5年,蒙古熟鴨子還是飛了,中俄誰也不讓步,坐視大項目泡湯

      科普100克克
      2025-12-07 18:20:34
      不打了?乒超很可能不續約松島輝空,總決賽3:1把王楚欽逼入絕境

      不打了?乒超很可能不續約松島輝空,總決賽3:1把王楚欽逼入絕境

      林子說事
      2025-12-17 14:58:43
      世界足球先生投票詳情:C羅連4年棄權 姆巴佩未參與 梅西選登貝萊

      世界足球先生投票詳情:C羅連4年棄權 姆巴佩未參與 梅西選登貝萊

      我愛英超
      2025-12-17 04:00:29
      驟降10℃!杭州人趕緊準備,冷空氣周末就殺到......網友:氣溫是坐上了過山車?

      驟降10℃!杭州人趕緊準備,冷空氣周末就殺到......網友:氣溫是坐上了過山車?

      19樓
      2025-12-17 15:04:58
      好友曝何晴去世內情:不僅患腦瘤還中風了,沒辦好退休經濟拮據

      好友曝何晴去世內情:不僅患腦瘤還中風了,沒辦好退休經濟拮據

      娛樂圈圈圓
      2025-12-14 18:43:12
      一屋為什么不住三代人?太壓抑!

      一屋為什么不住三代人?太壓抑!

      另子維愛讀史
      2025-12-17 15:27:34
      不到48小時,中企承建大橋被炸,泰軍方封海,特朗普的調解已失敗

      不到48小時,中企承建大橋被炸,泰軍方封海,特朗普的調解已失敗

      策略述
      2025-12-15 21:19:50
      A股:為何突然大漲?原因是什么?不出意外,明天周四繼續大漲?

      A股:為何突然大漲?原因是什么?不出意外,明天周四繼續大漲?

      虎哥閑聊
      2025-12-17 15:12:46
      兩個事實證明,中國實際已經控制了面積80平方公里的南沙五方礁?

      兩個事實證明,中國實際已經控制了面積80平方公里的南沙五方礁?

      阿器談史
      2025-12-15 15:51:21
      湖北六旬老伯黃昏戀分手,懷疑做保姆的女友和雇主有染,買刀行兇殺錯人,法院:判刑7年半,罰款2萬元

      湖北六旬老伯黃昏戀分手,懷疑做保姆的女友和雇主有染,買刀行兇殺錯人,法院:判刑7年半,罰款2萬元

      觀威海
      2025-12-17 11:06:03
      京東自提全國正式上線:即提即走 再減1元

      京東自提全國正式上線:即提即走 再減1元

      cnBeta.COM
      2025-12-17 16:31:10
      公主遠嫁波斯,中途突然懷孕,就地建國,如今此地是中國領土!

      公主遠嫁波斯,中途突然懷孕,就地建國,如今此地是中國領土!

      銘記歷史呀
      2025-12-13 17:03:07
      印媒:梅西在印度行期間收到一塊價值120萬美元的手表

      印媒:梅西在印度行期間收到一塊價值120萬美元的手表

      懂球帝
      2025-12-17 13:23:40
      董宇輝上綜藝直言:我的伯樂不是俞敏洪,是進入直播間的在線觀眾

      董宇輝上綜藝直言:我的伯樂不是俞敏洪,是進入直播間的在線觀眾

      好賢觀史記
      2025-12-17 09:29:49
      FIFA年度最佳投票曝光 流動的葡萄牙隊長引發爭議 C羅遭痛批

      FIFA年度最佳投票曝光 流動的葡萄牙隊長引發爭議 C羅遭痛批

      智道足球
      2025-12-17 08:34:43
      一部電影八個演員title,內娛的番位造詞還能更離譜嗎?

      一部電影八個演員title,內娛的番位造詞還能更離譜嗎?

      鈦媒體APP
      2025-12-15 18:57:25
      太離譜!上海隊慘敗,主教練甩鍋給張鎮麟和福格,遼籃球迷怒了

      太離譜!上海隊慘敗,主教練甩鍋給張鎮麟和福格,遼籃球迷怒了

      宗介說體育
      2025-12-17 10:17:44
      2025-12-17 19:00:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      11943文章數 142512關注度
      往期回顧 全部

      科技要聞

      特斯拉值1.6萬億靠畫餅 Waymo值千億靠跑單

      頭條要聞

      高位截癱患者因腦機接口"再就業":錢不多 供兒讀大學

      頭條要聞

      高位截癱患者因腦機接口"再就業":錢不多 供兒讀大學

      體育要聞

      短短一年,從爭冠到0勝墊底...

      娛樂要聞

      狗仔曝熱播劇姐弟戀真談了???

      財經要聞

      重磅信號!收入分配制度或迎重大突破

      汽車要聞

      一車多動力+雙姿態 長城歐拉5上市 限時9.18萬元起

      態度原創

      教育
      手機
      藝術
      房產
      軍事航空

      教育要聞

      教育部:高中要嚴格控制考試次數,小學一二年級不進行紙筆考試,義務教育學校日常考試實行等級評價

      手機要聞

      銷售遇冷,傳蘋果iPhone Air 2將升級雙攝并下調售價

      藝術要聞

      毛主席書寫林則徐詩詞,字跡超凡,引發關注。

      房產要聞

      團購14888元/㎡起!海建·鳳翔豪庭獻禮自貿港封關

      軍事要聞

      最新現場:山東艦完成年度最后一次海上訓練

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 最新高清无码专区| 风流少妇一区二区三区91| 日韩毛片在线免费观看| 南皮县| 成a人片亚洲日本久久| 免费看一区二区三区四区| 亚洲女同精品久久女同| 日本噜噜影院| 无码国内精品久久人妻中文成人| 成年女人免费视频播放体验区| 日韩亚洲欧美中文高清| 中国免费A片XXXXXX| 韩日一级| 性色欲情网站| 欧美黑人性暴力猛交喷水黑人巨大| 婷婷在线视频| 日韩人妻少妇一区二区三区| 久久精品国产亚洲AV熟女| 95国产精品| 亚洲字幕av一区二区三区四区| 国产成人一区二区三区视频免费| 久久精品视频18| 天天做天天爱天天高潮| 99久久精品费精品国产一区二区| 国产激情视频一区二区三区| 国产视频最新| 日韩无毛| 色欲av无码一区二区人妻| 永久黄网站色视频免费| 亚洲天堂男人| 隆安县| 激烈的性高湖波多野结衣| 美女91社| 亚洲一级网此| 无码中文幕熟AⅤ一区二区| 国产精品无码一区二区在线| 国产互换人妻XXXXXX6| 91露脸熟女对白不带套| 亚洲人一区| 日本中文字幕在线| 无码人妻斩一区二区三区 |