很多關于人工智能和科學的討論聽起來都充滿自信,甚至可以稱之為過于樂觀。模型可以閱讀論文,總結研究結果,并連接各個領域。理論上,這應該會改變研究的工作方式。然而,在實踐中,并沒有那么簡單。
![]()
大多數科學家仍然謹慎對待這些人工智能系統,有時懷疑。不是因為這些工具毫無用處,而是因為沒有人真正證明它們可以像人類在事情變得不清楚或復雜時那樣推理科學問題。但是,現在一切都可能改變。
OpenAI發布了FrontierScience(前沿科學),這是一個新的基準,旨在測試先進的人工智能模型是否能夠處理科學推理,而不僅僅是科學知識。這正是科學家對人工智能系統建立信心和信任的原因。
FrontierScience不是專注于有明確答案的基本問題,而是旨在將模型推向更開放的問題,這些問題類似于真正的研究。早期結果表明取得了進展,但也暴露了這一進展的脆弱性。
FrontierScience背后的核心主張是,許多現有的科學基準已經不適合現在的工作。隨著模型的改進,得分有所上升,但洞察力沒有。
FrontierScience基準背后的OpenAI研究人員寫道:“最近的模型進展幾乎完全突破了現有的科學基準,這些基準通常依賴于多項選擇知識問題或已經發布的信息。”
![]()
圍繞已知答案和已發表材料構建的測試變得失去價值,即使潛在的科學能力沒有太大變化也能通過測試。雖然基準分數有所提高,但這并不是真正的科學運作的。FrontierScience被視為一種重置。一種不同的方法,將困難和摩擦重新引入評估中,這樣就可以用一些誠實的態度再次衡量進展。
那么,FrontierScience究竟是什么,它是如何工作的呢?
FrontierScience旨在通過兩種不同類型的工作來測試科學能力。第一種是OpenAI所說的奧林匹克路徑(Olympiad track)。這些都是困難且定義嚴格的問題,類似于高級競爭問題。這些問題的目標是在明確的約束下進行精確推理,并得出可驗證的答案。基準測試的這一部分測試了問題解決能力。它不衡量創造力或猜測,這在其他領域可能很有價值,但在科學領域則不然。
第二個是研究路徑(Research track),它是特意創建的,用于測試更混亂的數據。這些任務類似于科學家在研究過程中可能遇到的子問題,其中進展取決于做出一系列正確的決定,而不是一個單一的最終答案。為了評估這一點,每個問題都使用一個詳細的評分標準進行評分,該標準對中間推理步驟進行評分。目的是觀察模型是否理解如何處理問題。重點仍然是推理,而不是聽起來正確的最終答案。
FrontierScience的研究結果令人印象深刻,同時也發人深省。OpenAI評估了來自不同組織的多個前沿模型。谷歌、Anthropic和xAI的幾個競爭系統在基準測試的部分內容上發布了類似的結果。
![]()
GPT-5.2總體領先于基準。它在奧林匹克l路徑上的得分為77%。在研究路徑上,這一數字降至25%。有趣的是,這種下降在各個模型中是一致的。在明確界定的問題上,人工智能表現仍然強勁,但隨著任務變得更加開放和有序,表現有所減弱。
這種差距突顯了解決問題和在實驗室進行實際研究之間的區別,在實驗室中,實驗在整個過程中可以采取多種形式。FrontierScience認為,當邊界清晰時,當前的模型可以有效地推理,但很難在更長的科學判斷鏈中保持一致性。這種區別有助于解釋為什么人工智能工具在某些研究工作流程中感覺強大,而在其他工作流程中則感覺脆弱。
FrontierScience真正強調的不是當前模型的失敗,而是人工智能進步的衡量方式與科學工作的實際展開方式之間的不匹配。
即使是它的創造者也警告不要高估結果。FrontierScience專注于受限和專家編寫的問題,并沒有捕捉到科學工作的許多核心要素。這包括假設生成和實驗交互。基于量規的評分也引入了更簡單的基準所避免的主觀性。
![]()
那么,關鍵要點是什么?根據OpenAI的說法,基準測試更像是一種診斷工具,而不是終點線。還有很多工作要做。然而,FrontierScience的目的是揭示推理失敗的地方,以便未來的模型開發可以集中在那里。這是否會導致更深層次的科學自主性仍然是一個懸而未決的問題。
OpenAI研究人員寫道:“研究和實踐評估對于繼續建立長期和直接相關的評估非常重要。”“科學推理是人工智能有益影響的核心,需要強有力的基準來加速真正的科學進步。”
與Ai時代前沿合作,將大門向更多普通用戶敞開!免費課程限時領,還有好禮相送!無論你是對新技術充滿好奇心的愛好者,還是希望提升自己技能的職場人士,這里都有適合你的課程和資源。文章留言或私信小編拉您入群!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.