該圖片可能由AI生成![]()
Google最新發布的Gemini 3.1 Pro在ARC-AGI-2測試中達到77%的準確率,這個數字在三個月前還只是31%。這樣的躍升速度讓人眩暈,但也引發了一個更深層的疑問:我們到底在見證智能的突破,還是在目睹考試技巧的精進?
![]()
![]()
真正值得關注的不是單一的高分,而是改進的方向。Gemini 3.1 Pro的幻覺率從88%驟降至50%,這可能是比任何單項測試更重要的進步。企業采用AI的最大障礙從來不是它不夠聰明,而是它在不知道答案時依然裝作知道的樣子。承認無知比假裝全能更接近真正的智能。
但數據背后也藏著矛盾。當一個模型在GPQA Diamond上達到94.3%的準確率時,考慮到基準測試本身約有7%的錯誤率,這意味著什么?要么模型真的完美到能識別出測試題的錯誤,要么我們需要重新審視這些分數的含義。98%的ARC-AGI-1得分也面臨同樣的質疑——當分數過高時,反而成為一種警示信號。
更耐人尋味的是用戶體驗與基準測試的割裂。許多開發者反映,Gemini 3 Pro在發布初期表現驚艷,但幾周后開始“變笨”。這不一定是模型降級,更可能是Google在推理時間、輸出長度等推理層面的節流。基準測試用的是全功率版本,而用戶拿到的可能是節能模式。這種差異提醒我們:當衡量標準變成目標本身,我們需要警惕數字游戲掩蓋實際能力。
競爭格局也在發生微妙變化。Google這次甚至沒有在LMArena上爭奪第一,這種克制反而讓人相信這是一次真實的進步。與此同時,各家實驗室在三個月內輪番發布新模型,形成了一個有趣的循環:Google領先幾周,Grok緊隨其后,然后是Anthropic和OpenAI,周而復始。
我們或許正站在一個拐點:AI進步的速度已經快到讓人難以適應,但這種進步在日常應用中的體現卻出奇地緩慢。編程助手依然會在編輯代碼時意外刪除整段內容,對話系統仍然會在長對話中遺忘你明確說過的要求。基準測試記錄的是峰值能力,而真正重要的是平均表現。
也許真正的考驗不是ARC-AGI能否達到100%,而是這些模型能否在一個月后依然保持發布時的水平。進步的速度固然令人興奮,但穩定性才是從實驗室走向生產環境的關鍵。
簡評:
Google這次沒有在LMArena上爭第一,反而顯得更加真實。這標志著行業從“PPT造車”式的參數競賽,轉向了“工業化落地”的工程深水區。
我們對AI的衡量標準正在發生根本性轉變:
過去: 它能否戰勝人類?(峰值能力)
未來: 它能否在一周后依然穩定工作?(平均表現)
Gemini 3.1 Pro 的真相在于:它可能是一個更擅長“做題”的學生,但也確實是一個更誠實、更可控的實習生。而在當前的AI階段,“可控”遠比“天才”更具破壞性的生產力價值。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.