(注意:本文由歪歌社團第2486部視頻作品《AI能力年度大測評:2025年度多維度綜合排名出爐》的語音轉成文字后,再由AI(deepseek)整理生成,除了當前這一句話,沒進行任何人工編輯。)
![]()
2025年9月,新一輪AI年度測試如期啟動。此次我們測試匯聚了豆包、DeepSeek、問小白等12款主流AI模型,從基礎認知到創造性思維,從邏輯推理到玄學解讀,多維度勾勒出當前AI技術的發展圖景。測試之初,我們通過搖卦確定部分命題方向,從雷山卦到雷風卦的轉換,也為這場技術比拼增添了幾分趣味與變數。
測試規則的設定直指AI的核心價值:答對得滿分,拒絕回答不得分,答非所問扣半分,而錯誤回答直接零分——畢竟誤導性信息的危害遠大于沉默。相較于往年,今年的規則更為嚴格,取消了對DeepSeek的網絡問題特殊豁免,且所有支持聯網的AI均默認開啟該功能,力求還原最真實的應用場景。
從測試結果來看,AI在邏輯推理領域的進步最為顯著。去年讓所有模型全軍覆沒的兩道推理題,今年迎來了大翻身:面對“小數每天長2米、大樹超90米就砍至85米,誰先到100米”的問題,除訊飛星火外,其余AI均準確判斷出“小數先達標”;而“國足若每場必1:0小勝能否世界杯奪冠”的假設,所有模型都清晰識破了“連勝即可奪冠”的核心邏輯,展現出對規則與因果關系的精準把握。這種進步與2025年AI評估更注重動態推理能力的行業趨勢不謀而合。
基礎常識領域則呈現“喜憂參半”的格局。去年全軍覆沒的“北極熊毛為透明色”一題,今年所有參賽AI均能答對,可見基礎自然知識的覆蓋度顯著提升。但在細節辨析上,漏洞依然存在:“小米第一款數字旗艦全面屏手機”的問題中,問小白、智譜清言等仍混淆“數字旗艦”與“概念機”的定義,誤答為小米mix;而“0.1金幣=1元,1元等于多少金幣”的簡單換算,Kimi、訊飛星火等還在犯去年的錯誤,暴露出部分模型在基礎認知上的固化缺陷。更遺憾的是,天工AI因“積分不足需充值”提前退出,錯失了后續比拼的機會。
“挖坑測試”則狠狠戳中了AI的共性短板。當被問及“5米竹竿能否穿過3米高、2米寬的限高架”時,多數模型陷入“垂直通過”的思維定式,只有Kimi、文心一言與DeepSeek(雖思考延遲但最終答對)想到了傾斜放置的可能性。在影視細節陷阱題中,面對“央視版《水滸傳》李瑞蘭出場集數”這類“無解題”,豆包、DeepSeek等少數模型能明確指出“劇情未拍攝”,而問小白、智譜清言等則盲目猜測集數,凸顯出部分AI缺乏“存疑即核實”的審慎態度,這與人類智能的“批判性思維”仍有差距。
創造性與理解力的表現則分化明顯。在《天凈沙·全球變暖》創作中,僅豆包、Kimi等少數模型能遵循詞牌格式,多數模型因句式混亂失分;而“11字漢字短句”的簡單任務,仍有半數AI出現字數錯誤。最令人意外的是理解力測試的“全軍覆沒”——“5位漢字最多能數到多少”的答案本是“一千零一十”,但所有模型都給出了“九萬九千九百九十九”等錯誤答案,暴露了AI在語言與數字結合場景下的理解盲區。
多模態能力中的繪畫功能更是集體拉胯。當要求繪制“長頸鹿舌頭舔耳朵”的16:9真實風格圖像時,無繪畫功能的DeepSeek、Kimi等自然不得分,而豆包、文心一言等雖能生成圖像,卻均不符合比例或寫實要求。臨時加測的“左手伸4指”任務更顯窘迫:有的分不清左右手,有的數不對手指數量,僅有阿里通義勉強做到手指數量正確但方向錯誤,印證了當前AI在空間感知與細節執行上的薄弱。
玄學測試成為了意外的“個性舞臺”。在分析張碧晨生辰八字時,豆包精準關聯“2015年財運與《花千骨》上映時間”,智譜清言則點出“2014年《中國好聲音》奪冠”的關鍵節點,均獲滿分;而曾在2023年獨占鰲頭的阿里通義,此次卻在卦象識別中錯把雷山卦與雷風卦弄反,讓人唏噓技術迭代中可能出現的能力波動。
![]()
![]()
最終,豆包以微弱優勢衛冕榜首,但DeepSeek已將分差縮小至3分,AI領域的“雙雄格局”初現。這場測試印證了2025年AI發展的核心特征:專項能力突飛猛進,但綜合智能仍不均衡,在抗干擾、深度理解等“類人智能”維度還有漫長的路要走。正如行業趨勢所指出的,AI評估已從單一性能指標轉向多模態綜合考量,明年的比拼,或許會有更貼近真實應用場景的新維度加入,誰能補齊短板,誰就可能實現彎道超車。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.