<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      讓AI像人類一樣做高考數(shù)學題,夸克領跑、豆包緊隨

      0
      分享至

      一年一度的高考落下帷幕。對大模型來說,這已經(jīng)是它第三次參與這場本屬于人類考生的考試。

      但和前兩年不同,之前人們喜歡安排大模型產(chǎn)品寫高考作文。今年隨著推理模型的火熱,人們開始熱衷讓它參與高考數(shù)學。

      一個有意思的變化在于,這兩天各種各樣的高考數(shù)學測評結(jié)果證明,今年大模型似乎有了質(zhì)的飛躍——從純粹的文科生,成為了數(shù)學成績也不錯的理科生。

      為驗證這一結(jié)果,我們也選取了四個AI產(chǎn)品——豆包、夸克、元寶和ChatGPT進行測評。



      由于這幾家模型均具備多模態(tài)能力,所以我們將2025年全國新課標數(shù)學I卷的題目直接投喂給大模型,不做格式轉(zhuǎn)換,不開啟聯(lián)網(wǎng)搜索,所有測試模型只有一次答題機會。

      關于考核標準,我們覺得如果讓AI參與考試,就應該把它們當作一個真正的考生考核

      所以,本次測評拆解了三大維度

      • 結(jié)果正確率:AI考生能力的最直觀體現(xiàn)。
      • 答題速度:考試有時間限制,AI考生也應該注意時間安排。
      • 識別準確率:人類考生需要審題準確,不能出現(xiàn)看錯數(shù)字、符號等問題。所以有多模態(tài)能力的AI考生,也需要參與這一考核。

      基于這三個維度,我們通過分別打分再計總分的形式,測試出AI考生們的高考數(shù)學的考試名次。

      更細致的"閱卷規(guī)則"參考:



      經(jīng)過以上三個維度的綜合測試,最終AI考生們的全面考察結(jié)果如下:


      *綜合測評圖


      *綜合排名圖

      如果單看純粹的卷面分,這幾家AI考生的數(shù)學分數(shù)都在110分以上。想起去年,AI們的高考數(shù)學題還經(jīng)常不及格,真是今非昔比。

      而且,不僅是做題,這些AI選手們的解題速度和視覺理解能力都非常強——大部分題目都能在3分鐘內(nèi)完成。只有元寶沒有識別出其中的一道題目,其他AI助手在識別上都拿了滿分。

      誰答對了最多題?

      直接的考試分數(shù),是考生最關心的事情。

      根據(jù)卷面分數(shù),夸克、豆包和ChatGPT分列前三。

      一個小插曲是,ChatGPT在難題中經(jīng)常嘗試寫代碼解題,準確率較高。但考慮到高考現(xiàn)場的考生們不會配備電腦寫代碼解題,所以我們立刻禁止了它寫代碼。

      整體看下來,大家的選擇題和填空題得分差距不是非常大,錯誤都不是很多。尤其是夸克和ChatGPT,選擇和填空題全對。



      解答題是讓各家AI考生有點為難的題目。尤其是16題,大家都有錯誤。

      首先是元寶,從一開始沒能識別出這一道題目,所以也就無法作答——這也是我們這次測試中,唯一一個沒有被某一模型識別出的題目。

      豆包在這道題上犯錯的原因也有點令人迷惑,題目解題思路過程都是對的,就是要把題目中的“m”改成“n”。

      感覺這里豆包在審題上出現(xiàn)了理解偏差,不能將“m”和“n”區(qū)分開,正確理解m的含義。



      在選擇和填空上第一名的夸克,第16題中的錯誤很可惜地發(fā)生在最后一步——“利用錯位相減法”得出最終結(jié)果的部分。

      向上翻了一下思考過程,發(fā)現(xiàn)它有點“心口不一”。一邊說著“相加”,一邊算著“相減”,最后結(jié)果錯誤。

      誰答得最快,審題最清晰?

      答題速度,屬于AI考生們的舒適區(qū)。

      基本上,這四個AI考生的選擇題基本都能在60秒內(nèi)出結(jié)果。只有ChatGPT和元寶的第六題,超過了一分鐘(但還是很)。

      來到解答題,大家的耗時意料之中增加了不少。尤其是ChatGPT,基本最后的幾道大題都需要思考6分鐘左右。

      不過在耗時更長的解題過程里,我們也看到一些驚喜。比如,ChatGPT會自己放大題目、左看右看,確認識別沒有問題后再開始解題。


      *ChatGPT會自己放大圖片,來仔細檢查箭頭首尾在坐標軸上的位置

      夸克和豆包也很讓人驚喜。在整體的速度測評中,夸克位列第一,豆包以一分之差位列第二。

      這兩家做最難的解答題,單題最長耗費時間在4分鐘左右。



      至于和多模態(tài)相關的審題能力,AI考生們基本上都沒讓人失望。除了元寶有一題識別不出來,其他考生都是滿分。

      不同的輸出風格,讓我找到AI老師

      測到這里,本次AI考生的高考數(shù)學測評基本可以結(jié)束了。

      但在就在核對答案的過程中,我還有一個不同尋常的發(fā)現(xiàn)。

      參與測評的AI考生背后,基本都是推理模型。在仔細看大家的輸出時,我發(fā)現(xiàn)不同考生的思維輸出風格存在差異。而這種差異,會給真正想通過AI學習的考生,帶來不同的感覺和效果。

      比如,豆包的思維鏈展示很長很完整,答案卻很簡潔。夸克的輸出更具引導性,比較像老師。元寶的內(nèi)容,更像是數(shù)學學霸,很喜歡計算和公式。

      拿頗具難度的第19題舉例。

      同樣是啟動深度思考模式,夸克不會把所有的思考過程呈現(xiàn),而是重述題目,并給出有步驟的解題思路。這個思路里面,也會劃一些高中考點。



      相比之下,豆包和元寶有點"做題機器"。

      在等待豆包給出答案的過程中,可以看到豆包會將長長長的思考思維鏈完整輸出。之后的解答部分雖然簡潔,但看表述確實只能用來對答案,難以引發(fā)思考。



      元寶的回答少了一些清晰的思路指引。相對于夸克和豆包,計算步驟都更復雜一些,基本直奔計算而去,不會在表述中強調(diào)考點。


      *元寶答案示例

      如果從認真學習的角度,相信還是有更多人喜歡夸克老師的引導式畫風。



      總之,這一次的測評中,我們真實把這四個AI考生真正當作人類測試。發(fā)現(xiàn)不管是腦力還是眼力,AI們的進步已經(jīng)超出想象。隨著AI越來越聰明,或許我會收獲更多的老師。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      無法無天!裁判全場28次錯漏判偏向日本 最后1分鐘更是臉都不要了

      無法無天!裁判全場28次錯漏判偏向日本 最后1分鐘更是臉都不要了

      念洲
      2026-02-28 09:33:02
      為什么東風-41洲際導彈,拒絕使用“北斗”衛(wèi)星導航制導?

      為什么東風-41洲際導彈,拒絕使用“北斗”衛(wèi)星導航制導?

      Ck的蜜糖
      2026-02-28 01:00:58
      “大學女兒非要買LV”視頻火了,網(wǎng)友:窮人穿上龍袍也不像太子

      “大學女兒非要買LV”視頻火了,網(wǎng)友:窮人穿上龍袍也不像太子

      妍妍教育日記
      2026-02-25 21:18:14
      央視曝光3場“空中硬仗”:別再吹裝備了,真正讓對手怕的是這個

      央視曝光3場“空中硬仗”:別再吹裝備了,真正讓對手怕的是這個

      云天之巔明
      2026-02-23 20:05:44
      曼城恐怖賽程!51天踢12場,連戰(zhàn)皇馬槍手藍軍,阿森納兩度受益

      曼城恐怖賽程!51天踢12場,連戰(zhàn)皇馬槍手藍軍,阿森納兩度受益

      奧拜爾
      2026-02-27 20:04:17
      秦始皇最牛的不是統(tǒng)一六國,而是給中國裝了一套用2000年的系統(tǒng)

      秦始皇最牛的不是統(tǒng)一六國,而是給中國裝了一套用2000年的系統(tǒng)

      近史談
      2026-02-26 17:50:25
      從頭到腳都可替?《鏢人》陳麗君這兩個鏡頭,讓多少流量明星汗顏

      從頭到腳都可替?《鏢人》陳麗君這兩個鏡頭,讓多少流量明星汗顏

      喵喵娛樂團
      2026-02-25 15:38:24
      冬奧會剛結(jié)束!2歸化或離開國家隊,谷愛凌年賺1.6億+還獲贈3臺車

      冬奧會剛結(jié)束!2歸化或離開國家隊,谷愛凌年賺1.6億+還獲贈3臺車

      法老不說教
      2026-02-27 17:10:58
      名嘴:科比被粉絲高估了!集錦和社媒讓粉絲以為他很強!

      名嘴:科比被粉絲高估了!集錦和社媒讓粉絲以為他很強!

      氧氣是個地鐵
      2026-02-28 11:01:21
      庫明加兩戰(zhàn)轟44+16+7,主帥公開稱贊他無私!老鷹兩筆1換2皆大賺

      庫明加兩戰(zhàn)轟44+16+7,主帥公開稱贊他無私!老鷹兩筆1換2皆大賺

      鍋子籃球
      2026-02-27 13:59:15
      謝賢擔心的事還是發(fā)生!張柏芝給口無遮攔的CoCo,早早就上了一課

      謝賢擔心的事還是發(fā)生!張柏芝給口無遮攔的CoCo,早早就上了一課

      喜歡歷史的阿繁
      2026-02-28 06:59:57
      C羅的蝴蝶效應!收購西乙球隊24小時,粉絲從不足50萬飆升至300萬

      C羅的蝴蝶效應!收購西乙球隊24小時,粉絲從不足50萬飆升至300萬

      萬花筒體育球球
      2026-02-28 01:44:20
      “反詐老陳”被罰,160萬粉絲賬號已搜不到

      “反詐老陳”被罰,160萬粉絲賬號已搜不到

      澎湃新聞
      2026-02-28 10:54:07
      鄭麗文3月12日訪問大陸?國民黨表態(tài),兩人公然和鄭麗文唱反調(diào)

      鄭麗文3月12日訪問大陸?國民黨表態(tài),兩人公然和鄭麗文唱反調(diào)

      北緯的咖啡豆
      2026-02-27 23:47:48
      《鏢人》票房破10億,距《臥虎藏龍》還差5億,全球冠軍夢要碎了

      《鏢人》票房破10億,距《臥虎藏龍》還差5億,全球冠軍夢要碎了

      影視高原說
      2026-02-27 19:18:49
      38歲王思聰私生活混亂揮霍無度,再傳大丑聞

      38歲王思聰私生活混亂揮霍無度,再傳大丑聞

      悅君兮君不知
      2026-02-27 21:20:11
      我資助的貧困生考上名校后立馬拉黑我,畢業(yè)時她才發(fā)現(xiàn)自己有多傻

      我資助的貧困生考上名校后立馬拉黑我,畢業(yè)時她才發(fā)現(xiàn)自己有多傻

      黃小乖的日記
      2026-02-27 20:04:25
      國際籃聯(lián)公開致歉,承認裁判問題,日媒認同吹罰不公正

      國際籃聯(lián)公開致歉,承認裁判問題,日媒認同吹罰不公正

      現(xiàn)代小青青慕慕
      2026-02-28 09:00:40
      奧運會為什么要用掉那么多避孕套?頂尖運動員旺盛精力更需要滿足

      奧運會為什么要用掉那么多避孕套?頂尖運動員旺盛精力更需要滿足

      我心縱橫天地間
      2026-02-24 08:45:28
      黃一鳴帶小孩給爺爺奶奶拜年,嘴巴很甜,被懷疑是變相要紅包

      黃一鳴帶小孩給爺爺奶奶拜年,嘴巴很甜,被懷疑是變相要紅包

      新游戲大妹子
      2026-02-18 09:18:57
      2026-02-28 11:32:49
      四木相對論 incentive-icons
      四木相對論
      嘮嘮科技,看看世界
      113文章數(shù) 2關注度
      往期回顧 全部

      科技要聞

      狂攬1100億美元!OpenAI再創(chuàng)融資神話

      頭條要聞

      1歲多男童春節(jié)探親鼠藥中毒 爸爸:他還沒好好看過世界

      頭條要聞

      1歲多男童春節(jié)探親鼠藥中毒 爸爸:他還沒好好看過世界

      體育要聞

      球隊主力全報銷?頂風擺爛演都不演了

      娛樂要聞

      郭晶晶霍啟剛現(xiàn)身香港藝術節(jié)盡顯恩愛

      財經(jīng)要聞

      沈明高提共富建議 百姓持科技股國家兜底

      汽車要聞

      嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

      態(tài)度原創(chuàng)

      游戲
      家居
      時尚
      旅游
      教育

      IGN再評9分格斗神作!2D格斗天花板絕對夯爆了

      家居要聞

      素色肌理 品意式格調(diào)

      被章若楠、秦嵐帶火的鞋子竟然是它?春天這樣穿又美又氣質(zhì)!

      旅游要聞

      逛吃遛娃、看展淘貨,青島四方機廠1900“瑞馬食集”啟幕

      教育要聞

      提醒!2025-2026學年上學期高中綜評即將歸檔!歸檔后無法更改

      無障礙瀏覽 進入關懷版