<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      讓AI像人類一樣做高考數學題,夸克領跑、豆包緊隨

      0
      分享至

      一年一度的高考落下帷幕。對大模型來說,這已經是它第三次參與這場本屬于人類考生的考試。

      但和前兩年不同,之前人們喜歡安排大模型產品寫高考作文。今年隨著推理模型的火熱,人們開始熱衷讓它參與高考數學。

      一個有意思的變化在于,這兩天各種各樣的高考數學測評結果證明,今年大模型似乎有了質的飛躍——從純粹的文科生,成為了數學成績也不錯的理科生。

      為驗證這一結果,我們也選取了四個AI產品——豆包、夸克、元寶和ChatGPT進行測評。



      由于這幾家模型均具備多模態能力,所以我們將2025年全國新課標數學I卷的題目直接投喂給大模型,不做格式轉換,不開啟聯網搜索,所有測試模型只有一次答題機會。

      關于考核標準,我們覺得如果讓AI參與考試,就應該把它們當作一個真正的考生考核

      所以,本次測評拆解了三大維度

      • 結果正確率:AI考生能力的最直觀體現。
      • 答題速度:考試有時間限制,AI考生也應該注意時間安排。
      • 識別準確率:人類考生需要審題準確,不能出現看錯數字、符號等問題。所以有多模態能力的AI考生,也需要參與這一考核。

      基于這三個維度,我們通過分別打分再計總分的形式,測試出AI考生們的高考數學的考試名次。

      更細致的"閱卷規則"參考:



      經過以上三個維度的綜合測試,最終AI考生們的全面考察結果如下:


      *綜合測評圖


      *綜合排名圖

      如果單看純粹的卷面分,這幾家AI考生的數學分數都在110分以上。想起去年,AI們的高考數學題還經常不及格,真是今非昔比。

      而且,不僅是做題,這些AI選手們的解題速度和視覺理解能力都非常強——大部分題目都能在3分鐘內完成。只有元寶沒有識別出其中的一道題目,其他AI助手在識別上都拿了滿分。

      誰答對了最多題?

      直接的考試分數,是考生最關心的事情。

      根據卷面分數,夸克、豆包和ChatGPT分列前三。

      一個小插曲是,ChatGPT在難題中經常嘗試寫代碼解題,準確率較高。但考慮到高考現場的考生們不會配備電腦寫代碼解題,所以我們立刻禁止了它寫代碼。

      整體看下來,大家的選擇題和填空題得分差距不是非常大,錯誤都不是很多。尤其是夸克和ChatGPT,選擇和填空題全對。



      解答題是讓各家AI考生有點為難的題目。尤其是16題,大家都有錯誤。

      首先是元寶,從一開始沒能識別出這一道題目,所以也就無法作答——這也是我們這次測試中,唯一一個沒有被某一模型識別出的題目。

      豆包在這道題上犯錯的原因也有點令人迷惑,題目解題思路過程都是對的,就是要把題目中的“m”改成“n”。

      感覺這里豆包在審題上出現了理解偏差,不能將“m”和“n”區分開,正確理解m的含義。



      在選擇和填空上第一名的夸克,第16題中的錯誤很可惜地發生在最后一步——“利用錯位相減法”得出最終結果的部分。

      向上翻了一下思考過程,發現它有點“心口不一”。一邊說著“相加”,一邊算著“相減”,最后結果錯誤。

      誰答得最快,審題最清晰?

      答題速度,屬于AI考生們的舒適區。

      基本上,這四個AI考生的選擇題基本都能在60秒內出結果。只有ChatGPT和元寶的第六題,超過了一分鐘(但還是很)。

      來到解答題,大家的耗時意料之中增加了不少。尤其是ChatGPT,基本最后的幾道大題都需要思考6分鐘左右。

      不過在耗時更長的解題過程里,我們也看到一些驚喜。比如,ChatGPT會自己放大題目、左看右看,確認識別沒有問題后再開始解題。


      *ChatGPT會自己放大圖片,來仔細檢查箭頭首尾在坐標軸上的位置

      夸克和豆包也很讓人驚喜。在整體的速度測評中,夸克位列第一,豆包以一分之差位列第二。

      這兩家做最難的解答題,單題最長耗費時間在4分鐘左右。



      至于和多模態相關的審題能力,AI考生們基本上都沒讓人失望。除了元寶有一題識別不出來,其他考生都是滿分。

      不同的輸出風格,讓我找到AI老師

      測到這里,本次AI考生的高考數學測評基本可以結束了。

      但在就在核對答案的過程中,我還有一個不同尋常的發現。

      參與測評的AI考生背后,基本都是推理模型。在仔細看大家的輸出時,我發現不同考生的思維輸出風格存在差異。而這種差異,會給真正想通過AI學習的考生,帶來不同的感覺和效果。

      比如,豆包的思維鏈展示很長很完整,答案卻很簡潔。夸克的輸出更具引導性,比較像老師。元寶的內容,更像是數學學霸,很喜歡計算和公式。

      拿頗具難度的第19題舉例。

      同樣是啟動深度思考模式,夸克不會把所有的思考過程呈現,而是重述題目,并給出有步驟的解題思路。這個思路里面,也會劃一些高中考點。



      相比之下,豆包和元寶有點"做題機器"。

      在等待豆包給出答案的過程中,可以看到豆包會將長長長的思考思維鏈完整輸出。之后的解答部分雖然簡潔,但看表述確實只能用來對答案,難以引發思考。



      元寶的回答少了一些清晰的思路指引。相對于夸克和豆包,計算步驟都更復雜一些,基本直奔計算而去,不會在表述中強調考點。


      *元寶答案示例

      如果從認真學習的角度,相信還是有更多人喜歡夸克老師的引導式畫風。



      總之,這一次的測評中,我們真實把這四個AI考生真正當作人類測試。發現不管是腦力還是眼力,AI們的進步已經超出想象。隨著AI越來越聰明,或許我會收獲更多的老師。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      洪秀柱和鄭麗文完全不是一路人!

      洪秀柱和鄭麗文完全不是一路人!

      果媽聊娛樂
      2026-04-15 08:52:10
      72歲成龍近況:帶43歲房祖名惠州游玩,市長親自陪同,父子感情好

      72歲成龍近況:帶43歲房祖名惠州游玩,市長親自陪同,父子感情好

      神奇故事
      2026-04-15 22:42:03
      中年抑郁的人,多半有這9個跡象,看似正常卻危險

      中年抑郁的人,多半有這9個跡象,看似正常卻危險

      十點讀書
      2026-04-19 18:37:02
      乒乓球最新消息!傳來4大主力好消息,樊振東 王楚欽 馬龍 孫穎莎

      乒乓球最新消息!傳來4大主力好消息,樊振東 王楚欽 馬龍 孫穎莎

      寶哥精彩賽事
      2026-04-19 14:09:24
      一個害國害民的歷史罪人,老百姓還把他當成英雄崇拜

      一個害國害民的歷史罪人,老百姓還把他當成英雄崇拜

      小豫講故事
      2026-04-19 06:00:10
      沒有不透風的墻!沈騰和林允的瓜未必是假的、站姐關站跑路

      沒有不透風的墻!沈騰和林允的瓜未必是假的、站姐關站跑路

      琴聲飛揚
      2026-01-20 14:25:10
      全軍覆沒?馬斯克稱6G重大突破,中國露出底牌,外媒:徹底沒戲了

      全軍覆沒?馬斯克稱6G重大突破,中國露出底牌,外媒:徹底沒戲了

      霽寒飄雪
      2026-04-18 11:42:59
      10萬港人擠爆深圳!月租3000住公寓,網友:風水怎么輪流轉了?

      10萬港人擠爆深圳!月租3000住公寓,網友:風水怎么輪流轉了?

      風風順
      2026-04-19 02:05:03
      日本軍艦闖臺海后,美國接到通知,中國東海劃5處警戒區,有動作

      日本軍艦闖臺海后,美國接到通知,中國東海劃5處警戒區,有動作

      基斯默默
      2026-04-19 21:13:36
      一把輸掉十幾億,欠200億跑路,今在印尼發財,手下人個個不一般

      一把輸掉十幾億,欠200億跑路,今在印尼發財,手下人個個不一般

      瀲滟晴方DAY
      2026-04-17 22:01:07
      沈騰攜妻子參加聚會,王琦穿新中式又白又美,兩人私下穿搭反差大

      沈騰攜妻子參加聚會,王琦穿新中式又白又美,兩人私下穿搭反差大

      古希臘掌管松餅的神
      2026-04-18 13:08:33
      英超教練市場瘋了:官宣離隊24小時,水晶宮砸重金搶人

      英超教練市場瘋了:官宣離隊24小時,水晶宮砸重金搶人

      賽場名場面
      2026-04-19 11:39:15
      Q女士爆料:張婉婷向她索要500萬,不是賠償,而是宋寧峰的轉讓費

      Q女士爆料:張婉婷向她索要500萬,不是賠償,而是宋寧峰的轉讓費

      娛文速遞
      2026-04-19 16:15:36
      5月1日醫療新政來了!全國公立醫院改革,以后看病不用再擠破頭

      5月1日醫療新政來了!全國公立醫院改革,以后看病不用再擠破頭

      復轉這些年
      2026-04-16 12:26:39
      森蝶18歲近照曝光!下巴矯正后側臉絕了,女大十八變真不是說說

      森蝶18歲近照曝光!下巴矯正后側臉絕了,女大十八變真不是說說

      一盅情懷
      2026-04-16 11:33:14
      CBA最新排名!廣東輸球北京登第4;遼寧山東奪第8,搶12名剩3支

      CBA最新排名!廣東輸球北京登第4;遼寧山東奪第8,搶12名剩3支

      兵哥籃球故事
      2026-04-18 23:13:00
      廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

      廣東珠海一女神好漂亮, 身高179cm,體重50kg 美的讓人移不開眼

      今日搞笑分享
      2026-04-06 17:55:16
      徐冬冬尹子維官宣生娃:不辦婚禮不曬娃,這屆明星終于活明白了

      徐冬冬尹子維官宣生娃:不辦婚禮不曬娃,這屆明星終于活明白了

      小貓娛樂叭叭
      2026-04-18 17:34:18
      重磅:這兩家證券公司擬合并

      重磅:這兩家證券公司擬合并

      新浪財經
      2026-04-19 17:10:32
      任重為孫驍驍慶生,倆人同吃一碗面住獨棟大別墅,院子好大

      任重為孫驍驍慶生,倆人同吃一碗面住獨棟大別墅,院子好大

      君笙的拂兮
      2026-04-19 20:43:43
      2026-04-19 22:48:49
      四木相對論 incentive-icons
      四木相對論
      嘮嘮科技,看看世界
      128文章數 2關注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀錄!300臺機器人狂飆半馬

      頭條要聞

      男子直播看得"心癢癢"貸款幾十萬賭石:不敢告訴老婆

      頭條要聞

      男子直播看得"心癢癢"貸款幾十萬賭石:不敢告訴老婆

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      張天愛評論區淪陷!被曝卷入小三風波

      財經要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態度原創

      游戲
      數碼
      教育
      親子
      公開課

      《識質存在》宣傳圖被P 里昂亂入造就無敵組合

      數碼要聞

      大力出奇跡!Intel終于拿出對付3D緩存的絕招:288MB bLLC大平層緩存暴力碾壓AMD

      教育要聞

      學生扎堆選物化生,致湖南某重高現56人班額?高中選科要規避盲區

      親子要聞

      孩子總打噴嚏、起疹子,時過敏嗎?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版