![]()
從今年 11 月下旬開始,國產 AI 助手的節奏明顯加快。
11 月 22 日,靈光憑借「一句話生成小應用」的閃應用能力迅速出圈,上線僅四天下載量突破一百萬;11 月底,豆包手機助手在工程機上實測亮相,掀起了關于系統級 AI 是否能接管手機操作的討論;12 月 3 日,千問 App 接入號稱「阿里最強學習大模型」的 Qwen3-Learning,公測首周下載量突破一千萬,刷新了國內 AI 應用增速紀錄。
這三款國產 AI 助手共同展示了一個清晰的趨勢:國產 AI 正在從單純的技術競爭向實際應用場景的快速過渡,尤其是在教育領域。它們不僅在技術上追趕國際前沿,更在實踐中探索是否能真正成為學生的「學習助手」。為此,本文將從五個常見的學習場景入手,測評豆包、千問和靈光在課堂上的表現,分析它們各自的功能特性:誰更像一位老師,誰更像工具,誰又能真正成為學生成長路上的學習伙伴。
![]()
學習的起點是聽懂一道題。第一組測試,我們讓三款助手面對同一套題:一道六年級數學應用題、一道初中古詩賞析題、一個初中英語句型。
數學題是一道常見的修路問題:第一天修全長的六分之一,第二天修全長的四分之一,兩天共修 140 米,問路長多少。給出的指令只有一句話——要像給六年級學生講解一樣,一步步講清過程,不要直接把答案報出來。
![]()
(從左到右依次是豆包、千問、靈光,以下圖片保持此順序)
豆包的講法最接近「分步板書」。它先帶學生回到分數本身:1/6 和 1/4 分別代表什么,再引導算出兩天一共修了多少份,接著把這部分和「140 米」對應起來,最后停在「140 除以五分之十二」這一句上,明確點出運算關系,卻把計算結果留給學生自己完成。它把過程拆得很細,結構也很清楚,更像一節有節奏的答疑小課。
千問則直接上了代數路線。它把條件轉寫成方程:設路長為 x,列出「x×(1/6+1/4)=140」,合并分數、化簡方程,順暢地求出答案。整個過程利落干凈,邏輯也完全正確,只是對剛接觸應用題的學生來說,少了一些從「文字條件」過渡到「數學表達」的停頓點,更像是給已經具備方程基礎的學生看的解析。
靈光站在中間位置。一方面,它會根據條件列出算式與等式,逐步寫出每一步的推導;另一方面,在表達上會通過排版和可視化把關鍵步驟突出出來,最后加上簡短的結論和檢查,整體呈現最像課堂上的「例題+板演」。
第二道語文題換成了李白的《上李邕》。指令要求不僅要回答兩道大題,還要告訴學生「怎么抓住這首詩的中心思想」。
![]()
豆包按部就班地完成任務:先把修辭和情感問題回答完整,再額外補上一段「如何抓中心思想」的方法,內容齊全,但結構略顯「模板化」。千問則是標準答題模式:直接給出兩問的規范答案,準確、完整,但不再往外延展。靈光則把答案、解題思路、易錯提醒和舉一反三全部放進一段連續的話語里,明顯帶著教輔寫作的影子,也更接近一位語文老師的講評稿。
英語部分,我們用的是一個典型的現在完成時例句「I have lived here for three years.」,要求講清結構、含義、常見錯誤和記憶方式。
![]()
三款助手都能說清 for 與 since 的區別,也能給出現在完成時的基本結構。豆包按指令完整鋪開,千問在準確性和緊湊度上稍有優勢,靈光則保持了清晰而不過度展開的風格。就這個單點來看,它們都已經具備「講清一個句型」的能力。
這一輪下來,三款 AI 在正確性上都沒有問題,但氣質各不相同:豆包擅長把一題拆成幾個明確步驟,讓學生跟著走;千問更像一本解析,把最關鍵的那條路徑畫得很清楚;靈光則在「講清楚」之外,又刻意補了一些教學上的設計感。
![]()
題講完了,真正拉開差距的往往出現在下一步:學生做錯了一道題,AI 能不能看懂「他為什么會錯」。
我們給出三個典型錯誤:
把 1/2 + 1/3 算成 2/5;「通過閱讀這本書,使我懂得了很多道理。」這樣的病句;以及「He go to school every day.」這種英語語法錯誤。 統一的指令是:判斷錯因,推測學生的知識盲點,并說明下一步該怎么教。
![]()
在分數加法的錯誤上,豆包準確指出了「直接把分子分母相加」這個表層問題,也能提到「沒有通分」這一關鍵步驟,只是整體分析停留在規則層面,延展不多。千問的回答多了一層「學生視角」,比如會提到學生可能受到「小數估算」的影響,把 1/2 當成 0.5,1/3 當成 0.33,于是習慣性用「差不多」的心態去拼結果,診斷中帶了點同理心,但沒有把錯因精確地落到某個知識點上。
靈光的視角則更偏教研。它會把這個錯誤拆成幾個可能的薄弱點:沒有建立起分數加法必須「分母統一」的概念,對最小公倍數的理解不牢,分數大小比較依然停留在直覺層面,甚至沒有形成「單位一致再運算」的常識。之后給出的教學建議也圍繞這些薄弱點展開,比如通過不同分母的具體例子強化通分流程。對老師來說,這樣的診斷更容易轉化為具體的補救設計。
在語病和英語錯誤部分,三款助手的表現都在線:都能識別「通過」后面缺主語,指出動詞形式應該用 goes。但豆包更偏向講規則,千問會多加一句「這種錯誤在學生寫作中很常見」,靈光則習慣把錯誤掛在某個清晰的知識標簽上,例如「介詞結構作狀語時,主語必須明確」「第三人稱單數需單獨強化」等。
這一輪測試的差別,可以概括為:豆包擅長指出「哪一筆寫錯了」,千問愿意多想一步「學生大概是怎么想的」,靈光則努力把錯題放回知識結構里,讓后續教學有一個明確的著力點。對真實教學場景來說,三種風格都能用,但適配的對象不太一樣。
![]()
講題、診斷之后,自然會走到練習題。我們設定了兩個場景:一是六年級「異分母分數加減法」,二是初一「一般現在時與一般過去時的對比」。要求三款助手分別生成 6 道題,分成基礎與提高兩類,遵循對應學段的難度,并盡量貼近真實課堂。
在數學部分,豆包按要求給出了三道計算題和三道簡單應用題,題目形式規范,難度也合適,只是看起來更像從題庫里抓出來的一組題,和前面的錯因分析關系不算緊密。靈光生成的題目同樣合格,但整體也偏「完成任務」,不像是圍繞某條教學主線精心設計出來的練習。
![]()
千問的表現則明顯帶著「教學工具」的色彩。它不僅會標注每道題的類型,例如「通分基礎題」「混合運算題」「生活情境應用題」,還會在部分題目后加上一行簡短說明,指出這道題主要訓練什么能力,比如「強化分母統一的意識」。最后,它還會自動把這些題整理成一個 Word 文檔,方便老師或家長直接下載編輯、打印使用。這種從「出一道題」到「出一份練習」的一體化能力,讓它更像是被設計來嵌入教學工作流的產品。
在英語練習生成上,三款助手同樣完成了任務,題目基本圍繞時態對比展開,也都加入了日常生活情境。差別依然類似:豆包和靈光提供的是「可用的一組題」,千問在題型標記和練習結構上多做了一點「老師視角」的功夫。
![]()
從結果來看,目前三款助手在「能不能出題」這一層都已經成熟,真正拉開差距的是「能不能為老師提供一組有教學意圖、有使用便利性」的題。就這一點而言,千問在學習大模型加持下,走得稍微更遠一些。
![]()
AI 能不能設計學習路徑,是家長和老師關心的另一個問題。我們構造了一個虛擬學生:小學六年級,計算題沒問題,但一遇到分數應用題就「腦袋一片空白」,不愛審題,看不出數量關系,對分數本身也不夠穩。三款助手的任務,是為這個學生制定一個 7 天的數學提升計劃,每天不超過 40 分鐘,有明確的小目標、有可以執行的練習,并在每天結尾寫一句簡短的鼓勵話。
![]()
豆包給出的計劃非常工整,習慣性用表格承載內容,把每天的重點、練習建議和時間分配都列出來,細節比較充分,適合家長快速瀏覽和打印。千問更注重語言的親和感和目標的聚焦,比如會在某一天明確寫上「今天只做一件事:先把題目讀對」,然后圍繞這個小目標安排練習,最后的鼓勵話術也明顯在「對話學生」,而不是只對家長說話。靈光的計劃略顯緊湊,句子更短、目標更清晰,像是一份訓練方案,強調的是每一天要攻克的關鍵點。
整體來看,這一輪測評并沒有出現「誰明顯不行」的情況,三款助手都已具備制定短期學習計劃的能力。它們之間的差別,更多體現在細節風格上:豆包偏工程化與結構化,千問更像班主任寫的學習建議,靈光則有一點「訓練營教練」的味道。
![]()
單次答疑之外,我們還想看一件事:當學習進入一個小閉環,AI 能不能記住前后邏輯,給出連貫的幫助。
為此,我們用了一個三步連續任務。
第一步,讓 AI 分析一條錯誤解題過程:「5/6?1/4=4/10=2/5」,并判斷學生的錯因與知識薄弱點;第二步,基于這些薄弱點出 3 道針對性的練習,并標出每道題主要訓練哪種能力;第三步,假設學生已經比之前做得好一些,請 AI 寫一段 3–4 句的學習反饋。
在第一步診斷中,三款助手延續了前面的水準:豆包能準確指出計算規則上的錯誤,千問會補充學生可能的直覺思維路徑,靈光則把問題更系統地歸類到通分、單位統一和數量關系理解等環節。
![]()
(豆包三步測評)
到了第二步,出練習題的針對性和承接感開始成為分水嶺。豆包給出的三道題,難度控制得不錯,也大致圍繞分數加減展開,但和前一輪診斷提到的薄弱點關聯不算非常緊密。靈光會刻意提示「這幾道題重點練習通分和單位統一」,但在題目本身的設計上,有時會出現額外的提醒和警示,讓練習顯得略微「用力過猛」。千問在這一環則做得比較自然:三道題分別對應前面提到的幾個弱點,每道題后面都有一句簡短說明,例如「這道題主要考你是不是先把分母變成一樣的」,既照顧到了邏輯承接,也便于家長理解為什么要做這道題。
![]()
(千問三步測評)
第三步的學習反饋,是最貼近真實課堂的部分。豆包的反饋內容完整,會提到學生在哪些地方有進步,也會提醒「下一步可以多練練讀題和列式」,整體結構清楚,但有時語氣略顯「機械」。靈光在這一步的內容相對簡短,主要是簡要肯定和一句鼓勵。千問的表現更接近老師寫的評語:先具體肯定改進之處,再指出仍需注意的點,語氣自然,不會過度鼓勵,也不會給學生壓力。
通過這個三步小閉環可以看出,當任務從「一次問答」升級到「一個小周期」,三款助手在連貫性上的差別被放大了。千問在前后承接、邏輯一致性和反饋細膩度上表現最好,豆包在執行指令和保持穩定方面最可靠,靈光則在分析型任務里更有優勢,但在連續陪伴的打磨上還有提升空間。
![]()
(靈光三步測評)
這五組實測呈現出一個相對清晰的圖景:豆包、千問和靈光,都已經可以在學習場景中「幫上忙」,但它們其實在扮演不同的角色。
豆包像一套結構扎實、執行可靠的學習工具。它擅長把過程拆開、把步驟講清楚,任務給得越具體,它完成得越干凈利落。千問更像一位試圖理解學生、也在意教學流程的老師:能講清楚、能看明白錯因、能給出一組有教學意圖的練習,也能在一兩周的學習路徑上保持語言和邏輯的連貫。靈光則在診斷和呈現方面有自己的長板,尤其是在把錯誤放回知識網絡、把解析做得更「課堂化」這一點上,展現出明顯的專業感。
對教育行業來說,更重要的并不是「誰贏了」,而是這次測評已經足夠說明:
我們討論 AI 學習助手時,焦點正在從「模型能力」轉向「教學能力」。下一步的競爭,不再只是比誰答題更快、誰能生成更多內容,而是比誰更尊重學習的節奏、誰更理解教學過程本身、誰能更自然地嵌入真實課堂與家庭學習場景。
2025 年,多鯨蟹宴& EE 年會將在合肥再次啟程,以更深的洞察與更開放的姿態,探討教育的下一個周期。我們將再次匯聚行業思考者、行動者與創新者,在變動中,尋找教育的確定性。
12 月 19–20 日,教育的未來,在這里相遇。
掃碼立即報名??
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.