網易首頁 > 網易號 > 正文申請入駐

大模型答題總翻車（幻覺）？清華大學新方法：先挑錯再寫答案，正確率飆升還不花錢！

2026-01-23 18:20:34　來源: 人工智能學家

北京舉報

分享至

你有沒有過這種經歷：做數學題時，自己順著思路算半天得出錯誤答案，可看到同學的錯題后，反而一眼看穿問題所在？現在，清華大學的研究團隊把這個 “人類小技巧” 用在了大模型上，居然讓 AI 的推理能力暴漲 —— 關鍵是，不用額外訓練、不用多花錢，只是換個提問方式！

論文《Asking LLMs to Verify First is Almost Free Lunch》就進行了這項研究。

核心思想特別簡單：給大模型提問題時，別讓它直接 “一步一步想答案”，而是先扔給它一個候選答案（哪怕是隨機猜的、無關緊要的），讓它先驗證 “這個答案對不對”，再自己寫正確答案。就這么一個小改動，大模型的邏輯錯誤率直接下降，還沒增加多少計算成本～

Figure 1: A reverse reasoning path (verification process) could be easier to find and contain complementary information to forward-reasoning path (standard CoT).

圖 1：反向推理路徑（驗證過程）更易構建，且包含與正向推理路徑（標準思維鏈，CoT）互補的信息。

原來大模型答題，也有 “自我中心” 的小毛病

我們先搞懂：為啥大模型明明很聰明，卻總在簡單推理題上翻車？

比如這道經典題：“蝙蝠和球一共1.1美元，蝙蝠比球貴1美元，球多少錢？” 很多人（包括大模型）會脫口而出 “0.1美元”—— 順著 “1.1-1=0.1” 的思路走，完全沒發現邏輯漏洞。

這就是大模型的 “老毛病”：現在主流的推理方法叫 CoT（逐步思考），讓 AI “一步一步推導”。但 AI 是 “ autoregressive（自回歸）” 生成的，簡單說就是 “順著自己的思路往下說”，更在乎表達流暢，反而容易忽略邏輯嚴謹性 —— 就像人太相信自己的第一判斷，陷入 “自我中心”，看不到錯誤。

而且之前想提升 AI 推理能力，要么得花大價錢訓練模型，要么讓 AI 多算幾十遍采樣答案，成本高得嚇人。

清華 “先挑錯” 策略：給 AI 一個 “錯題”，它反而更會做！?

清華團隊的 VF（Verification-First，先驗證）策略，剛好戳中了 AI 的 “軟肋”，還不用多花錢。核心是兩個超有趣的認知規律：

驗證答案，比自己算答案簡單多了！
就像老師批改作業比自己做題快 —— 假設答案是 A，你只要倒著推 “這個答案能不能滿足題目條件”，比從零開始推導簡單太多。哪怕給的是錯答案，AI 在驗證時也會理清 “題目該怎么解”，相當于提前搭好了思路框架。從數學上來說，其實是讓大模型的回答事先收斂到相關領域的大的特征空間里，再從大的特征空間里尋找準確的部分進行檢索和回答。而非直接讓大模型跳進最小的特征空間找答案。
讓 AI “挑別人的錯”，能激活批判性思維！
人在評價別人時，會不自覺跳出自己的思維定式；AI 也一樣～讓它先驗證一個 “外部答案”，能避免它順著自己的錯誤思路一條道走到黑，減少 “想當然” 的錯誤。

舉兩個例子，一看就懂！

Figure 2: VF prompting with random/trivial answer (Right), comparing with standard CoT prompting (Left) 圖 2：帶有隨機 / 簡單答案的 VF 提示（右側），與標準的 CoT 提示（左側）對比

這張圖直接對比了 “普通 CoT” 和 “VF 策略” 的區別，兩道題就能看出差距：

左欄是普通 CoT：AI 順著思路推導，蝙蝠和球的題答錯（算成 0.1 美元），“一年有幾個月有 28 天” 也答錯（只想到 2 月，忘了所有月份都有 28 號）；

右欄是 VF 策略：先給一個隨機答案 “1”，讓 AI 先驗證 ——? 驗證蝙蝠和球的題：“如果球是 1 美元，蝙蝠就是 2 美元，總價 3 美元，不對！” 然后順理成章列出方程，算出正確答案 0.05 美元；? 驗證月份題：“如果答案是 1，意味著只有 1 個月有 28 天，但題目問的是‘有 28 天’，不是‘只有 28 天’，所有 12 個月都符合！” 直接糾正錯誤。

是不是很神奇？一個隨機的 “錯題”，反而幫 AI 理清了思路～

升級款 Iter-VF：讓 AI 自己迭代 “挑錯”，越算越準

如果遇到復雜題，給一個隨機答案不夠用怎么辦？團隊又搞出了 “迭代版”——Iter-VF。

簡單說就是：讓 AI 自己生成第一個答案，然后用 VF 策略驗證這個答案、生成新答案；再用新答案當 “候選答案”，重復驗證 - 生成的過程，循環幾次（次數可以控制，不浪費算力）。

Figure 3: Illustration of (a) VF prompting with previously generated answer, and iterating such process as (b) Iter-VF for test-time scaling.

圖3：（a）使用先前生成的答案進行VF提示的說明，以及將此過程迭代為（b）用于測試時擴展的Iter-VF的說明。

圖 3 左邊展示了 “用 AI 之前的答案做驗證”（比如編程題，沒法給隨機答案，就用 AI 第一次寫的代碼當候選），右邊是 Iter-VF 的循環流程：從初始答案開始，迭代驗證 - 生成，最后得到最優解。

關鍵優勢是：AI 每次只關注上一個答案，不糾結之前的推導過程，不會因為 “想太多” 導致邏輯混亂（這是很多其他迭代方法的通病），還能控制計算成本～

實驗結果：準確率暴漲，成本幾乎可以忽略！

團隊在數學題（GSM8K、MATH500）、研究生級科學題（GPQA）、編程題（HumanEval）、API 調用等多個任務上測試，結果超亮眼：

這里要貼論文圖 4 和表 1

Figure 4: VF prompting consistently outperforms standard CoT prompting.

圖4：VF提示法始終優于標準的CoT提示法。

圖 4 能看到：不管是 10 億參數的小模型，還是 720 億參數的大模型，VF 策略都比普通 CoT 準確率高，數學題上的提升尤其明顯（畢竟數學最需要邏輯嚴謹）；

Table 1: Numbers of output tokens on reasoning benchmarks.

表1：推理基準測試的輸出標記數量。

表 1 顯示：VF 只比 CoT 多輸出 20%-50% 的文字（token），計算成本幾乎可以忽略 —— 對比其他需要多算幾十倍的方法，這簡直是 “白嫖” 級提升！

Table 2: Performance comparison on coding and API tasks. Rows of comparable results are not split by horizontal line. “HEval” is short for “HumanEval”.

表2：編碼和API任務的性能比較。具有可比性結果的行未用水平線分隔。“HEval”是“HumanEval”的縮寫。

表 2 證明：在編程、API 調用這些 “沒法給隨機答案” 的實際任務中，VF 用 AI 之前的答案做驗證，表現也比 “讓 AI 算兩次”“讓 AI 自己修改” 好，甚至 “算兩次 VF” 的正確率能沖到 99.4%；

Table 3: Performance comparison with thought-hidden LLM service. Accuracy % (output token number).

表3：與隱藏思維的大語言模型服務的性能對比。準確率%（輸出令牌數量）。

表 3 更厲害：哪怕是 GPT-5 這種 “隱藏思考過程” 的商業大模型（我們看不到它怎么推導，沒法讓它 “修改思路”），用 VF 策略也能提升準確率，而且只多花一點點算力～

總結：簡單卻強大的 “答題技巧”，未來可期！

清華團隊的這個方法，本質上是 “借力打力”：不用改模型、不用多花錢，只是利用 “驗證比生成簡單”“批判性思維能避坑” 的認知規律，就大幅提升了大模型的推理能力。

對我們來說，以后用 AI 做題、寫代碼、解決問題時，或許可以試試：先給 AI 一個 “隨便猜的答案”，讓它先挑錯，再要正確結果 —— 說不定正確率會翻倍～

作者信息：

這項研究來自清華大學電子工程系的ShiguangWu（wsg23@mails.tsinghua.edu.cn）QuanmingYao（qyaoaa@tsinghua.edu.cn）團隊，論文《Asking LLMs to Verify First is Almost Free Lunch》（讓大模型先驗證，簡直是 “白嫖” 級提升）于 2025 年 11 月 21 日發表在 arXiv 平臺（論文鏈接：arXiv:2511.21734v1 [cs.CL]）。

感興趣的同學可以去看原文，里面還有更多實驗細節和案例～不得不說，把人類的學習技巧用在 AI 上，真的太妙了！

? 科研不一定都要 “高大上”，有時候一個簡單的思路轉變，就能帶來巨大突破～為清華團隊點贊！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.