<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      大模型答題總翻車(幻覺)?清華大學新方法:先挑錯再寫答案,正確率飆升還不花錢!

      0
      分享至

      你有沒有過這種經歷:做數學題時,自己順著思路算半天得出錯誤答案,可看到同學的錯題后,反而一眼看穿問題所在?現在,清華大學的研究團隊把這個 “人類小技巧” 用在了大模型上,居然讓 AI 的推理能力暴漲 —— 關鍵是,不用額外訓練、不用多花錢,只是換個提問方式!

      論文《Asking LLMs to Verify First is Almost Free Lunch》就進行了這項研究。


      核心思想特別簡單:給大模型提問題時,別讓它直接 “一步一步想答案”,而是先扔給它一個候選答案(哪怕是隨機猜的、無關緊要的),讓它先驗證 “這個答案對不對”,再自己寫正確答案。就這么一個小改動,大模型的邏輯錯誤率直接下降,還沒增加多少計算成本~


      Figure 1: A reverse reasoning path (verification process) could be easier to find and contain complementary information to forward-reasoning path (standard CoT).

      圖 1:反向推理路徑(驗證過程)更易構建,且包含與正向推理路徑(標準思維鏈,CoT)互補的信息。

      原來大模型答題,也有 “自我中心” 的小毛病

      我們先搞懂:為啥大模型明明很聰明,卻總在簡單推理題上翻車?

      比如這道經典題:“蝙蝠和球一共1.1美元,蝙蝠比球貴1美元,球多少錢?” 很多人(包括大模型)會脫口而出 “0.1美元”—— 順著 “1.1-1=0.1” 的思路走,完全沒發現邏輯漏洞。

      這就是大模型的 “老毛病”:現在主流的推理方法叫 CoT(逐步思考),讓 AI “一步一步推導”。但 AI 是 “ autoregressive(自回歸)” 生成的,簡單說就是 “順著自己的思路往下說”,更在乎表達流暢,反而容易忽略邏輯嚴謹性 —— 就像人太相信自己的第一判斷,陷入 “自我中心”,看不到錯誤。

      而且之前想提升 AI 推理能力,要么得花大價錢訓練模型,要么讓 AI 多算幾十遍采樣答案,成本高得嚇人。

      清華 “先挑錯” 策略:給 AI 一個 “錯題”,它反而更會做!?

      清華團隊的 VF(Verification-First,先驗證)策略,剛好戳中了 AI 的 “軟肋”,還不用多花錢。核心是兩個超有趣的認知規律:

      1. 驗證答案,比自己算答案簡單多了!

      2. 就像老師批改作業比自己做題快 —— 假設答案是 A,你只要倒著推 “這個答案能不能滿足題目條件”,比從零開始推導簡單太多。哪怕給的是錯答案,AI 在驗證時也會理清 “題目該怎么解”,相當于提前搭好了思路框架。從數學上來說,其實是讓大模型的回答事先收斂到相關領域的大的特征空間里,再從大的特征空間里尋找準確的部分進行檢索和回答。而非直接讓大模型跳進最小的特征空間找答案。

      3. 讓 AI “挑別人的錯”,能激活批判性思維!

      4. 人在評價別人時,會不自覺跳出自己的思維定式;AI 也一樣~ 讓它先驗證一個 “外部答案”,能避免它順著自己的錯誤思路一條道走到黑,減少 “想當然” 的錯誤。

      舉兩個例子,一看就懂!


      Figure 2: VF prompting with random/trivial answer (Right), comparing with standard CoT prompting (Left) 圖 2:帶有隨機 / 簡單答案的 VF 提示(右側),與標準的 CoT 提示(左側)對比

      這張圖直接對比了 “普通 CoT” 和 “VF 策略” 的區別,兩道題就能看出差距:

      左欄是普通 CoT:AI 順著思路推導,蝙蝠和球的題答錯(算成 0.1 美元),“一年有幾個月有 28 天” 也答錯(只想到 2 月,忘了所有月份都有 28 號);

      右欄是 VF 策略:先給一個隨機答案 “1”,讓 AI 先驗證 ——? 驗證蝙蝠和球的題:“如果球是 1 美元,蝙蝠就是 2 美元,總價 3 美元,不對!” 然后順理成章列出方程,算出正確答案 0.05 美元;? 驗證月份題:“如果答案是 1,意味著只有 1 個月有 28 天,但題目問的是‘有 28 天’,不是‘只有 28 天’,所有 12 個月都符合!” 直接糾正錯誤。

      是不是很神奇?一個隨機的 “錯題”,反而幫 AI 理清了思路~

      升級款 Iter-VF:讓 AI 自己迭代 “挑錯”,越算越準

      如果遇到復雜題,給一個隨機答案不夠用怎么辦?團隊又搞出了 “迭代版”——Iter-VF。

      簡單說就是:讓 AI 自己生成第一個答案,然后用 VF 策略驗證這個答案、生成新答案;再用新答案當 “候選答案”,重復驗證 - 生成的過程,循環幾次(次數可以控制,不浪費算力)。


      Figure 3: Illustration of (a) VF prompting with previously generated answer, and iterating such process as (b) Iter-VF for test-time scaling.

      圖3:(a)使用先前生成的答案進行VF提示的說明,以及將此過程迭代為(b)用于測試時擴展的Iter-VF的說明。

      圖 3 左邊展示了 “用 AI 之前的答案做驗證”(比如編程題,沒法給隨機答案,就用 AI 第一次寫的代碼當候選),右邊是 Iter-VF 的循環流程:從初始答案開始,迭代驗證 - 生成,最后得到最優解。

      關鍵優勢是:AI 每次只關注上一個答案,不糾結之前的推導過程,不會因為 “想太多” 導致邏輯混亂(這是很多其他迭代方法的通病),還能控制計算成本~

      實驗結果:準確率暴漲,成本幾乎可以忽略!

      團隊在數學題(GSM8K、MATH500)、研究生級科學題(GPQA)、編程題(HumanEval)、API 調用等多個任務上測試,結果超亮眼:

      這里要貼論文圖 4 和表 1


      Figure 4: VF prompting consistently outperforms standard CoT prompting.

      圖4:VF提示法始終優于標準的CoT提示法。

      圖 4 能看到:不管是 10 億參數的小模型,還是 720 億參數的大模型,VF 策略都比普通 CoT 準確率高,數學題上的提升尤其明顯(畢竟數學最需要邏輯嚴謹);


      Table 1: Numbers of output tokens on reasoning benchmarks.

      表1:推理基準測試的輸出標記數量。

      表 1 顯示:VF 只比 CoT 多輸出 20%-50% 的文字(token),計算成本幾乎可以忽略 —— 對比其他需要多算幾十倍的方法,這簡直是 “白嫖” 級提升!


      Table 2: Performance comparison on coding and API tasks. Rows of comparable results are not split by horizontal line. “HEval” is short for “HumanEval”.

      表2:編碼和API任務的性能比較。具有可比性結果的行未用水平線分隔。“HEval”是“HumanEval”的縮寫。

      表 2 證明:在編程、API 調用這些 “沒法給隨機答案” 的實際任務中,VF 用 AI 之前的答案做驗證,表現也比 “讓 AI 算兩次”“讓 AI 自己修改” 好,甚至 “算兩次 VF” 的正確率能沖到 99.4%;


      Table 3: Performance comparison with thought-hidden LLM service. Accuracy % (output token number).

      表3:與隱藏思維的大語言模型服務的性能對比。準確率%(輸出令牌數量)。

      表 3 更厲害:哪怕是 GPT-5 這種 “隱藏思考過程” 的商業大模型(我們看不到它怎么推導,沒法讓它 “修改思路”),用 VF 策略也能提升準確率,而且只多花一點點算力~

      總結:簡單卻強大的 “答題技巧”,未來可期!

      清華團隊的這個方法,本質上是 “借力打力”:不用改模型、不用多花錢,只是利用 “驗證比生成簡單”“批判性思維能避坑” 的認知規律,就大幅提升了大模型的推理能力。

      對我們來說,以后用 AI 做題、寫代碼、解決問題時,或許可以試試:先給 AI 一個 “隨便猜的答案”,讓它先挑錯,再要正確結果 —— 說不定正確率會翻倍~

      作者信息:

      這項研究來自清華大學電子工程系ShiguangWu(wsg23@mails.tsinghua.edu.cn)QuanmingYao(qyaoaa@tsinghua.edu.cn)團隊,論文《Asking LLMs to Verify First is Almost Free Lunch》(讓大模型先驗證,簡直是 “白嫖” 級提升)于 2025 年 11 月 21 日發表在 arXiv 平臺(論文鏈接:arXiv:2511.21734v1 [cs.CL])。

      感興趣的同學可以去看原文,里面還有更多實驗細節和案例~ 不得不說,把人類的學習技巧用在 AI 上,真的太妙了!

      ? 科研不一定都要 “高大上”,有時候一個簡單的思路轉變,就能帶來巨大突破~ 為清華團隊點贊!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      戲子誤國!春節剛過3位明星相繼塌房,事情做絕一個比一個荒唐

      戲子誤國!春節剛過3位明星相繼塌房,事情做絕一個比一個荒唐

      琨玉秋霜
      2026-03-02 06:09:04
      “最慘超女”黃雅莉:沒工作沒積蓄,34歲生子后住5平米的小屋

      “最慘超女”黃雅莉:沒工作沒積蓄,34歲生子后住5平米的小屋

      地理三體說
      2026-01-29 21:40:34
      結婚不到一年,娶了“白月光”的李國慶,口碑徹底反轉了

      結婚不到一年,娶了“白月光”的李國慶,口碑徹底反轉了

      蕭鑟科普解說
      2026-02-26 06:07:11
      這老師真是絕代美人啊!

      這老師真是絕代美人啊!

      東方不敗然多多
      2026-03-01 01:09:31
      莫迪想賭一把大的,為了把中國企業釣去印度,畫7500億大餅做魚餌

      莫迪想賭一把大的,為了把中國企業釣去印度,畫7500億大餅做魚餌

      胖福的小木屋
      2026-03-01 22:34:51
      臺積電創辦人張忠謀:如果想扼殺中國大陸,中國大陸真的無能為力

      臺積電創辦人張忠謀:如果想扼殺中國大陸,中國大陸真的無能為力

      混沌錄
      2026-02-27 21:29:05
      重磅發布!“京通”APP要來了

      重磅發布!“京通”APP要來了

      家住昌平
      2026-03-02 21:27:03
      哇塞!交易界的"盲盒"要開啦!倫納德等來全明星后衛...

      哇塞!交易界的"盲盒"要開啦!倫納德等來全明星后衛...

      體育新角度
      2026-03-02 23:12:57
      氫彈威力上不封頂,但核武器有個不成文的規定:扔不到對方頭上去

      氫彈威力上不封頂,但核武器有個不成文的規定:扔不到對方頭上去

      沒有偏旁的常慶
      2026-03-01 07:00:11
      70%用戶表示“失去靈魂”,全新奧迪A6L:實力很強,口碑兩極分化

      70%用戶表示“失去靈魂”,全新奧迪A6L:實力很強,口碑兩極分化

      少數派報告Report
      2026-03-02 11:43:10
      演員李茂已租車開往阿曼,全家將經由阿曼乘機回國

      演員李茂已租車開往阿曼,全家將經由阿曼乘機回國

      三湘都市報
      2026-03-02 20:33:03
      伊朗稱用導彈摧毀阿聯酋“薩德”系統

      伊朗稱用導彈摧毀阿聯酋“薩德”系統

      參考消息
      2026-03-02 11:22:12
      驚!美國設“谷愛凌法案”?!沒收全部財產,背叛美國,必付代價

      驚!美國設“谷愛凌法案”?!沒收全部財產,背叛美國,必付代價

      北國向錫安
      2026-03-02 16:55:11
      明星卸妝后,曾黎臉蠟黃,王子文像老阿姨,看到王一博后我驚呆了

      明星卸妝后,曾黎臉蠟黃,王子文像老阿姨,看到王一博后我驚呆了

      最美的開始
      2026-02-24 19:00:14
      伊朗1200枚導彈復仇,美航母遇襲,三國準備下場,戰爭走向失控?

      伊朗1200枚導彈復仇,美航母遇襲,三國準備下場,戰爭走向失控?

      紓瑤
      2026-03-02 19:11:03
      100%賴賬,這何嘗不是一種極致的誠信!

      100%賴賬,這何嘗不是一種極致的誠信!

      財經保探長
      2026-02-28 10:46:25
      寵妾滅妻、“吸血”親爹,侄女再曝大瓜,楊議徹底活成全網笑話!

      寵妾滅妻、“吸血”親爹,侄女再曝大瓜,楊議徹底活成全網笑話!

      奇怪的鯊魚們
      2026-03-02 06:41:32
      小托馬斯狂言:杜蘭特退役必登歷史得分第二!死神真能封神?

      小托馬斯狂言:杜蘭特退役必登歷史得分第二!死神真能封神?

      林子說事
      2026-03-02 14:41:57
      因加速、倒放宣傳視頻引發爭議 兩家鴻蒙智行用戶中心公開致歉

      因加速、倒放宣傳視頻引發爭議 兩家鴻蒙智行用戶中心公開致歉

      中國能源網
      2026-03-02 11:47:11
      韓媒:韓國前國腳李記帝將與伊朗球隊解約,球員在大使館避難

      韓媒:韓國前國腳李記帝將與伊朗球隊解約,球員在大使館避難

      懂球帝
      2026-03-02 16:49:59
      2026-03-03 00:08:49
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領域權威媒體
      4555文章數 37413關注度
      往期回顧 全部

      教育要聞

      高考地理中的侵蝕類地貌

      頭條要聞

      媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

      頭條要聞

      媒體:拉里賈尼走向前臺 四大關鍵變量將決定伊朗命運

      體育要聞

      “想要我簽名嗎” 梅西逆轉后嘲諷對手主帥

      娛樂要聞

      李亞鵬與哥哥和解 只有一條真心話短信

      財經要聞

      油價飆升 美伊沖突將如何攪動全球經濟

      科技要聞

      蘋果中國官網上線iPhone 17e,4499元起

      汽車要聞

      國民SUV再添一員 瑞虎7L靜態體驗

      態度原創

      手機
      藝術
      家居
      游戲
      軍事航空

      手機要聞

      iPhone 17系列:國內銷量已破2200萬!網友:華為仍需努力

      藝術要聞

      簡約的風景畫,美國畫家Ben Bauer作品

      家居要聞

      萬物互聯 享科技福祉

      《寶可夢》新作M站90分!近年最新鮮的寶可夢體驗

      軍事要聞

      美國中央司令部透露對伊朗動武全部武器裝備清單

      無障礙瀏覽 進入關懷版