<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      大模型答題總翻車(幻覺)?先挑錯(cuò)再寫答案,正確率飆升還不花錢!

      0
      分享至

      你有沒有過這種經(jīng)歷:做數(shù)學(xué)題時(shí),自己順著思路算半天得出錯(cuò)誤答案,可看到同學(xué)的錯(cuò)題后,反而一眼看穿問題所在?現(xiàn)在,清華大學(xué)的研究團(tuán)隊(duì)把這個(gè) “人類小技巧” 用在了大模型上,居然讓 AI 的推理能力暴漲 ——關(guān)鍵是,不用額外訓(xùn)練、不用多花錢,只是換個(gè)提問方式!

      論文《Asking LLMs to Verify First is Almost Free Lunch》就進(jìn)行了這項(xiàng)研究。


      核心思想特別簡(jiǎn)單:給大模型提問題時(shí),別讓它直接 “一步一步想答案”,而是先扔給它一個(gè)候選答案(哪怕是隨機(jī)猜的、無關(guān)緊要的),讓它先驗(yàn)證 “這個(gè)答案對(duì)不對(duì)”,再自己寫正確答案。就這么一個(gè)小改動(dòng),大模型的邏輯錯(cuò)誤率直接下降,還沒增加多少計(jì)算成本~


      圖 1:反向推理路徑(驗(yàn)證過程)更易構(gòu)建,且包含與正向推理路徑(標(biāo)準(zhǔn)思維鏈,CoT)互補(bǔ)的信息。

      原來大模型答題,也有 “自我中心” 的小毛病

      我們先搞懂:為啥大模型明明很聰明,卻總在簡(jiǎn)單推理題上翻車?

      比如這道經(jīng)典題:“蝙蝠和球一共1.1美元,蝙蝠比球貴1美元,球多少錢?” 很多人(包括大模型)會(huì)脫口而出 “0.1美元”—— 順著 “1.1-1=0.1” 的思路走,完全沒發(fā)現(xiàn)邏輯漏洞。

      這就是大模型的 “老毛病”:現(xiàn)在主流的推理方法叫 CoT(逐步思考),讓 AI “一步一步推導(dǎo)”。但 AI 是 “ autoregressive(自回歸)” 生成的,簡(jiǎn)單說就是 “順著自己的思路往下說”,更在乎表達(dá)流暢,反而容易忽略邏輯嚴(yán)謹(jǐn)性—— 就像人太相信自己的第一判斷,陷入 “自我中心”,看不到錯(cuò)誤。

      而且之前想提升 AI 推理能力,要么得花大價(jià)錢訓(xùn)練模型,要么讓 AI 多算幾十遍采樣答案,成本高得嚇人。

      “先挑錯(cuò)” 策略:給 AI 一個(gè) “錯(cuò)題”,它反而更會(huì)做!?

      清華團(tuán)隊(duì)的 VF(Verification-First,先驗(yàn)證)策略,剛好戳中了 AI 的 “軟肋”,還不用多花錢。核心是兩個(gè)超有趣的認(rèn)知規(guī)律:

      1. 驗(yàn)證答案,比自己算答案簡(jiǎn)單多了!

      2. 就像老師批改作業(yè)比自己做題快 —— 假設(shè)答案是 A,你只要倒著推 “這個(gè)答案能不能滿足題目條件”,比從零開始推導(dǎo)簡(jiǎn)單太多。哪怕給的是錯(cuò)答案,AI 在驗(yàn)證時(shí)也會(huì)理清 “題目該怎么解”,相當(dāng)于提前搭好了思路框架。從數(shù)學(xué)上來說,其實(shí)是讓大模型的回答事先收斂到相關(guān)領(lǐng)域的大的特征空間里,再?gòu)拇蟮奶卣骺臻g里尋找準(zhǔn)確的部分進(jìn)行檢索和回答。而非直接讓大模型跳進(jìn)最小的特征空間找答案。

      3. 讓 AI “挑別人的錯(cuò)”,能激活批判性思維!

      4. 人在評(píng)價(jià)別人時(shí),會(huì)不自覺跳出自己的思維定式;AI 也一樣~ 讓它先驗(yàn)證一個(gè) “外部答案”,能避免它順著自己的錯(cuò)誤思路一條道走到黑,減少 “想當(dāng)然” 的錯(cuò)誤。

      舉兩個(gè)例子,一看就懂!


      圖 2:帶有隨機(jī) / 簡(jiǎn)單答案的 VF 提示(右側(cè)),與標(biāo)準(zhǔn)的 CoT 提示(左側(cè))對(duì)比

      這張圖直接對(duì)比了 “普通 CoT” 和 “VF 策略” 的區(qū)別,兩道題就能看出差距:

      左欄是普通 CoT:AI 順著思路推導(dǎo),蝙蝠和球的題答錯(cuò)(算成 0.1 美元),“一年有幾個(gè)月有 28 天” 也答錯(cuò)(只想到 2 月,忘了所有月份都有 28 號(hào))。

      右欄是 VF 策略:先給一個(gè)隨機(jī)答案 “1”,讓 AI 先驗(yàn)證——? 驗(yàn)證蝙蝠和球的題:“如果球是 1 美元,蝙蝠就是 2 美元,總價(jià) 3 美元,不對(duì)!” 然后順理成章列出方程,算出正確答案 0.05 美元;? 驗(yàn)證月份題:“如果答案是 1,意味著只有 1 個(gè)月有 28 天,但題目問的是‘有 28 天’,不是‘只有 28 天’,所有 12 個(gè)月都符合!” 直接糾正錯(cuò)誤。

      是不是很神奇?一個(gè)隨機(jī)的 “錯(cuò)題”,反而幫 AI 理清了思路~

      升級(jí)款 Iter-VF:讓 AI 自己迭代 “挑錯(cuò)”,越算越準(zhǔn)

      如果遇到復(fù)雜題,給一個(gè)隨機(jī)答案不夠用怎么辦?團(tuán)隊(duì)又搞出了 “迭代版”——Iter-VF。

      簡(jiǎn)單說就是:讓 AI 自己生成第一個(gè)答案,然后用 VF 策略驗(yàn)證這個(gè)答案、生成新答案;再用新答案當(dāng) “候選答案”,重復(fù)驗(yàn)證 - 生成的過程,循環(huán)幾次(次數(shù)可以控制,不浪費(fèi)算力)。


      圖3:(a)使用先前生成的答案進(jìn)行VF提示的說明,以及將此過程迭代為(b)用于測(cè)試時(shí)擴(kuò)展的Iter-VF的說明。

      圖 3 左邊展示了 “用 AI 之前的答案做驗(yàn)證”(比如編程題,沒法給隨機(jī)答案,就用 AI 第一次寫的代碼當(dāng)候選),右邊是 Iter-VF 的循環(huán)流程:從初始答案開始,迭代驗(yàn)證 - 生成,最后得到最優(yōu)解。

      關(guān)鍵優(yōu)勢(shì)是:AI 每次只關(guān)注上一個(gè)答案,不糾結(jié)之前的推導(dǎo)過程,不會(huì)因?yàn)?“想太多” 導(dǎo)致邏輯混亂(這是很多其他迭代方法的通?。?,還能控制計(jì)算成本~

      實(shí)驗(yàn)結(jié)果:準(zhǔn)確率暴漲,成本幾乎可以忽略!

      團(tuán)隊(duì)在數(shù)學(xué)題(GSM8K、MATH500)、研究生級(jí)科學(xué)題(GPQA)、編程題(HumanEval)、API 調(diào)用等多個(gè)任務(wù)上測(cè)試,結(jié)果超亮眼:

      這里要貼論文圖 4 和表 1


      圖4:VF提示法始終優(yōu)于標(biāo)準(zhǔn)的CoT提示法。

      圖 4 能看到:不管是 10 億參數(shù)的小模型,還是 720 億參數(shù)的大模型,VF 策略都比普通 CoT 準(zhǔn)確率高,數(shù)學(xué)題上的提升尤其明顯(畢竟數(shù)學(xué)最需要邏輯嚴(yán)謹(jǐn));


      表1:推理基準(zhǔn)測(cè)試的輸出標(biāo)記數(shù)量。

      表 1 顯示:VF 只比 CoT 多輸出 20%-50% 的文字(token),計(jì)算成本幾乎可以忽略—— 對(duì)比其他需要多算幾十倍的方法,這簡(jiǎn)直是 “白嫖” 級(jí)提升!


      表2:編碼和API任務(wù)的性能比較。具有可比性結(jié)果的行未用水平線分隔。“HEval”是“HumanEval”的縮寫。

      表 2 證明:在編程、API 調(diào)用這些 “沒法給隨機(jī)答案” 的實(shí)際任務(wù)中,VF 用 AI 之前的答案做驗(yàn)證,表現(xiàn)也比 “讓 AI 算兩次”“讓 AI 自己修改” 好,甚至 “算兩次 VF” 的正確率能沖到 99.4%;


      表3:與隱藏思維的大語言模型服務(wù)的性能對(duì)比。準(zhǔn)確率%(輸出令牌數(shù)量)。

      表 3 更厲害:哪怕是 GPT-5 這種 “隱藏思考過程” 的商業(yè)大模型(我們看不到它怎么推導(dǎo),沒法讓它 “修改思路”),用 VF 策略也能提升準(zhǔn)確率,而且只多花一點(diǎn)點(diǎn)算力~

      總結(jié):簡(jiǎn)單卻強(qiáng)大的 “答題技巧”,未來可期!

      清華團(tuán)隊(duì)的這個(gè)方法,本質(zhì)上是 “借力打力”:不用改模型、不用多花錢,只是利用 “驗(yàn)證比生成簡(jiǎn)單”“批判性思維能避坑” 的認(rèn)知規(guī)律,就大幅提升了大模型的推理能力。

      對(duì)我們來說,以后用 AI 做題、寫代碼、解決問題時(shí),或許可以試試:先給 AI 一個(gè) “隨便猜的答案”,讓它先挑錯(cuò),再要正確結(jié)果 —— 說不定正確率會(huì)翻倍~

      感興趣的同學(xué)可以去看原文,里面還有更多實(shí)驗(yàn)細(xì)節(jié)和案例~ 不得不說,把人類的學(xué)習(xí)技巧用在 AI 上,真的太妙了!

      ? 科研不一定都要 “高大上”,有時(shí)候一個(gè)簡(jiǎn)單的思路轉(zhuǎn)變,就能帶來巨大突破~ 為研究團(tuán)隊(duì)點(diǎn)贊!

      原標(biāo)題:大模型答題總翻車(幻覺)?清華大學(xué)新方法:先挑錯(cuò)再寫答案,正確率飆升還不花錢!

      來源:計(jì)算科學(xué)

      編輯:丁香葉子

      轉(zhuǎn)載內(nèi)容僅代表作者觀點(diǎn)

      不代表中科院物理所立場(chǎng)

      如需轉(zhuǎn)載請(qǐng)聯(lián)系原公眾號(hào)

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      霸榜13年的滿分神作被毀,一場(chǎng)粉絲互撕,扒下了評(píng)分機(jī)制的底褲

      霸榜13年的滿分神作被毀,一場(chǎng)粉絲互撕,扒下了評(píng)分機(jī)制的底褲

      桃桃淘電影
      2026-02-21 12:15:08
      中國(guó)游客稱因道路積雪被困俄羅斯“極光村” 超40小時(shí),俄媒:滯留游客都已離開

      中國(guó)游客稱因道路積雪被困俄羅斯“極光村” 超40小時(shí),俄媒:滯留游客都已離開

      上游新聞
      2026-02-17 20:22:05
      沙塵暴席卷華北多地:北京、大同、石家莊等機(jī)場(chǎng)多個(gè)航班延誤;眾多景區(qū)關(guān)閉,山西懸空寺有商戶商品被風(fēng)吹跑

      沙塵暴席卷華北多地:北京、大同、石家莊等機(jī)場(chǎng)多個(gè)航班延誤;眾多景區(qū)關(guān)閉,山西懸空寺有商戶商品被風(fēng)吹跑

      大風(fēng)新聞
      2026-02-22 08:56:04
      “灣姐”與“小草”激烈廝殺!國(guó)民黨很精明,選擇坐山觀虎斗

      “灣姐”與“小草”激烈廝殺!國(guó)民黨很精明,選擇坐山觀虎斗

      海峽導(dǎo)報(bào)社
      2026-02-21 08:10:02
      新春走基層·一線直擊|打卡北京隆福寺:一籃年貨 喜樂相伴

      新春走基層·一線直擊|打卡北京隆福寺:一籃年貨 喜樂相伴

      新華社
      2026-02-20 22:19:21
      1比4慘??!陳熠遭遇崩盤,狀態(tài)低迷令人惋惜,網(wǎng)友質(zhì)疑經(jīng)驗(yàn)不足

      1比4慘??!陳熠遭遇崩盤,狀態(tài)低迷令人惋惜,網(wǎng)友質(zhì)疑經(jīng)驗(yàn)不足

      卿子書
      2026-02-22 07:18:07
      2月21日俄烏最新:川普為何對(duì)俄羅斯比較“軟”

      2月21日俄烏最新:川普為何對(duì)俄羅斯比較“軟”

      西樓飲月
      2026-02-21 20:37:43
      夫妻當(dāng)街毆打15歲女孩,官方通報(bào)

      夫妻當(dāng)街毆打15歲女孩,官方通報(bào)

      觀察者網(wǎng)
      2026-02-21 15:30:09
      裝都不裝了?消費(fèi)完丈夫的傅首爾再曝猛料,“狼子野心”藏不住了

      裝都不裝了?消費(fèi)完丈夫的傅首爾再曝猛料,“狼子野心”藏不住了

      一娛三分地
      2026-02-20 23:31:22
      太詭異,越南春聯(lián)上已沒有漢字!越南去漢字化確實(shí)很成功

      太詭異,越南春聯(lián)上已沒有漢字!越南去漢字化確實(shí)很成功

      魔都姐姐雜談
      2026-02-18 13:09:07
      春晚已發(fā)出強(qiáng)烈信號(hào):未來3年,普通人請(qǐng)把「小心」刻進(jìn)骨子里!

      春晚已發(fā)出強(qiáng)烈信號(hào):未來3年,普通人請(qǐng)把「小心」刻進(jìn)骨子里!

      動(dòng)物奇奇怪怪
      2026-02-21 20:01:35
      劉濤演媽祖擲圣杯3次獲允,男孩8次未過引福建老板集體放話

      劉濤演媽祖擲圣杯3次獲允,男孩8次未過引福建老板集體放話

      懶散的雅兒
      2026-02-21 20:19:58
      索賠22萬后撤訴,比寒心更寒心的事來了

      索賠22萬后撤訴,比寒心更寒心的事來了

      趣味萌寵的日常
      2026-02-22 04:33:44
      白天廣場(chǎng),晚上“尸”地,廣州荔灣靈異事件全揭秘

      白天廣場(chǎng),晚上“尸”地,廣州荔灣靈異事件全揭秘

      魏驚蟄
      2024-04-16 15:51:26
      年夜飯預(yù)制菜之爭(zhēng):廣東人為何從不糾結(jié)“白切雞”是否該進(jìn)料理包?

      年夜飯預(yù)制菜之爭(zhēng):廣東人為何從不糾結(jié)“白切雞”是否該進(jìn)料理包?

      馬蹄燙嘴說美食
      2026-02-22 06:04:57
      攻不了,也守不???中國(guó)空軍在西藏上空,被印度空軍足足欺負(fù)40年

      攻不了,也守不???中國(guó)空軍在西藏上空,被印度空軍足足欺負(fù)40年

      來科點(diǎn)譜
      2026-02-22 07:15:34
      隨著63歲穆帥率隊(duì)3-0,葡萄牙體育3-0,葡超最新積分榜出爐

      隨著63歲穆帥率隊(duì)3-0,葡萄牙體育3-0,葡超最新積分榜出爐

      側(cè)身凌空斬
      2026-02-22 08:26:37
      李琰沒想到,面對(duì)歷史最差,王濛徹底不忍了,喊話滑協(xié)痛斥管理層

      李琰沒想到,面對(duì)歷史最差,王濛徹底不忍了,喊話滑協(xié)痛斥管理層

      新時(shí)代精神
      2026-02-21 19:52:48
      美方扶持的4位中國(guó)富豪開始露頭了:在華瘋狂撈金,扭頭捐給美國(guó)

      美方扶持的4位中國(guó)富豪開始露頭了:在華瘋狂撈金,扭頭捐給美國(guó)

      來科點(diǎn)譜
      2026-02-22 07:06:28
      楊瀚森談與約基奇交流感受:練了十幾分鐘的英語全用上了

      楊瀚森談與約基奇交流感受:練了十幾分鐘的英語全用上了

      懂球帝
      2026-02-22 10:04:29
      2026-02-22 10:35:00
      中科院物理所 incentive-icons
      中科院物理所
      愛上物理,改變世界。
      9897文章數(shù) 136458關(guān)注度
      往期回顧 全部

      教育要聞

      萊頓大學(xué)排名:前十中國(guó)大學(xué)8所,浙大超哈佛,鄭州大學(xué)超斯坦福

      頭條要聞

      河北"巧克力釣魚大爺"因病去世享年75歲 家屬發(fā)聲

      頭條要聞

      河北"巧克力釣魚大爺"因病去世享年75歲 家屬發(fā)聲

      體育要聞

      徐夢(mèng)桃:這是我第一塊銅牌 給我換個(gè)吉祥物

      娛樂要聞

      黃曉明澳門賭博輸十幾億 本人親自回應(yīng)

      財(cái)經(jīng)要聞

      特朗普新加征關(guān)稅稅率從10%提升至15%

      科技要聞

      智譜上市1月漲5倍,市值超越京東、快手

      汽車要聞

      比亞迪的“顏值擔(dān)當(dāng)”來了 方程豹首款轎車路跑信息曝光

      態(tài)度原創(chuàng)

      健康
      本地
      教育
      藝術(shù)
      房產(chǎn)

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      本地新聞

      春花齊放2026:《駿馬奔騰迎新歲》

      教育要聞

      文字素描課 | 優(yōu)秀作文:裝滿回憶的樹

      藝術(shù)要聞

      這本書法,80%的人無法讀懂!網(wǎng)友直言:看到第二字就傻眼!

      房產(chǎn)要聞

      窗前即地標(biāo)!獨(dú)占三亞灣C位 自貿(mào)港總裁行宮亮相

      無障礙瀏覽 進(jìn)入關(guān)懷版