<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      AI也會(huì)嘴硬!看不清圖卻信心滿滿,研究團(tuán)隊(duì)如何讓它學(xué)會(huì)誠(chéng)實(shí)?

      0
      分享至

      多模態(tài)大模型,到底有多“嘴硬”?

      浙江大學(xué)聯(lián)合阿里巴巴、香港城市大學(xué)、密歇根大學(xué)的研究團(tuán)隊(duì)做了一個(gè)很直接的實(shí)驗(yàn):

      把輸入圖像從清晰狀態(tài)一路加噪到接近不可辨認(rèn),同時(shí)持續(xù)監(jiān)測(cè)模型的準(zhǔn)確率與置信度。

      結(jié)果是,準(zhǔn)確率斷崖式下跌,但置信度幾乎不動(dòng)。也就是說(shuō),圖像已經(jīng)看不清了,模型仍然會(huì)高置信度地給出答案。



      這類“盲目自信”,正是多模態(tài)大模型在復(fù)雜視覺(jué)推理中產(chǎn)生幻覺(jué)和誤判的重要根源。針對(duì)這一問(wèn)題,研究團(tuán)隊(duì)提出了CA-TTS(Confidence-Aware Test-Time Scaling)框架:先通過(guò)置信度驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)校準(zhǔn)模型的自我評(píng)估能力,再把校準(zhǔn)后的置信度轉(zhuǎn)化為推理階段的資源分配信號(hào)。



      這項(xiàng)工作的出發(fā)點(diǎn),其實(shí)是一個(gè)長(zhǎng)期被忽視的問(wèn)題:模型是否真的知道自己“不知道”?

      研究團(tuán)隊(duì)將上述現(xiàn)象定義為“感知鈍化”(Perceptual Bluntness)。也就是,模型對(duì)視覺(jué)信息質(zhì)量的變化缺乏敏感性,視覺(jué)證據(jù)已經(jīng)明顯退化,但置信度仍維持在高位。放在人類語(yǔ)境里,這很像一個(gè)人在看不清題目的情況下,仍然非常篤定地報(bào)出答案。



      訓(xùn)練階段的核心模塊是CDRL(Confidence-Driven Reinforcement Learning)。它的目標(biāo)不是單純提升答題準(zhǔn)確率,而是讓模型在“看得清”和“看不清”兩種情況下,給出與視覺(jué)證據(jù)相匹配的置信度。

      具體做法是,讓模型同時(shí)處理同一問(wèn)題的原始圖像與加噪圖像,并通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化一個(gè)雙重獎(jiǎng)勵(lì)機(jī)制:

      1. 感知敏感性獎(jiǎng)勵(lì):鼓勵(lì)模型在原始圖像與噪聲圖像之間產(chǎn)生合理的置信度差異。差異越大,說(shuō)明模型越能感知視覺(jué)退化。

      2. 校準(zhǔn)一致性獎(jiǎng)勵(lì):當(dāng)模型預(yù)測(cè)正確且置信度高時(shí)給予正向獎(jiǎng)勵(lì);當(dāng)模型預(yù)測(cè)錯(cuò)誤但置信度仍高時(shí)施加懲罰。

      這兩個(gè)獎(jiǎng)勵(lì)共同約束模型學(xué)會(huì)兩件事:一是對(duì)視覺(jué)退化保持敏感,二是對(duì)自身判斷保持誠(chéng)實(shí)。

      在訓(xùn)練數(shù)據(jù)上,研究團(tuán)隊(duì)從6個(gè)公開(kāi)基準(zhǔn)中篩選出1936個(gè)高質(zhì)量樣本,并使用CLIP注意力圖定位關(guān)鍵視覺(jué)區(qū)域,生成更具針對(duì)性的擾動(dòng),使噪聲集中施加在真正影響推理的局部區(qū)域。



      從結(jié)果看,CDRL的效果并不只是“置信度變低”這么簡(jiǎn)單,而是“置信度終于跟視覺(jué)證據(jù)對(duì)上了”。面對(duì)噪聲圖像時(shí),訓(xùn)練后的模型置信度下降幅度是訓(xùn)練前的4.3倍;面對(duì)遮擋條件時(shí),這一比值達(dá)到4.7倍。

      更值得注意的是,訓(xùn)練前模型在視角變換和馬賽克干擾下,置信度甚至還會(huì)反向上升,而CDRL訓(xùn)練后,所有視覺(jué)擾動(dòng)條件下的置信度都轉(zhuǎn)為顯著下降,ECE與AUC指標(biāo)也同步改善。

      有了更可信的置信度之后,研究團(tuán)隊(duì)進(jìn)一步提出CA-TTS,把“模型對(duì)自己有多確定”轉(zhuǎn)化為推理階段的調(diào)度信號(hào)。它包含三個(gè)協(xié)同工作的模塊,并由專家模型動(dòng)態(tài)決定何時(shí)介入:

      Self-Consistency:不再使用簡(jiǎn)單多數(shù)投票,而是采用置信度加權(quán)投票。模型生成多個(gè)候選答案后,先由內(nèi)部置信度進(jìn)行聚合,再引入專家模型作為外部校準(zhǔn)器,對(duì)候選答案進(jìn)行二次評(píng)估。

      Self-Reflection:當(dāng)初步結(jié)果的置信度不足時(shí),專家模型以Critic角色生成批評(píng)意見(jiàn),引導(dǎo)基礎(chǔ)模型重新推理,避免它在原有錯(cuò)誤路徑上反復(fù)自洽。

      Self-Check:在視覺(jué)層面對(duì)答案進(jìn)一步驗(yàn)證。通過(guò)對(duì)比解碼,比較原始圖像與噪聲圖像下的輸出概率分布;如果答案確實(shí)依賴視覺(jué)證據(jù),那么在噪聲圖像下其支持度應(yīng)當(dāng)下降。





      在四個(gè)主流視覺(jué)推理基準(zhǔn)上,CA-TTS的表現(xiàn)如下。需要強(qiáng)調(diào)的是,這里的基座模型統(tǒng)一為Qwen2.5-VL-7B,因此提升主要來(lái)自方法本身,而不是底座差異。

      幾組數(shù)字尤其有代表性。Math-Vision上,CA-TTS從基線的23.0%直接提升到42.4%,幾乎翻倍;MMMU上達(dá)到66.3%,相較基線提升17.5個(gè)百分點(diǎn)。這說(shuō)明它帶來(lái)的不是單點(diǎn)收益,而是在不同類型視覺(jué)推理任務(wù)上的一致性改進(jìn)。

      消融實(shí)驗(yàn)進(jìn)一步揭示了CDRL與CA-TTS的分工關(guān)系:



      單獨(dú)使用CDRL,提升3.4個(gè)百分點(diǎn),說(shuō)明置信度校準(zhǔn)本身就有獨(dú)立價(jià)值;單獨(dú)使用CA-TTS,提升15.0個(gè)百分點(diǎn),說(shuō)明推理框架已經(jīng)能夠顯著改善決策質(zhì)量;兩者結(jié)合后總提升達(dá)到19.4個(gè)百分點(diǎn),表明CDRL為CA-TTS提供了更可靠的策略基礎(chǔ),二者存在明顯協(xié)同效應(yīng)。



      研究團(tuán)隊(duì)還檢驗(yàn)了專家模型的依賴程度。即使讓Qwen2.5-VL-7B自身充當(dāng)“專家”,性能也仍比純Majority Voting高出接近5個(gè)百分點(diǎn)(32.57% vs. 27.65%)。換句話說(shuō),強(qiáng)專家模型確實(shí)能進(jìn)一步放大收益,但框架本身并不是靠“抱大腿”成立的。

      如果說(shuō)四個(gè)基準(zhǔn)上的SOTA說(shuō)明方法“更準(zhǔn)”,那么test-time scaling曲線揭示的是它“為什么更值”。



      在Math-Vision上,研究團(tuán)隊(duì)比較了采樣數(shù)量從1增加到32時(shí),不同方法的準(zhǔn)確率增長(zhǎng)趨勢(shì)。結(jié)果顯示,CA-TTS的擴(kuò)展斜率β = 3.65,而Majority Voting為1.64,DeepConf為1.19。也就是說(shuō),CA-TTS的擴(kuò)展效率分別是后兩者的2.2倍和3.1倍。

      這意味著,同樣是增加采樣次數(shù),CA-TTS并不是“更頻繁地碰運(yùn)氣”,而是更有效地把額外算力投向真正不確定的問(wèn)題上。當(dāng)Majority Voting和DeepConf在35%左右逐漸趨于飽和時(shí),CA-TTS仍能繼續(xù)爬升,并最終突破45%。

      從這個(gè)角度看,置信度校準(zhǔn)并不是一個(gè)附屬優(yōu)化項(xiàng),而是在重新定義test-time scaling的效率上限。它讓“多算一點(diǎn)”這件事第一次變得更有方向感。

      這項(xiàng)工作最值得關(guān)注的地方,可能并不只是又一個(gè)更高的benchmark分?jǐn)?shù),而是它提出了一種新的問(wèn)題順序。

      CA-TTS的思路正好反過(guò)來(lái):先通過(guò)CDRL建立對(duì)視覺(jué)證據(jù)變化敏感、且與準(zhǔn)確性一致的置信度,再讓這種置信度去指導(dǎo)推理資源的分配。這是一種明確的Perceive-then-Reason范式,也就是從“先推理后感知”轉(zhuǎn)向“先感知后推理”。

      當(dāng)然,這一方向也并非沒(méi)有代價(jià)。多次采樣與專家模型調(diào)用會(huì)帶來(lái)額外推理成本,當(dāng)前實(shí)驗(yàn)也主要集中在數(shù)學(xué)推理和通用VQA任務(wù)上。但如果目標(biāo)是讓多模態(tài)大模型在高風(fēng)險(xiǎn)場(chǎng)景中真正做到“知道自己什么時(shí)候不該太自信”,那么這條路線已經(jīng)給出了一個(gè)很有說(shuō)服力的起點(diǎn)。

      聲明:個(gè)人原創(chuàng),僅供參考

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      這張照片是2014年張雪峰和他的妻子李麗婧,在清華大學(xué)拍的結(jié)婚照

      這張照片是2014年張雪峰和他的妻子李麗婧,在清華大學(xué)拍的結(jié)婚照

      喜歡歷史的阿繁
      2026-04-11 06:47:10
      房子是上個(gè)月掛牌的,心是這個(gè)月涼透的!150萬(wàn)買的,現(xiàn)就這價(jià)?

      房子是上個(gè)月掛牌的,心是這個(gè)月涼透的!150萬(wàn)買的,現(xiàn)就這價(jià)?

      世界圈
      2026-04-09 00:15:08
      通話后,特朗普改口

      通話后,特朗普改口

      第一財(cái)經(jīng)資訊
      2026-04-10 20:55:54
      網(wǎng)傳催收大廠萬(wàn)乘金華分公司被端了? 信號(hào)新聞實(shí)探:是真的!是磐安縣警方跨區(qū)抓的!

      網(wǎng)傳催收大廠萬(wàn)乘金華分公司被端了? 信號(hào)新聞實(shí)探:是真的!是磐安縣警方跨區(qū)抓的!

      信網(wǎng)
      2026-04-05 21:11:16
      看了一天!終于理清特朗普老婆和愛(ài)潑斯坦的瓜!

      看了一天!終于理清特朗普老婆和愛(ài)潑斯坦的瓜!

      啃金融
      2026-04-10 22:47:23
      皮蓬前妻曝猛料:結(jié)婚23年每晚四次,我?guī)缀跻惶旒俣紱](méi)休過(guò)!

      皮蓬前妻曝猛料:結(jié)婚23年每晚四次,我?guī)缀跻惶旒俣紱](méi)休過(guò)!

      仰臥撐FTUer
      2026-04-11 07:40:08
      賣掉格力電器后 珠海國(guó)企天就塌了

      賣掉格力電器后 珠海國(guó)企天就塌了

      經(jīng)濟(jì)那道理
      2026-04-10 19:29:01
      以色列,終成人類公敵!

      以色列,終成人類公敵!

      燕梳樓頻道
      2026-04-10 15:02:39
      報(bào)應(yīng)來(lái)了?歐美工廠大面積癱瘓,現(xiàn)在來(lái)求中國(guó)復(fù)工?晚了!

      報(bào)應(yīng)來(lái)了?歐美工廠大面積癱瘓,現(xiàn)在來(lái)求中國(guó)復(fù)工?晚了!

      月光作箋a
      2026-04-10 21:14:58
      重磅公示!深圳這條高速今年或要免費(fèi)通行了!

      重磅公示!深圳這條高速今年或要免費(fèi)通行了!

      深圳夢(mèng)
      2026-04-10 20:56:09
      命中了!以色列徹底失控了!

      命中了!以色列徹底失控了!

      財(cái)經(jīng)要參
      2026-04-11 05:50:03
      訪陸第四天,鄭麗文見(jiàn)到最想見(jiàn)的人!閉門會(huì)談1小時(shí),大陸4點(diǎn)建議

      訪陸第四天,鄭麗文見(jiàn)到最想見(jiàn)的人!閉門會(huì)談1小時(shí),大陸4點(diǎn)建議

      呼呼歷史論
      2026-04-11 04:24:51
      門店腰斬2萬(wàn)家!一線撤離、雜牌泛濫,國(guó)民快餐巨頭徹底扛不住了

      門店腰斬2萬(wàn)家!一線撤離、雜牌泛濫,國(guó)民快餐巨頭徹底扛不住了

      毒sir財(cái)經(jīng)
      2026-04-09 16:14:36
      霍爾木茲海峽開(kāi)了,又關(guān)了

      霍爾木茲海峽開(kāi)了,又關(guān)了

      中國(guó)新聞周刊
      2026-04-10 18:41:40
      1-1!姆巴佩遭點(diǎn)球爭(zhēng)議,巴爾韋德難救主,皇馬連續(xù)3場(chǎng)不勝

      1-1!姆巴佩遭點(diǎn)球爭(zhēng)議,巴爾韋德難救主,皇馬連續(xù)3場(chǎng)不勝

      我的護(hù)球最獨(dú)特
      2026-04-11 05:04:38
      “只是為了取樂(lè)”,以色列又大開(kāi)殺戒

      “只是為了取樂(lè)”,以色列又大開(kāi)殺戒

      南風(fēng)窗
      2026-04-10 17:21:14
      張雪奪冠賽車復(fù)刻版1分鐘拍出!500萬(wàn)元將捐給嫣然天使基金,張雪:標(biāo)哥捐了,我不捐不好意思

      張雪奪冠賽車復(fù)刻版1分鐘拍出!500萬(wàn)元將捐給嫣然天使基金,張雪:標(biāo)哥捐了,我不捐不好意思

      極目新聞
      2026-04-10 20:58:02
      全紅嬋后續(xù):香港媒體爆料,廣東體委撐腰,滬圈京圈打壓窮孩子!

      全紅嬋后續(xù):香港媒體爆料,廣東體委撐腰,滬圈京圈打壓窮孩子!

      眼光很亮
      2026-04-10 14:29:21
      江蘇一商場(chǎng)女廁360°無(wú)遮擋引熱議,商場(chǎng)回應(yīng):正在施工改造,新隔斷到貨后會(huì)安裝

      江蘇一商場(chǎng)女廁360°無(wú)遮擋引熱議,商場(chǎng)回應(yīng):正在施工改造,新隔斷到貨后會(huì)安裝

      大象新聞
      2026-04-10 21:44:09
      鄭麗文女保鏢火了!她的眼神讓全場(chǎng)震驚。

      鄭麗文女保鏢火了!她的眼神讓全場(chǎng)震驚。

      小貓娛樂(lè)叭叭
      2026-04-09 21:03:31
      2026-04-11 09:19:00
      元寶課堂
      元寶課堂
      關(guān)注我,生活更精彩
      2365文章數(shù) 351關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克狂發(fā)大火箭也養(yǎng)不起AI 年虧50億美元

      頭條要聞

      美伊談判倒計(jì)時(shí) 特朗普:美方已為軍艦裝載最先進(jìn)武器

      頭條要聞

      美伊談判倒計(jì)時(shí) 特朗普:美方已為軍艦裝載最先進(jìn)武器

      體育要聞

      17歲賺了一百萬(wàn)美元,25歲被CBA裁員

      娛樂(lè)要聞

      黃景瑜王玉雯否認(rèn)戀情!聚會(huì)細(xì)節(jié)被扒

      財(cái)經(jīng)要聞

      李強(qiáng)主持召開(kāi)經(jīng)濟(jì)形勢(shì)專家和企業(yè)家座談會(huì)

      汽車要聞

      搭載第二代刀片電池及閃充技術(shù) 騰勢(shì)N8L閃充版預(yù)售35萬(wàn)起

      態(tài)度原創(chuàng)

      旅游
      游戲
      本地
      親子
      公開(kāi)課

      旅游要聞

      愛(ài)上海|國(guó)色天香 醉白池百年牡丹如期綻放

      任天堂獨(dú)占傳統(tǒng)不再!經(jīng)典作品跨平臺(tái)引粉絲不滿

      本地新聞

      12噸巧克力有難,全網(wǎng)化身超級(jí)偵探添亂

      親子要聞

      時(shí)間會(huì)融化所有尖銳,只剩平靜

      公開(kāi)課

      李玫瑾:為什么性格比能力更重要?

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版