<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AI邪修時刻!Meta聯手MIT投毒,左腳踩右腳強行升天

      0
      分享至


      新智元報道

      編輯:傾傾

      【新智元導讀】Meta SOAR用「劇毒數據」當墊腳石,硬生生把模型從Fail@128的認知黑洞里拽出來,推理能力暴漲9.3%!2026年,這才是最硬核的反殺路線。

      如果給AI喂一份錯誤率高達67%的教材,結局會是什么?

      放在以前,他絕對會被噴成篩子:這叫「數據投毒」!輕則模型腦霧,重則邏輯崩塌,直接送進ICU。

      但在Meta FAIR的實驗室里,這劑毒藥,變成了救命的神藥。


      論文鏈接:https://arxiv.org/abs/2601.18778

      不僅沒把模型喂傻,反而讓它踩著一堆「滿嘴謊言」的廢料,爬上了人類無法觸及的推理巔峰。

      崩塌的常識:錯題集才是真理?

      研究團隊選了MATH和HARP數據集里最變態的「Fail@128」子集。

      這是什么概念?就是讓Llama-3.2-3B對著一道題連蒙128次,成功率依然是0。

      這不僅僅是「難」,還是絕對的認知真空:在傳統的強化學習里,這意味著「梯度消失」——就像在黑屋子里打拳,因為從來沒打中過,它根本不知道該往哪兒用力。

      DeepSeek R1的解法是「卷算力」,靠GRPO瘋狂采樣,賭那千萬分之一的「頓悟時刻」。

      但Meta選了另一條路——自己造路。

      SOAR架構搞出了一個「教師模型」,專門生成中間難度的「墊腳石問題」。

      研究員扒開這些「墊腳石」一看,背脊發涼:84%的題目邏輯結構清晰、合理;只有33%的參考答案是做對的。

      劃重點:2/3的答案都是錯的!

      如果按照OpenAI o1的清洗標準,這些數據會在第一輪就被作為「幻覺垃圾」剔除。

      但在SOAR眼里,這些全是寶藏。

      哪怕「教師模型」自己都算不對微積分,它依然能編出一道高質量的微積分題。

      當「學生模型」去解這道題時,即便最后對答案是寂寞,但它在「構建推理路徑」過程中的腦力體操,是實打實的!


      SOAR課程演化示例:左圖顯示學生在Fail@128硬題上的greedy acc隨教師訓練/promotion階段階梯上升;右圖展示典型生成題目——Stage 1多為生活word problem,Stage 2轉向高等代數/三角。這證明教師通過promotion逐步生成更難但結構有效的墊腳石,推動學生推理突破。

      事實證明,謬誤,竟然是通往真理的墊腳石。

      SOAR機制:逼迫AI「誠實」的黑盒游戲

      在AI自我進化的歷史上,無數次在一個坎上跌倒——「自我欺騙」。

      AI為了拿獎勵,經常會生成一堆簡單重復的垃圾題來刷分。

      對此,SOAR搞了一個極其冷酷的「雙層博弈」:

      • 混沌建筑師(Teacher):負責瞎編題,不管對錯。

      • 絕境求生者(Student):負責做題,然后去挑戰那道「Fail@128」的終極死局。


      SOAR的meta-RL訓練循環:教師模型生成合成數據集,學生模型在內層循環中進行強化學習訓練,并在硬驗證問題上評估進步,計算獎勵R反饋給教師進行外層更新。獎勵完全基于學生在極難題目上的真實提升,而非生成數據的正確性。

      除此以外,Meta引入了「有根獎勵」機制。建筑師編的題再花哨也沒用,只有當學生做完這些題,在真實的Fail@128難題上漲分了,建筑師才能拿到獎勵。


      SOAR教師變體消融學習曲線:用Grounded-T(有根獎勵教師,粉紅實線)采樣的問題訓練學生,在MATH和HARP上實現最高、最穩定的Pass@32提升,遠超Base-T(藍虛線,波動大)和Hard Only(藍點線)

      所以,為了得高分,建筑師只能去「猜」學生到底缺什么,要出什么題。


      SOAR教師種子消融學習曲線:Grounded-T(G-T(1)到G-T(4),紅色系線)四個獨立種子生成的課程,讓學生Pass@32穩定一致升至~18-22%(MATH)/~12-15%(HARP),方差極小;Intrinsic-T(I-T(1)到I-T(3),青色系線)三個種子波動劇烈,甚至出現崩潰模式(I-T(1)學生性能崩盤)。這證明有根獎勵讓教師政策魯棒,而內在獎勵易不穩定/崩潰。

      它必須生成那些怪異的、甚至含有錯誤答案的題目,因為只有這些題目,才能讓學生真的進步。


      直接訓練 vs 自生成課程:左側稀疏獎勵導致無梯度信號;右側教師模型生成中間難度問題,形成漸進式課程,幫助學生模型在Fail@128數據集上實現突破


      SOAR一圖封神:教師造合成錯題,學生苦練+硬題評估,獎勵直擊硬題進步——粉紅曲線暴漲,藍線徹底躺平

      路線之爭:DeepSeek的蠻力 vs Meta的詭道

      2026年的大模型推理戰爭,本質上是三種「宗教」的碰撞。

      DeepSeek R1:賭博式的「頓悟」

      DeepSeek R1代表了「暴力美學派」。

      其核心武器GRPO依賴于大規模采樣——讓模型反復嘗試,直到偶然撞上那個正確的答案,產生所謂的「頓悟時刻」。

      這在一般難題上效果極佳,但在Fail@128這種「絕對死局」面前,DeepSeek的策略碰到了物理墻。

      當成功率為0時,無論你采樣多少次,獎勵永遠是0。沒有正反饋,梯度就不會下降。

      這就像讓一只猴子坐在打字機前,試圖靠隨機敲擊寫出《哈姆雷特》——理論上可行,但現實中算力成本是無限大。

      OpenAI o1:不可持續的「潔癖」

      OpenAI o1則是「精英教育派」,它堅信「CoT必須完美」。

      通過大量人工清洗或高精度的合成數據,o1試圖教給模型最標準的推理步驟。

      但SOAR的實驗狠狠嘲弄了這種潔癖。Meta證明,過度清洗數據可能是在扼殺天才。

      SOAR生成的那些「滿嘴謊言」的問題,雖然答案錯了,但往往包含了人類意想不到的「思維突觸」。

      如果按照OpenAI的標準清洗掉這些數據,模型反而失去了跳出局部最優解的機會。

      更致命的是,高質量的推理數據已經面臨枯竭,人類產生難題的速度遠遠趕不上模型吃數據的速度。

      SOAR的降維打擊:無中生有的「梯云縱」

      Meta走的是第三條路:「自我挖掘派」。

      SOAR不依賴DeepSeek式的海量算力撞大運,也不需要OpenAI式的昂貴人工數據。它在零外部輸入的情況下,通過內部互博,強行挖掘出了模型潛意識里的能力。

      論文中有一個極具哲學意味的發現:

      直接用訓練好的教師模型去解題,并沒有比基座模型強多少。

      這說明,「出題」和「解題」是兩種完全不同的技能樹。

      SOAR的高明之處在于,它不試圖把所有技能點都加在同一個腦子里,而是讓一部分算力異化為「磨刀石」,去打磨另一部分算力。


      SOAR在MATH和HARP Fail@128數據集上的性能提升:Promotion Questions 帶來最大增益,證明合成數據的結構質量遠勝答案正確性。Intrinsic-T表現較差,驗證了‘有根獎勵’的重要性。

      在數據枯竭論甚囂塵上的今天,Meta的這條路,可能是唯一能讓AI在沒有任何人類知識的荒原上繼續進化的希望。

      數據枯竭的終結:AI的自我繁衍

      長久以來,懸在AI頭頂最大的達摩克利斯之劍,是「數據枯竭論」。

      行業普遍悲觀地認為,當人類生產的高質量文本被吃光后,AI的進化將停滯不前。

      但要是讓AI吃自己生成的合成數據,這種「近親繁殖」會導致模型崩潰。

      但SOAR徹底粉碎了這個預言。

      Meta的數據顯示,負責出題的那個模型,自己做題能力沒什么提升,但它培養出的學生卻進化了。


      SOAR學習曲線:用Promotion Questions (粉線) 訓練的學生模型,在1500步內Pass@32穩定升至~18-19%,接近完整MATH訓練集的上界,而Hard Only (藍線) 幾乎無進步甚至衰退。這證明自我生成的合成數據能實現長期、穩定的推理提升

      Meta證明了,AI不需要人類的「真理」也能進化,它完全可以自己編寫教科書——而且是用一種人類看不懂、甚至認為全是錯誤的語言編寫的。

      只要「黑盒獎勵」還在,AI就能在虛空中左腳踩右腳,螺旋升天。

      曾經我們以為AI是嬰兒,必須喂純凈水;現在才發現,哪怕喂它吃垃圾、吃毒藥,它照樣能長出獠牙。

      當錯誤的答案成為了通向更高智能的唯一階梯,人類手里那幾本標準答案,還有多少保質期?

      參考資料:

      https://ssundaram21.github.io/soar/

      https://arxiv.org/abs/2601.18778


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      突發! 沙特遭襲 年產量約6000萬噸 石化基地發生爆炸

      突發! 沙特遭襲 年產量約6000萬噸 石化基地發生爆炸

      每日經濟新聞
      2026-04-07 10:18:32
      陳麗華離世!唐僧的扮演者遲重瑞能拿到100多億遺產

      陳麗華離世!唐僧的扮演者遲重瑞能拿到100多億遺產

      金牌娛樂
      2026-04-07 11:39:53
      深圳一救護車違反調度指令,將患者拉至所屬民營醫院,家屬稱因延誤搶救致死 涉事醫院被處罰

      深圳一救護車違反調度指令,將患者拉至所屬民營醫院,家屬稱因延誤搶救致死 涉事醫院被處罰

      紅星新聞
      2026-04-07 13:56:02
      39歲男子考研落榜后舉報復試第一,考生候考時,該考生曾被工作人員叫離座位,返回后手中持有文件夾并翻閱,華東師大回應:調查小組正在調查

      39歲男子考研落榜后舉報復試第一,考生候考時,該考生曾被工作人員叫離座位,返回后手中持有文件夾并翻閱,華東師大回應:調查小組正在調查

      觀威海
      2026-04-07 16:39:02
      原來陳麗華長子是他,北大畢業,31歲接手家業,他才是富華掌舵人

      原來陳麗華長子是他,北大畢業,31歲接手家業,他才是富華掌舵人

      冷紫葉
      2026-04-07 15:26:07
      971萬對1616萬!幼兒園新生暴跌40%,2027年小學招生只剩50%——

      971萬對1616萬!幼兒園新生暴跌40%,2027年小學招生只剩50%——

      葉初七
      2026-04-07 11:02:01
      蘇林,“歷史性當選”

      蘇林,“歷史性當選”

      中國新聞周刊
      2026-04-07 18:15:50
      美以襲擊哈爾克島 國際原油 價格重新上漲

      美以襲擊哈爾克島 國際原油 價格重新上漲

      每日經濟新聞
      2026-04-07 20:04:44
      中國不記隔夜仇!巴拿馬接到通知,美國終于下場,巴政府自食惡果

      中國不記隔夜仇!巴拿馬接到通知,美國終于下場,巴政府自食惡果

      說歷史的老牢
      2026-04-06 19:50:20
      博弈白熱化,霍爾木茲要變天了

      博弈白熱化,霍爾木茲要變天了

      南風窗
      2026-04-07 14:58:27
      沙特突發, 關鍵大橋交通中斷! 油價大漲

      沙特突發, 關鍵大橋交通中斷! 油價大漲

      每日經濟新聞
      2026-04-07 16:42:09
      檳榔包裝上印著劉德華肖像,品牌方稱并非代言,而是18年前《投名狀》劇照宣發,律師解讀

      檳榔包裝上印著劉德華肖像,品牌方稱并非代言,而是18年前《投名狀》劇照宣發,律師解讀

      極目新聞
      2026-04-07 19:20:23
      快訊!俄羅斯強勢介入了!

      快訊!俄羅斯強勢介入了!

      達文西看世界
      2026-04-07 17:59:10
      美以伊戰事第39天:特朗普恐嚇伊朗“4小時”恐怖式摧毀,震驚聯合國;伊朗稱“打穿”海法未見導彈攔截

      美以伊戰事第39天:特朗普恐嚇伊朗“4小時”恐怖式摧毀,震驚聯合國;伊朗稱“打穿”海法未見導彈攔截

      上觀新聞
      2026-04-07 16:10:19
      英媒宣稱“伊朗最高領袖病重昏迷”

      英媒宣稱“伊朗最高領袖病重昏迷”

      觀察者網
      2026-04-07 18:00:14
      重慶一業主40萬賣房,買家重裝后69.8萬售出,第二買家以天花板有排污管道泄漏起訴,一審判業主擔責近80萬

      重慶一業主40萬賣房,買家重裝后69.8萬售出,第二買家以天花板有排污管道泄漏起訴,一審判業主擔責近80萬

      瀟湘晨報
      2026-04-07 08:41:11
      嫣然天使兒童醫院發文感謝陳光標捐贈1000萬!陳光標此前稱:張雪遲遲沒來提車,將車輛變現1000萬元贈予嫣然醫院

      嫣然天使兒童醫院發文感謝陳光標捐贈1000萬!陳光標此前稱:張雪遲遲沒來提車,將車輛變現1000萬元贈予嫣然醫院

      每日經濟新聞
      2026-04-07 14:17:07
      伊朗媒體:伊朗已關閉與美國的所有外交和間接溝通渠道

      伊朗媒體:伊朗已關閉與美國的所有外交和間接溝通渠道

      財聯社
      2026-04-07 21:48:18
      因中國工人待遇問題,巴西將比亞迪列入“恥辱名單”

      因中國工人待遇問題,巴西將比亞迪列入“恥辱名單”

      互聯網大觀
      2026-04-07 15:43:15
      福建長汀一車輛墜河致5死,疑似新手女司機油門當剎車,開得不快

      福建長汀一車輛墜河致5死,疑似新手女司機油門當剎車,開得不快

      九方魚論
      2026-04-07 12:56:14
      2026-04-07 22:20:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14918文章數 66754關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      臺灣一些人被指準備"潤" 賴清德曾稱兒子在美"學功夫"

      頭條要聞

      臺灣一些人被指準備"潤" 賴清德曾稱兒子在美"學功夫"

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      女首富陳麗華離世 被曝生前已分好遺產

      財經要聞

      10萬億財政轉移支付,被誰拿走了?

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      健康
      家居
      手機
      親子
      公開課

      干細胞抗衰4大誤區,90%的人都中招

      家居要聞

      雅致愜意 感知生活之美

      手機要聞

      4月21日的手機圈,不敢想象會有多刺激

      親子要聞

      科普|科學備孕,需要做好哪些孕前檢查?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版