<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      AlphaEvolve再進化!DeepMind用AI「養殖」算法,碾壓所有人類設計

      0
      分享至


      新智元報道

      編輯:定慧

      【新智元導讀】DeepMind最新論文:用AlphaEvolve把算法源代碼當基因組,讓Gemini充當遺傳算子,對博弈論算法進行「自然選擇」。進化出的全新算法,采用了人類研究者從未想過的反直覺機制,在幾乎所有測試博弈中碾壓人類花了幾十年設計的最優方案。AI不再只是執行算法——它開始自己發明算法了。

      谷歌DeepMind剛剛放了一個大衛星。

      他們用AlphaEvolve硬生生「繁殖」出了一批全新的博弈論算法。

      這些算法不僅在性能上全面碾壓人類花了幾十年精心設計的經典方案,更令人頭皮發麻的是:

      它們使用的底層機制,反直覺到沒有任何一個人類研究者會想到去嘗試。


      論文地址:https://arxiv.org/pdf/2602.16928

      代碼即基因組。LLM即造物主。

      這一次,AI不是在幫人類寫代碼——它在自己發明數學。


      這不是「讓ChatGPT寫個算法

      首先,框架設定至關重要。

      你可能以為這就是對著大模型說「幫我優化一下這個函數」,然后它吐出一段差不多的代碼。

      不是的。


      把Gemini當基因工程師使的進化式編碼智能體

      這是AlphaEvolve,谷歌DeepMind構建的進化式編碼智能體。

      它的工作方式,更接近于達爾文而不是程序員。

      它把算法的源代碼當作基因組(genome)。

      LLM充當遺傳算子(genetic operator),對代碼進行變異——重寫邏輯、注入新的控制流、對符號操作進行變異。

      然后,它在一組博弈論基準游戲上評估每個「后代算法」的適應度——誰的可利用度(exploitability)降得最低,誰就活下來。

      活下來的算法進入下一代,繼續被變異、評估、篩選。

      這不是提示工程。這是代碼的自然選擇。

      目標:博弈論的兩大基石算法家族

      AlphaEvolve瞄準的目標,是多智能體強化學習(MARL)中兩個最核心的算法家族:

      反事實遺憾最小化(Counterfactual Regret Minimization, CFR)策略空間響應預言(Policy Space Response Oracles, PSRO)


      如果你玩過德撲AI、或者聽說過Libratus和Pluribus那些碾壓人類撲克高手的AI——沒錯,它們的核心就是這兩樣東西。

      它們的任務是在不完全信息博弈中找到納什均衡——也就是讓每個玩家都無法通過單方面改變策略來獲得更好結果的那個「完美平衡點」。


      過去幾十年,研究者們一直在手動調參、憑直覺設計這些算法的變體:CFR+、DCFR、PCFR+、LCFR……每一個變體都是某個聰明絕頂的博弈論研究者靈光一閃的產物。

      但AlphaEvolve說:讓我來。


      為什么博弈論算法的設計這么難?

      要理解這篇論文的分量,先得明白一個背景:不完全信息博弈是AI領域最硬的骨頭之一。

      什么叫不完全信息博弈?簡單說——你不知道對手手里有什么牌。

      德州撲克、騙子骰、甚至國際談判,本質上都是這類問題。在這些場景中,你看到的只是「信息集」(information set)——一組你無法區分的博弈狀態。你的策略必須對同一信息集下的所有可能情況都做出合理回應。

      衡量一個算法好不好,博弈論有個硬核指標叫可利用度(Exploitability)。

      直覺上說,它度量的是:如果對手知道你的策略并針對性地反擊,你會虧多少。可利用度為零,意味著你的策略是納什均衡——任何對手都無法通過單方面改變策略來占你便宜,這是博弈論中的「終極境界」。

      幾十年來,研究者們為了讓算法更快地逼近納什均衡,一直在手動迭代設計。這個過程是這樣的:

      某位頂級研究者憑數學直覺觀察到一種規律 → 將其形式化為一個新的折現方案/權重函數/遺憾處理規則 → 在數學上證明收斂性 → 在幾個標準博弈上做實驗 → 發表論文

      每一步都需要人類直覺

      問題是,這些算法的設計空間是組合爆炸級別的——你怎么折現歷史遺憾?

      正遺憾和負遺憾要不要區別對待?策略平均什么時候開始?用什么權重?這些選擇的排列組合,遠超任何研究者能逐一驗證的范圍。

      論文的核心洞察在于:算法設計本質上是一個搜索問題。


      人類研究者受限于數學可推導性,大多只能在「優雅但有限」的設計空間里搜索——比如線性平均、固定折現、對稱處理。但如果把搜索空間擴展到任意可執行代碼呢?

      AlphaEvolve做的正是這件事。

      它不是在調超參數,而是在進化符號代碼(symbolic code)。

      LLM理解代碼的語義,能做出「有意義的變異」——不是隨機翻轉一個比特,而是「把這個線性調度改成指數調度」「給正遺憾加一個增強系數」「在前500次迭代跳過策略累積」。

      這讓搜索空間從人類直覺所及的幾百種可能,暴漲到LLM能觸及的幾乎無限種合理變體。

      傳統方法:人類設計算法,機器執行算法。

      AlphaEvolve:機器設計算法,機器執行算法,人類在旁邊看著驚掉下巴。


      一句話說清楚這篇論文到底干了啥

      這篇論文的故事其實特別簡單:

      想象你是一個撲克高手教練。你手下有一套打牌的策略手冊,幾十年來,全靠你和其他聰明人一條條手寫規則、反復試錯,才慢慢改進到今天的水平。

      現在,DeepMind做了一件事——他們把這本策略手冊的每一頁、每一條規則,都變成了一段可以被改寫的代碼

      然后他們放出了一個AI(AlphaEvolve),讓它像大自然培育物種一樣,不停地改寫這些規則、測試效果、淘汰差的、留下好的。

      跑了無數代之后,這個AI進化出了兩套全新的策略手冊。

      第一套叫VAD-CFR,它學會了三件人類教練從來沒想過的事:局勢混亂時果斷忘掉舊經驗,發現好招時立刻加倍下注,前500輪純學習不做總結。聽起來很奇怪對吧?但它就是比所有人類設計的方法都好用。


      第二套叫SHOR-PSRO,它學會了前期大膽試探,后期精準收網——而且訓練和考試用不同的策略,訓練時求穩,考試時求準。


      最關鍵的一點是:這些新規則不是AI從某本教科書里抄來的,而是它自己「進化」出來的。

      人類博弈論專家看到這些規則后的第一反應是——「這也行?」

      但數據不會騙人。在幾乎所有測試的博弈場景中,AI進化出來的算法都打敗了人類花了幾十年心血設計的最好方案。

      所以這篇論文真正在說的是:AI已經不只是在執行人類寫的算法了,它開始自己發明算法——而且發明得比人類還好。

      這意味著什么?

      讓我們退一步,看看這件事的全貌。

      過去,博弈論算法的進步長這樣:

      某個頂級研究者花幾個月甚至幾年時間,憑直覺和數學推導,提出一個新的折現方案或權重函數 → 在幾個博弈上驗證 → 發論文 → 社區驚呼「天才」

      現在呢?

      AlphaEvolve啟動 → Gemini對代碼進行變異 → 自動評估適應度 → 進化選擇 → 輸出一個人類研究者根本不會想到的算法 → 在11個博弈中碾壓所有前輩

      這不只是效率的提升。

      這是范式的轉換。


      論文的結論部分這樣說:

      「我們的結果表明,自動發現的算法不對稱性——特別是那些管理遺憾縮放和動態混合調度的機制——能夠產生對人類直覺而言難以捉摸、但在實踐中極其有效的求解器。」

      翻譯成人話就是:AI發現了人類想不到的數學。

      而且這些「想不到的數學」不是什么花哨的噱頭,而是實打實地在性能上統治了整個基線方陣。

      DeepMind在論文最后也給了未來方向的暗示——

      他們計劃將這個進化框架應用到深度強化學習智能體的完整設計中去,以及探索合作博弈中的機制發現。

      想象一下:不只是博弈論算法,而是讓AI進化出整個學習范式。

      代碼的「自然選擇」,這才剛剛開始。

      參考資料:

      https://x.com/rryssf_/status/2027062703144284521

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      男子160萬江景房被父母堆成“廢品站”:角落全是廢舊紙箱、多年不用的家電、瓶瓶罐罐,幾乎沒有下腳地,引發網友共鳴:同款爸媽,很難改

      男子160萬江景房被父母堆成“廢品站”:角落全是廢舊紙箱、多年不用的家電、瓶瓶罐罐,幾乎沒有下腳地,引發網友共鳴:同款爸媽,很難改

      極目新聞
      2026-02-27 13:11:18
      歐冠16強抽簽前致命打擊!巴薩絕對主力報銷,歐冠淘汰賽懸了

      歐冠16強抽簽前致命打擊!巴薩絕對主力報銷,歐冠淘汰賽懸了

      夜白侃球
      2026-02-27 14:18:01
      突發!香港發生山火,深圳可見!

      突發!香港發生山火,深圳可見!

      港你知
      2026-02-26 19:59:41
      萬達繼續出售資產 20億元轉讓上海顓橋萬達廣場

      萬達繼續出售資產 20億元轉讓上海顓橋萬達廣場

      財聯社
      2026-02-27 12:50:11
      淮安人徐亮被查!

      淮安人徐亮被查!

      淮安網
      2026-02-27 14:18:25
      四川成都一交警在馬路中央被非機動車撞飛,頭部流血送醫;警方回應:被撞交警正在醫院治療,事故原因正在調查中

      四川成都一交警在馬路中央被非機動車撞飛,頭部流血送醫;警方回應:被撞交警正在醫院治療,事故原因正在調查中

      揚子晚報
      2026-02-27 15:37:20
      “凌晨3點被它嚎醒!”最近,不少深圳人被吵到!網友:又開始了

      “凌晨3點被它嚎醒!”最近,不少深圳人被吵到!網友:又開始了

      南方都市報
      2026-02-27 14:29:30
      讓人眼紅啊!一年50萬,湖北一網友曬家庭收入,夫妻堪稱王炸組合

      讓人眼紅啊!一年50萬,湖北一網友曬家庭收入,夫妻堪稱王炸組合

      火山詩話
      2026-02-27 14:43:28
      600735,連發兩條公告!股票明起停牌,還被證監會立案

      600735,連發兩條公告!股票明起停牌,還被證監會立案

      每日經濟新聞
      2026-02-25 19:53:12
      杭州一地發布放假通知:連休10天!浙江各地時間表也排定

      杭州一地發布放假通知:連休10天!浙江各地時間表也排定

      都市快報橙柿互動
      2026-02-27 15:56:56
      北京賣豆汁大爺爆火,小伙質疑里面摻糞,現場直接舉報,當場帶走

      北京賣豆汁大爺爆火,小伙質疑里面摻糞,現場直接舉報,當場帶走

      離離言幾許
      2026-02-26 16:20:55
      南京市檔案館查到谷愛凌外婆馮國珍的珍貴歷史檔案,確定其為南京戶籍

      南京市檔案館查到谷愛凌外婆馮國珍的珍貴歷史檔案,確定其為南京戶籍

      極目新聞
      2026-02-27 10:42:46
      FIBA發布聲明 為措辭不當向中國男籃及球迷致歉

      FIBA發布聲明 為措辭不當向中國男籃及球迷致歉

      體壇周報
      2026-02-27 18:46:17
      1男4女五胞胎名字已取好 爸爸稱心情像過山車

      1男4女五胞胎名字已取好 爸爸稱心情像過山車

      封面新聞
      2026-02-27 15:01:02
      慘烈的仗,要打到2030年?

      慘烈的仗,要打到2030年?

      中國新聞周刊
      2026-02-26 22:44:14
      美國推動“谷愛凌法案”,沒收全部收入:背叛美國,必須付出代價

      美國推動“谷愛凌法案”,沒收全部收入:背叛美國,必須付出代價

      十點街球體育
      2026-02-27 11:42:31
      “陰偉達”來了?首個兒童小陰莖專用藥獲批

      “陰偉達”來了?首個兒童小陰莖專用藥獲批

      中國新聞周刊
      2026-02-26 19:01:05
      沒想到港口被強收3天,李嘉誠因一舉動,讓香港四大家族刮目相看

      沒想到港口被強收3天,李嘉誠因一舉動,讓香港四大家族刮目相看

      黑鷹觀軍事
      2026-02-27 14:02:55
      重磅!美國啟動取消中國永久正常貿易待遇調查,關稅或大幅上漲

      重磅!美國啟動取消中國永久正常貿易待遇調查,關稅或大幅上漲

      壹航運
      2026-02-27 14:50:10
      教育部:學生每天體育2小時、課間15分鐘已在全國所有省份部署推開

      教育部:學生每天體育2小時、課間15分鐘已在全國所有省份部署推開

      財聯社
      2026-02-25 18:55:14
      2026-02-27 19:11:00
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      14604文章數 66646關注度
      往期回顧 全部

      科技要聞

      單張不到五毛!谷歌深夜發布Nano Banana 2

      頭條要聞

      發布"中國男籃逆轉日本隊"的帖子中措辭不妥 FIBA致歉

      頭條要聞

      發布"中國男籃逆轉日本隊"的帖子中措辭不妥 FIBA致歉

      體育要聞

      一場必須要贏的比賽,男籃何止擊敗了裁判

      娛樂要聞

      繼網暴谷愛凌后 美國欲沒收其全部收入

      財經要聞

      沈明高提共富建議 百姓持科技股國家兜底

      汽車要聞

      嵐圖泰山黑武士版3月上市 搭載華為四激光智駕方案

      態度原創

      教育
      家居
      時尚
      本地
      軍事航空

      教育要聞

      未雨綢繆?多地明確:開學不強制作業檢查,不得因作業未完成處罰學生!你家寒假作業怎樣了?

      家居要聞

      素色肌理 品意式格調

      今年春天最美搭配:西裝+半裙,怎么穿都好看!

      本地新聞

      津南好·四時總相宜

      軍事要聞

      美國11架F-22隱形戰機抵達以色列

      無障礙瀏覽 進入關懷版