強(qiáng)化學(xué)習(xí)大神西爾弗(David Silver)在去年11月離開(kāi)DeepMind之后,正在以40億美元的估值,獲得一筆高達(dá)10億美元的天使輪融資,紅杉領(lǐng)投,英偉達(dá)、谷歌、微軟等也在排隊(duì)加入。
西爾弗創(chuàng)辦的“不可言喻的智能” (Ineffable Intelligence)公司,研究主要從經(jīng)驗(yàn)而不是人類(lèi)語(yǔ)言學(xué)習(xí)的AI系統(tǒng),“一種能夠自我發(fā)現(xiàn)所有知識(shí)基礎(chǔ)的無(wú)限學(xué)習(xí)型超級(jí)智能”。
西爾弗曾批評(píng)AI正在陷入“大語(yǔ)言模型之谷”。他認(rèn)為,超級(jí)規(guī)模的強(qiáng)化學(xué)習(xí)展開(kāi)了一條通向超人智能的明確路徑。其有效性已經(jīng)一再得到證明(如Atari, AlphaGo, AlphaZero......)。同樣的方法也適用于強(qiáng)大的LLM先驗(yàn)?zāi)P停ɡ鏏lphaProof)。他說(shuō)此番話在2024年9月,后來(lái)可驗(yàn)證的強(qiáng)化學(xué)習(xí)(RLVR)成為技術(shù)主流,引領(lǐng)著推理模型迅速演進(jìn),在編程和數(shù)學(xué)等領(lǐng)域取得突破。
![]()
西爾弗與強(qiáng)化學(xué)習(xí)之父、圖靈獎(jiǎng)獲得者薩頓(Rich Sutton)于2025年4月發(fā)布論文《歡迎來(lái)到經(jīng)驗(yàn)時(shí)代》,這個(gè)AI時(shí)代的特征,是智能體及其環(huán)境。智能體將主要從與經(jīng)驗(yàn)的互動(dòng)中學(xué)習(xí),而不僅僅是來(lái)自人類(lèi)的數(shù)據(jù)。強(qiáng)大的智能體將會(huì)像人類(lèi)一樣,在長(zhǎng)時(shí)間尺度中持續(xù)學(xué)習(xí)新的知識(shí),最終達(dá)到超人類(lèi)的智能。
西爾弗長(zhǎng)期擔(dān)任DeepMind的首席研究科學(xué)家,是強(qiáng)化學(xué)習(xí)的一面旗幟。他主導(dǎo)了AlphaGo、AlphaZero的研究,產(chǎn)生了AlphaGo在對(duì)局李世石的第二盤(pán)下出第37手的頓悟時(shí)刻,并且在對(duì)弈領(lǐng)域通過(guò)無(wú)監(jiān)督學(xué)習(xí)實(shí)現(xiàn)超級(jí)智能。DeepSeek的R1 Zero,被認(rèn)為是在向AlphaZero致敬。
即使在ChatGPT推出后的深度學(xué)習(xí)主導(dǎo)生成式AI時(shí)期,西爾弗對(duì)強(qiáng)化學(xué)習(xí)的信念也堅(jiān)定不移。在OpenAI負(fù)責(zé)推理模型的科學(xué)家布朗(Noam Brown),曾在DeepMind實(shí)習(xí),參與了AlphaGo 和AlphaZero項(xiàng)目,深受西爾弗影響。他延著強(qiáng)化學(xué)習(xí)的思路,擴(kuò)展后訓(xùn)練規(guī)模,構(gòu)建了GPT模型的“慢思考”推理模型。
DeepMind的強(qiáng)化學(xué)習(xí)與OpenAI的深度學(xué)習(xí)之間的競(jìng)爭(zhēng),其學(xué)術(shù)背景是辛頓(Geoffery Hinton)與薩頓學(xué)派之爭(zhēng),他們一位在加拿大東部的多倫多大學(xué)執(zhí)教,一位在加拿大西部的阿爾伯塔大學(xué)研究。西爾弗與OpenAI首席科學(xué)家伊利亞(Ilya Sutskever)分別出自薩頓和辛頓門(mén)下。
伊利亞在離開(kāi)OpenAI創(chuàng)業(yè)之后,成立安全超級(jí)智能(SSI)公司,并且宣布預(yù)訓(xùn)練已死,深度學(xué)習(xí)結(jié)合強(qiáng)化學(xué)習(xí)是其選定的方向。
西爾弗與DeepMind創(chuàng)始人、諾貝爾獎(jiǎng)得主哈薩比斯(Damis Hassabis)相識(shí)于劍橋大學(xué)本科階段,他曾參與了哈薩比斯創(chuàng)辦的萬(wàn)靈藥游戲工作室,后來(lái)成為DeepMind的最早AI研究骨干。他是世界頂級(jí)的AI研究科學(xué)家,在倫敦大學(xué)學(xué)院擔(dān)任教授,是DeepMind發(fā)表論文最多的員工之一,論文引用高達(dá)20萬(wàn)次。
西爾弗和伊利亞、李飛飛、楊立昆創(chuàng)業(yè),代表了一批新型AI研究實(shí)驗(yàn)室的涌現(xiàn)。這些頂級(jí)AI實(shí)驗(yàn)室首席科學(xué)家和頂級(jí)AI科學(xué)家,從強(qiáng)化學(xué)習(xí)和世界模型兩條道路,探索超越大語(yǔ)言模型,以實(shí)現(xiàn)AGI或者超級(jí)AI,得到了風(fēng)險(xiǎn)資本和科技巨頭的追捧。李飛飛的世界實(shí)驗(yàn)室(World Labs)從a16z、英偉達(dá)、AMD等融最新融資10億美元,用于研究世界模型,開(kāi)發(fā)機(jī)器人和科學(xué)探索方面的應(yīng)用。
最近楊立昆的AMI Labs正在以30億歐元(35億美元)估值融資5億歐元。這樣,英國(guó)倫敦和法國(guó)巴黎將各自擁有兩家一流的AI實(shí)驗(yàn)室,其背后的主要風(fēng)險(xiǎn)資本來(lái)自美國(guó),但歐洲正在真正投入AI的全球競(jìng)爭(zhēng)。
西爾弗對(duì)強(qiáng)化學(xué)習(xí)有堅(jiān)定的信念,被公認(rèn)為是強(qiáng)化學(xué)習(xí)領(lǐng)域的靈魂人物之一;如此地位,很大程度上源于他能夠?qū)?fù)雜的理論轉(zhuǎn)化為具有劃時(shí)代意義的工程實(shí)踐。值得馬年期待。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.