又一位大佬創(chuàng)業(yè)了。
幾周前,消息確認前谷歌 DeepMind 首席科學家、AlphaGo 核心負責人戴維·席爾瓦(David Silver)正式離職,并在倫敦創(chuàng)立人工智能初創(chuàng)公司"Ineffable Intelligence"。據(jù)悉,該公司正在推進一輪規(guī)模達 10 億美元的種子輪融資,目前已接近完成。
這一融資額度,追平了 OpenAI 前首席科學家伊利亞·蘇茨克維(Ilya Sutskever)2024 年創(chuàng)立 Safe Superintelligence(SSI)時創(chuàng)下的紀錄。
![]()
圖 | 戴維·席爾瓦 (來源:Youtube)
與當前依賴海量文本預訓練的大模型路徑不同,席爾瓦的新公司明確提出:他們要繞過 LLM 既定范式,回歸強化學習(Reinforcement Learning, RL)本源,構(gòu)建一個不依賴人類既有知識、能自主探索新知的智能系統(tǒng)。
作為 DeepMind 聯(lián)合創(chuàng)始人德米斯·哈薩比斯(Demis Hassabis)自大學時代的密友與長期合作伙伴,席爾瓦的離開可以說是該公司歷史上最重要的人事變動之一。DeepMind 發(fā)言人在簡短聲明中確認了這一消息:“戴維的貢獻是無價的,我們非常感謝他對 DeepMind 工作所做出的貢獻。”
席爾瓦不僅是技術(shù)標桿,更是強化學習路線的堅定倡導者。作為圖靈獎得主查理·薩頓(Charlie Sutton)的學生,他的論文被引用量已超過 28 萬次,并于 2019 年獲得 ACM 計算獎。
他主張回歸強化學習的核心思路。2025 年 4 月,席爾瓦與其導師薩頓共同發(fā)表論文《歡迎來到經(jīng)驗時代》(Welcome to the Era of Experience),提出新一代 AI 系統(tǒng)應更注重智能體與環(huán)境的交互學習:通過持續(xù)試錯、自我迭代和長期互動積累經(jīng)驗,而非僅依賴靜態(tài)數(shù)據(jù)訓練。這一理念,也是 Ineffable Intelligence 的技術(shù)基石。
![]()
(來源:arXiv)
在當前創(chuàng)投環(huán)境下,Ineffable Intelligence 高達 10 億美元的融資目標尤為引人注目。接近交易的投資人分析,資本市場愿意為一家尚未發(fā)布產(chǎn)品的公司開出如此巨額支票,主要基于兩點:一是對席爾瓦個人技術(shù)聲望的信任,二是對其所主張的“后大模型時代”技術(shù)路線的戰(zhàn)略性押注。
目前,包括 OpenAI 的 GPT 系列與谷歌的 Gemini 系列在內(nèi),主流 AI 模型均建立在“預訓練 + 微調(diào)”范式之上。這些模型通過學習互聯(lián)網(wǎng)上海量的文本數(shù)據(jù),掌握預測下一個詞的統(tǒng)計規(guī)律,從而展現(xiàn)出強大的對話與生成能力。但席爾瓦認為,這一路徑存在本質(zhì)局限:AI 的能力上限被“人類數(shù)據(jù)”本身所鎖定。
席爾瓦曾在私下場合多次表達對當前技術(shù)路線的擔憂。他指出,大語言模型在后訓練階段主要依賴“人類反饋強化學習”(RLHF),即通過人類評估員的打分來優(yōu)化模型。這意味著,模型所能達到的最高水平,難以超越人類評估員的認知邊界。
“我們想要超越人類的認知,為此需要一種不同的方法。”2025 年 4 月,席爾瓦在一檔播客節(jié)目中罕見公開闡述其理念,“這種方法需要 AI 能夠真正自主探索,發(fā)現(xiàn)人類尚不知道的新事物。”
Ineffable Intelligence 的核心愿景,正是構(gòu)建一個擺脫人類知識束縛的系統(tǒng)。據(jù)熟悉該項目的人士透露,新公司將致力于研發(fā)“能夠持續(xù)學習的超級智能”——它不僅能處理語言,更能通過在模擬環(huán)境中的自我博弈與試錯,從第一性原理出發(fā),推導解決問題的最優(yōu)解。
席爾瓦的堅持,有扎實的成果支撐。作為 AlphaGo 總設(shè)計師,他主導了 2016 年那場轟動全球的人機大戰(zhàn)。在與李世石的第二局比賽中,著名的“第 37 手”曾被所有人類專家判定為失誤,因為它不符合任何已知圍棋定式。然而后續(xù)棋局證明,這正是決定勝負的關(guān)鍵一手。席爾瓦將此類現(xiàn)象稱為“不可言說”(Ineffable)的智慧。AI 通過計算,發(fā)現(xiàn)了人類尚未掌握的規(guī)律。這也正是新公司名稱的由來。
![]()
(來源:Google Deepmind)
此后,席爾瓦團隊開發(fā)的 AlphaZero 與 MuZero 進一步驗證了其理論:AlphaZero 在不依賴任何人類棋譜、僅被告知規(guī)則的前提下,通過自我對弈三天便擊敗 AlphaGo;MuZero 甚至無需知曉規(guī)則,就能在圍棋、國際象棋和 Atari 游戲中自主摸索規(guī)律,達到超人水平。
這些成果構(gòu)成了席爾瓦技術(shù)路線的基石:在規(guī)則明確、可模擬的系統(tǒng)中,純粹的強化學習完全有能力超越人類智能。他堅信,只要設(shè)計出合理的獎勵機制,AI 就能在更復雜的現(xiàn)實任務中復刻 AlphaZero 的成功,無需像大語言模型那樣,通過模仿人類語言來“假裝”思考。
席爾瓦的創(chuàng)業(yè),也折射出 AI 研究圈正在經(jīng)歷一場“路線大分流”。
隨著大語言模型在商業(yè)應用中的普及,越來越多頂尖科學家開始擔憂技術(shù)發(fā)展的潛在瓶頸。2024 年,OpenAI 前首席科學家伊利亞·蘇茨克維創(chuàng)辦 Safe Superintelligence(SSI),同樣獲得巨額融資。盡管 SSI 與 Ineffable Intelligence 均以“超級智能”為目標,但側(cè)重點有所不同:伊利亞傾向于通過擴大計算規(guī)模與優(yōu)化模型結(jié)構(gòu)實現(xiàn)智能躍遷,席爾瓦則更激進地主張改變學習范式,由“監(jiān)督學習”轉(zhuǎn)向“強化學習”。
此外,一些曾參與 AlphaGo、AlphaZero 項目的科學家,近期也離職創(chuàng)辦了 Reflection AI;Meta 的人工智能部門則在圖靈獎得主楊立昆(Yann LeCun)帶領(lǐng)下,重組“超級智能實驗室”,探索不同于 Transformer 架構(gòu)的新路徑。
一位行業(yè)觀察家指出:“當前局面頗似 2010 年代初深度學習爆發(fā)前夜。大家意識到,現(xiàn)有 LLM 雖強大,但可能并非通往 AGI 的終極答案。席爾瓦代表最原教旨主義的一派,他認為智能的本質(zhì)是決策與探索,而非語言預測。”
不過,也有批評者指出,強化學習雖在圍棋、游戲等規(guī)則明確的環(huán)境中表現(xiàn)優(yōu)異,但在現(xiàn)實世界這類規(guī)則模糊、反饋稀疏的開放環(huán)境中,其有效性尚未得到充分驗證。大語言模型之所以成功,正因語言本身是人類智慧的高度壓縮。通過學習語言,AI 能以較低成本獲得常識。
若完全摒棄這一路徑,Ineffable Intelligence 或需構(gòu)建極其復雜的數(shù)字孿生系統(tǒng),供 AI 進行億萬次試錯訓練,其算力成本將是天文數(shù)字。這也正是 10 億美元融資需要解決的首要問題。
目前,Ineffable Intelligence 已在倫敦設(shè)立總部,并啟動全球頂尖強化學習研究員的招募。雖然公司尚未公布具體產(chǎn)品時間表,但這家公司的技術(shù)路線與資源投入,或?qū)⒊蔀橛绊?AI 技術(shù)演進方向的下一股重要力量。
1. https://www.ft.com/content/dffe72d0-4064-4412-8ebc-50198a30d40e
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.