AlphaGo之父出山：另辟蹊徑，繞過大模型探索超級智能

AlphaGo之父出山探索超級智能

2026-02-20 22:20:30　來源: DeepTech深科技

河南舉報

分享至

又一位大佬創(chuàng)業(yè)了。

幾周前，消息確認前谷歌 DeepMind 首席科學家、AlphaGo 核心負責人戴維·席爾瓦（David Silver）正式離職，并在倫敦創(chuàng)立人工智能初創(chuàng)公司"Ineffable Intelligence"。據(jù)悉，該公司正在推進一輪規(guī)模達 10 億美元的種子輪融資，目前已接近完成。

這一融資額度，追平了 OpenAI 前首席科學家伊利亞·蘇茨克維（Ilya Sutskever）2024 年創(chuàng)立 Safe Superintelligence（SSI）時創(chuàng)下的紀錄。

圖 | 戴維·席爾瓦 (來源：Youtube)

與當前依賴海量文本預訓練的大模型路徑不同，席爾瓦的新公司明確提出：他們要繞過 LLM 既定范式，回歸強化學習（Reinforcement Learning, RL）本源，構(gòu)建一個不依賴人類既有知識、能自主探索新知的智能系統(tǒng)。

作為 DeepMind 聯(lián)合創(chuàng)始人德米斯·哈薩比斯（Demis Hassabis）自大學時代的密友與長期合作伙伴，席爾瓦的離開可以說是該公司歷史上最重要的人事變動之一。DeepMind 發(fā)言人在簡短聲明中確認了這一消息：“戴維的貢獻是無價的，我們非常感謝他對 DeepMind 工作所做出的貢獻。”

席爾瓦不僅是技術(shù)標桿，更是強化學習路線的堅定倡導者。作為圖靈獎得主查理·薩頓（Charlie Sutton）的學生，他的論文被引用量已超過 28 萬次，并于 2019 年獲得 ACM 計算獎。

他主張回歸強化學習的核心思路。2025 年 4 月，席爾瓦與其導師薩頓共同發(fā)表論文《歡迎來到經(jīng)驗時代》（Welcome to the Era of Experience），提出新一代 AI 系統(tǒng)應更注重智能體與環(huán)境的交互學習：通過持續(xù)試錯、自我迭代和長期互動積累經(jīng)驗，而非僅依賴靜態(tài)數(shù)據(jù)訓練。這一理念，也是 Ineffable Intelligence 的技術(shù)基石。

（來源：arXiv)

在當前創(chuàng)投環(huán)境下，Ineffable Intelligence 高達 10 億美元的融資目標尤為引人注目。接近交易的投資人分析，資本市場愿意為一家尚未發(fā)布產(chǎn)品的公司開出如此巨額支票，主要基于兩點：一是對席爾瓦個人技術(shù)聲望的信任，二是對其所主張的“后大模型時代”技術(shù)路線的戰(zhàn)略性押注。

目前，包括 OpenAI 的 GPT 系列與谷歌的 Gemini 系列在內(nèi)，主流 AI 模型均建立在“預訓練 + 微調(diào)”范式之上。這些模型通過學習互聯(lián)網(wǎng)上海量的文本數(shù)據(jù)，掌握預測下一個詞的統(tǒng)計規(guī)律，從而展現(xiàn)出強大的對話與生成能力。但席爾瓦認為，這一路徑存在本質(zhì)局限：AI 的能力上限被“人類數(shù)據(jù)”本身所鎖定。

席爾瓦曾在私下場合多次表達對當前技術(shù)路線的擔憂。他指出，大語言模型在后訓練階段主要依賴“人類反饋強化學習”（RLHF），即通過人類評估員的打分來優(yōu)化模型。這意味著，模型所能達到的最高水平，難以超越人類評估員的認知邊界。

“我們想要超越人類的認知，為此需要一種不同的方法。”2025 年 4 月，席爾瓦在一檔播客節(jié)目中罕見公開闡述其理念，“這種方法需要 AI 能夠真正自主探索，發(fā)現(xiàn)人類尚不知道的新事物。”

Ineffable Intelligence 的核心愿景，正是構(gòu)建一個擺脫人類知識束縛的系統(tǒng)。據(jù)熟悉該項目的人士透露，新公司將致力于研發(fā)“能夠持續(xù)學習的超級智能”——它不僅能處理語言，更能通過在模擬環(huán)境中的自我博弈與試錯，從第一性原理出發(fā)，推導解決問題的最優(yōu)解。

席爾瓦的堅持，有扎實的成果支撐。作為 AlphaGo 總設(shè)計師，他主導了 2016 年那場轟動全球的人機大戰(zhàn)。在與李世石的第二局比賽中，著名的“第 37 手”曾被所有人類專家判定為失誤，因為它不符合任何已知圍棋定式。然而后續(xù)棋局證明，這正是決定勝負的關(guān)鍵一手。席爾瓦將此類現(xiàn)象稱為“不可言說”（Ineffable）的智慧。AI 通過計算，發(fā)現(xiàn)了人類尚未掌握的規(guī)律。這也正是新公司名稱的由來。

(來源：Google Deepmind)

此后，席爾瓦團隊開發(fā)的 AlphaZero 與 MuZero 進一步驗證了其理論：AlphaZero 在不依賴任何人類棋譜、僅被告知規(guī)則的前提下，通過自我對弈三天便擊敗 AlphaGo；MuZero 甚至無需知曉規(guī)則，就能在圍棋、國際象棋和 Atari 游戲中自主摸索規(guī)律，達到超人水平。

這些成果構(gòu)成了席爾瓦技術(shù)路線的基石：在規(guī)則明確、可模擬的系統(tǒng)中，純粹的強化學習完全有能力超越人類智能。他堅信，只要設(shè)計出合理的獎勵機制，AI 就能在更復雜的現(xiàn)實任務中復刻 AlphaZero 的成功，無需像大語言模型那樣，通過模仿人類語言來“假裝”思考。

席爾瓦的創(chuàng)業(yè)，也折射出 AI 研究圈正在經(jīng)歷一場“路線大分流”。

隨著大語言模型在商業(yè)應用中的普及，越來越多頂尖科學家開始擔憂技術(shù)發(fā)展的潛在瓶頸。2024 年，OpenAI 前首席科學家伊利亞·蘇茨克維創(chuàng)辦 Safe Superintelligence（SSI），同樣獲得巨額融資。盡管 SSI 與 Ineffable Intelligence 均以“超級智能”為目標，但側(cè)重點有所不同：伊利亞傾向于通過擴大計算規(guī)模與優(yōu)化模型結(jié)構(gòu)實現(xiàn)智能躍遷，席爾瓦則更激進地主張改變學習范式，由“監(jiān)督學習”轉(zhuǎn)向“強化學習”。

此外，一些曾參與 AlphaGo、AlphaZero 項目的科學家，近期也離職創(chuàng)辦了 Reflection AI；Meta 的人工智能部門則在圖靈獎得主楊立昆（Yann LeCun）帶領(lǐng)下，重組“超級智能實驗室”，探索不同于 Transformer 架構(gòu)的新路徑。

一位行業(yè)觀察家指出：“當前局面頗似 2010 年代初深度學習爆發(fā)前夜。大家意識到，現(xiàn)有 LLM 雖強大，但可能并非通往 AGI 的終極答案。席爾瓦代表最原教旨主義的一派，他認為智能的本質(zhì)是決策與探索，而非語言預測。”

不過，也有批評者指出，強化學習雖在圍棋、游戲等規(guī)則明確的環(huán)境中表現(xiàn)優(yōu)異，但在現(xiàn)實世界這類規(guī)則模糊、反饋稀疏的開放環(huán)境中，其有效性尚未得到充分驗證。大語言模型之所以成功，正因語言本身是人類智慧的高度壓縮。通過學習語言，AI 能以較低成本獲得常識。

若完全摒棄這一路徑，Ineffable Intelligence 或需構(gòu)建極其復雜的數(shù)字孿生系統(tǒng)，供 AI 進行億萬次試錯訓練，其算力成本將是天文數(shù)字。這也正是 10 億美元融資需要解決的首要問題。

目前，Ineffable Intelligence 已在倫敦設(shè)立總部，并啟動全球頂尖強化學習研究員的招募。雖然公司尚未公布具體產(chǎn)品時間表，但這家公司的技術(shù)路線與資源投入，或?qū)⒊蔀橛绊?AI 技術(shù)演進方向的下一股重要力量。

1. https://www.ft.com/content/dffe72d0-4064-4412-8ebc-50198a30d40e

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.