<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Ilya最新訪談:人類的情感并非累贅,而是 AI 缺失的“終極算法”

      0
      分享至

      這篇文章基于 Dwarkesh Patel 與 Ilya Sutskever 的深度對話。完整對話實錄已附在文章后面。



      Ilya 是現代 AI 發展的關鍵人物,他是 Hinton 的學生,2012年發布的 AlexNet,是過去十幾年里人工智能浪潮的開始。

      他也是 OpenAI 的聯合創始人,負責 GPT 系列模型,并在2023年主導了董事會對 CEO Sam Altman 的突襲式罷免,且親自通知 Altman 被解職。

      2024 年Ilya離開 OpenAI,創立SSI(Safe Superintelligence Inc.),繼續探索對“安全 AGI”的研究。

      在這次訪談中,Ilya 深入探討了當前 AI 模型的局限性、未來的技術路徑以及“安全超級智能”的真正含義。

      核心觀點Takeaways

      本次對話的核心圍繞著“當前 AI 的局限”與“通往超級智能的新路徑”展開。Ilya 認為:

      模型表現與實際能力的脫節: 當前模型在評估測試(Evals)中得分極高,但在實際應用中卻常犯低級錯誤(如修復 Bug 時引入新 Bug)。這是因為強化學習(RL)被過度優化用于“刷榜”,導致模型像一個只會做題的競賽選手,缺乏真正的“品位”和判斷力。

      從擴展到研究的范式轉移: 2012-2020 年是研究時代,2020-2025 年是擴展時代。現在,單純擴大規模的邊際效應遞減,我們需要回到“研究時代”,尋找新的數據配方和訓練方法。

      人類智能的秘密——價值函數: 人類之所以能通過極少的數據學會復雜技能(如駕駛),是因為我們擁有強大的內部“價值函數”(即直覺和情感)。這指導我們在沒有明確外部獎勵時也能自我糾正。這是 AI 目前缺失的關鍵。

      超級智能的定義: 真正的超級智能不是一個存儲了所有知識的靜態系統,而是一個擁有極高樣本效率的“超級學習者”。它能像人類一樣通過少量接觸就掌握任何工作。

      安全與對齊: 為了安全,我們必須逐步展示 AI 的力量以警醒世人。最終的目標是構建一個“關愛有感知生命”的 AI。

      A. 為什么現在的模型看起來很“聰明”卻又很“笨”?

      Ilya 提出了一個深刻的類比:“競技程序員 vs. 真正的開發者”。

      · ? 現象: 模型在編程競賽題上表現超人,但在實際修 Bug 時卻往往陷入死循環。

      · ? 原因: 預訓練使用了所有數據,這很好;但強化學習(RL)需要人為選擇訓練環境。為了讓模型在評估(Evals)中好看,研究人員無意中讓模型“過擬合”了考試題目。

      · ? 結果: 模型像是一個練了 10,000 小時的競技編程選手,精通所有解題套路,但缺乏那個練了 100 小時卻擁有“靈性”和“品味”的學生的泛化能力。

      B. 破解人類學習的奧秘:樣本效率與價值函數

      人類學習效率遠超 AI。青少年只需 10 小時就能學會開車,且無需成千上萬次的碰撞測試。Ilya 認為這背后的關鍵在于:

      · ? 進化先驗: 進化給了我們視覺和運動的先驗知識,但數學和編程是新事物,人類依然學得很快,說明這不僅是先驗的問題,而是人類有更好的“機器學習算法”。

      · ? 價值函數(Value Function): 這是人類的核心優勢。我們的情感和直覺構成了強大的價值函數。當我們搞砸時,不需要等到最終結果,我們內心會立即感到“不對勁”并自我糾正。目前的 AI 缺乏這種內在的、魯棒的價值評估機制。

      C. SSI 的戰略:直通超級智能 vs. 逐步發布

      Ilya 的思維在過去一年發生了轉變:

      過去: 傾向于秘密研發,直到安全后再發布(直通模式)。現在: 傾向于逐步發布。因為 AGI 難以想象,只有讓公眾、政府和競爭對手親眼看到 AI 的強大力量,大家才會真正重視安全問題,從而形成一種“安全軍備競賽”的良性合作。目標: 構建一個能通過“持續學習”掌握經濟中所有工作的系統。

      D. 什么是“研究品味”?

      作為 AI 領域的傳奇人物,Ilya 分享了他做研究的審美標準:正確地以人為鏡: 借鑒大腦的原理,但要區分“皮毛”(如大腦溝回)和“本質”(如神經元連接、從經驗中學習)。美與簡單: 好的理論容不下丑陋。必須同時具備美感、簡潔性、優雅以及生物學上的合理性。自上而下的信念: 當實驗數據因 Bug 而失敗時,只有堅定的“自上而下的信念”(相信這在原理上必須行得通)才能支撐研究者繼續尋找真相。

      以下為播客原文:

      Ilya Sutskever:你知道什么很瘋狂嗎?這一切都是真實的。

      Dwarkesh Patel:指什么?

      Ilya Sutskever:你不覺得嗎?所有這些 AI 的東西,所有灣區發生的事……它正在發生。這難道不像是科幻小說里的情節嗎?

      Dwarkesh Patel:另一件瘋狂的事情是,“慢速起飛(slow takeoff)”的感覺是多么正常。以前覺得如果我們將 GDP 的 1% 投入到 AI 中,會感覺像是一件驚天動地的大事,而現在感覺只是……

      Ilya Sutskever:事實證明,我們適應得很快。但也因為它有點抽象。這意味著什么呢?意味著你在新聞里看到某某公司宣布了某某金額的投資。你看到的僅此而已。到目前為止,還沒有以其他方式真正感受到它。

      Dwarkesh Patel:我們應該從這里開始嗎?我覺得這個討論很有意思。

      Ilya Sutskever:當然。

      Dwarkesh Patel:我認為你的觀點是,從普通人的角度來看,沒有什么太大的不同,即使到了“奇點(singularity)”,這一點也會繼續成立。

      Ilya Sutskever:不,我不這么認為。

      Dwarkesh Patel:好的,這很有趣。

      Ilya Sutskever:我指的“感覺沒什么不同”,是說某某公司宣布了一筆難以理解的巨額投資。我不認為有人知道該怎么應對這個消息。

      但我認為 AI 的影響將會被感受到。AI 將滲透到整個經濟中。會有非常強大的經濟力量推動這一點,我認為這種影響將會被非常強烈地感受到。

      Dwarkesh Patel:你預計這種影響什么時候會出現?我覺得現在的模型看起來比它們產生的實際經濟影響要聰明得多。

      Ilya Sutskever:是的。這是目前關于模型最令人困惑的事情之一。如何調和它們在評估測試(evals)中表現如此出色這一事實?你看那些評估,你會想:“這些測試挺難的。”它們做得很好。但經濟影響似乎大大滯后。這很難解釋,模型怎么能一方面做這些驚人的事情,另一方面又在某些情況下重復犯錯?

      舉個例子,假設你用“憑感覺寫代碼(vibe coding)”做點什么。你去某個地方,然后遇到了一個 bug。你告訴模型:“請修復這個 bug 好嗎?”模型說:“天哪,你太對了。我有個 bug。讓我去修一下。”然后它引入了第二個 bug。

      然后你告訴它:“你有這個新的第二個 bug,”它告訴你:“天哪,我怎么會這樣?你又對了,”然后它又把第一個 bug 帶回來了,你就在這兩個 bug 之間來回折騰。這怎么可能?我不確定,但這確實表明有一些奇怪的事情正在發生。

      我有兩個可能的解釋。比較異想天開的解釋是,也許強化學習(RL)訓練讓模型變得有點過于一根筋和狹隘,有點過于無意識,盡管它也讓它們在其他方面變得有意識。正因為如此,它們做不了基本的事情。

      但還有另一種解釋。回想人們做預訓練(pre-training)的時候,“用什么數據訓練”這個問題是有答案的,因為答案是“所有數據”。當你做預訓練時,你需要所有的數據。所以你不必糾結是用這個數據還是那個數據。

      但是當人們做 RL 訓練時,他們確實需要思考。他們說:“好的,我們要為這個東西做這種 RL 訓練,為那個東西做那種 RL 訓練。”據我所知,所有公司都有團隊專門生產新的 RL 環境并將其添加到訓練組合中。問題是,那些是什么?自由度太高了。你可以生成的 RL 環境種類繁多。

      你可以做的一件事——我認為這是無意中發生的——是人們從評估測試(evals)中獲取靈感。你會說:“嘿,我希望我們的模型在發布時表現非常好。我想讓評估結果看起來很棒。什么樣的 RL 訓練能在這個任務上有所幫助?”我認為這種情況確實發生了,它可以解釋很多正在發生的事情。

      如果你將此與“模型泛化能力實際上不足”結合起來,這就有可能解釋我們看到的很多現象,即評估性能與實際現實世界性能之間的脫節,甚至我們今天都不太理解這意味著什么。

      Dwarkesh Patel:我喜歡這個觀點,即真正的“獎勵黑客(reward hacking)”是那些過于關注評估的人類研究員。

      我認為有兩種方式來理解或思考你剛剛指出的問題。一種是,如果僅僅通過在編程競賽中變得超人,并不能自動讓模型變得更有品味、更懂得如何判斷去改進代碼庫,那么你就應該擴展環境套件,這樣你就不只是測試它在編程競賽中的表現。它還應該能夠為 X、Y 或 Z 制作最好的應用程序。

      另一種,也許這就是你暗示的,是問:“為什么在編程競賽中成為超人,卻沒有讓你在更廣泛的意義上成為一個更有品味的程序員呢?”也許我們要做的不是不斷堆疊環境的數量和多樣性,而是找出一個方法,讓你能從一個環境中學習,并提高你在其他事情上的表現。

      Ilya Sutskever:我有個關于人類的類比可能很有幫助。既然你提到了,我們以競技編程為例。假設有兩個學生。其中一個決定要成為最好的競技程序員,所以他們會在那個領域練習 10,000 小時。他們會解決所有問題,背誦所有證明技巧,并非常熟練地快速且正確地實現所有算法。通過這樣做,他們成為了最棒的人之一。

      二號學生想,“哦,競技編程很酷。”也許他們只練習了 100 小時,少得多,但他們也做得很好。你認為哪一個在以后的職業生涯中會做得更好?

      Dwarkesh Patel:第二個。

      Ilya Sutskever:對。我認為這基本上就是正在發生的事情。模型更像第一個學生,甚至程度更甚。因為我們會說,模型應該擅長競技編程,所以讓我們把有史以來所有的競技編程問題都拿來。然后我們做一些數據增強,這樣我們就有更多的競技編程問題,我們在那上面訓練。現在你有了一個很棒的競技程序員。

      用這個類比,我想就更直觀了。是的,好吧,如果它訓練得那么好,所有不同的算法和所有不同的證明技巧都觸手可及。而且更直觀的是,有了這種程度的準備,它不一定能泛化到其他事情上。

      Dwarkesh Patel:但是,對于第二個學生在做那一兩百小時的微調(fine-tuning)之前在做什么,這有什么類比嗎?

      Ilya Sutskever:我覺得他們有“那個感覺”(it)。那個“靈性”因素。當我還是本科生的時候,我記得有個跟我一起學習的學生就是這樣,所以我知道這種人是存在的。

      Dwarkesh Patel:我認為區分“那個感覺”和預訓練所做的事情很有趣。理解你剛才說的“不必在預訓練中選擇數據”的一種方式是,這實際上與 10,000 小時的練習沒有什么不同。只是你是免費獲得了那 10,000 小時的練習,因為它已經在預訓練分布中的某個地方了。但也許你是在暗示,實際上從預訓練中獲得的泛化并沒有那么多。預訓練中有太多的數據,但它不一定比 RL 泛化得更好。

      Ilya Sutskever:預訓練的主要優勢在于:A,量非常大;B,你不必費盡心思去想把什么數據放入預訓練中。它是非常自然的數據,它確實包含了人們做的很多事情:人們的思想和很多特征。它就像是人們投射在文本上的整個世界,預訓練試圖利用海量數據來捕捉這一點。

      預訓練很難推理,因為很難理解模型依賴預訓練數據的方式。每當模型犯錯時,會不會是因為偶然在預訓練數據中沒有得到足夠的支持?“預訓練支持”也許是一個寬松的術語。我不知道我是否能在這方面補充更多有用的東西。我不認為預訓練有人類模擬。

      Dwarkesh Patel:有些人提出了關于人類類比預訓練的設想。我很好奇你對它們為什么可能是錯的有什么看法。一種是把人生的前 18 年、15 年或 13 年看作預訓練,那時候他們不一定有經濟生產力,但他們在做一些讓他們更好地理解世界等等的事情。另一種是把進化看作是進行了 30 億年的某種搜索,然后產生了一個人類生命的實例。

      我很好奇你是否認為這其中任何一個類似于預訓練。如果不是預訓練,你會如何看待人類的終身學習?

      Ilya Sutskever:我認為這兩者與預訓練都有一些相似之處,預訓練試圖扮演這兩者的角色。但我認為也有一些很大的不同。預訓練數據的數量是非常非常驚人的。

      Dwarkesh Patel:是的。

      Ilya Sutskever:不知何故,一個人,即使過了 15 年,只接觸了預訓練數據的一小部分,他們知道的要少得多。但無論他們知道什么,不知何故他們理解得更深。在這個年齡,你已經不會犯我們的 AI 犯的那種錯誤了。

      還有一件事。你可能會說,這會不會像進化?答案是也許。但在這種情況下,我認為進化實際上可能更有優勢。我記得讀過這個案例。神經科學家了解大腦的一種方式是研究大腦不同部位受損的人。有些人有你能想象到的最奇怪的癥狀。這實際上真的很有趣。

      我想到了一個相關的案例。我讀到過一個人,有些腦損傷,中風還是事故,破壞了他的情感處理能力。所以他不再感到任何情緒。他仍然非常善于表達,可以解決小謎題,在測試中他看起來很好。但他沒有任何感覺。他不覺得悲傷,不覺得憤怒,也不覺得興奮。不知何故,他變得極不擅長做任何決定。決定穿哪雙襪子要花他幾個小時。他會做出非常糟糕的財務決定。

      這說明了我們內置的情感在使我們成為一個可行的智能體(agent)方面扮演了什么角色?聯系到你關于預訓練的問題,也許如果你足夠擅長從預訓練中獲取所有東西,你也能得到那個。但這看起來像是那種……好吧,從預訓練中獲得那個可能行,也可能不行。

      Dwarkesh Patel:“那個”是什么?顯然不僅僅是直接的情感。它看起來幾乎像某種類似價值函數(value function)的東西,它告訴你任何決定的最終回報應該是什么。你認為這并不隱含地來自預訓練嗎?

      Ilya Sutskever:我認為它可以。我只是說這不是 100% 顯而易見的。

      Dwarkesh Patel:但那是什么?你如何看待情感?情感的機器學習(ML)類比是什么?

      Ilya Sutskever:它應該是某種價值函數的東西。但我不認為有一個很好的 ML 類比,因為目前,價值函數在人們做的事情中并沒有扮演非常突出的角色。

      Dwarkesh Patel:如果你愿意的話,也許值得為聽眾定義一下什么是價值函數。

      Ilya Sutskever:當然,我很樂意這樣做。當人們做強化學習時,現在的強化學習是怎么做的,人們如何訓練那些智能體(agents)?你有你的神經網絡,你給它一個問題,然后你告訴模型,“去解決它。”模型采取也許數千、數十萬次行動或思考或其他什么,然后它產生一個解決方案。解決方案被打分。

      然后分數被用來為你的軌跡中的每一個行動提供訓練信號。這意味著如果你做的事情需要很長時間——如果你在訓練一個需要很長時間才能解決的任務——在你想出提議的解決方案之前,它根本不會進行任何學習。這就是天真地做強化學習的方式。這就是 o1、R1 表面上的做法。

      價值函數說的是類似這樣的話:“也許我可以有時候,不是總是,告訴你你做得是好是壞。”價值函數的概念在某些領域比其他領域更有用。例如,當你下國際象棋丟了一個棋子,我搞砸了。你不需要下完整盤棋就知道我剛才做得很糟糕,因此之前的步驟也很糟糕。

      價值函數讓你能夠縮短等到最后的等待時間。假設你在做某種數學或編程的事情,你試圖探索特定的解決方案或方向。在,比如說,思考了一千步之后,你得出結論這個方向是沒有希望的。一旦你得出這個結論,你就可以在一千個時間步之前,當你決定沿著這條路走的時候,獲得一個獎勵信號。你說,“下次在類似情況下我不應該走這條路,”這比你實際想出提議的解決方案要早得多。

      Dwarkesh Patel:這在 DeepSeek R1 的論文里提到過——軌跡的空間如此寬廣,也許很難學習從中間軌跡到價值的映射。而且考慮到,例如在編碼中,你會有一個錯誤的想法,然后你會回去,然后你會改變一些東西。

      Ilya Sutskever:這聽起來像是對深度學習缺乏信心。當然這可能很難,但沒有什么深度學習做不到的。我的預期是價值函數應該是有用的,我完全預計它們將在未來被使用,如果不是已經被使用了的話。

      我提到的那個情感中樞受損的人,我想暗示的是,也許這表明人類的價值函數在某種重要的方式上受到情感的調節,這種調節是由進化硬編碼的。也許這對人們在世界上有效運作很重要。

      Dwarkesh Patel:這正是我打算問你的事情。關于價值函數的情感有一些非常有趣的地方,那就是令人印象深刻的是它們有如此大的效用,同時又相當容易理解。

      Ilya Sutskever:我有兩個回應。我確實同意,與我們學到的東西和我們要討論的 AI 類型相比,情感相對簡單。它們甚至可能簡單到也許你可以用人類可理解的方式把它們描繪出來。我認為那樣做會很酷。

      不過在效用方面,我認為存在一種復雜性與魯棒性(robustness)的權衡,復雜的東西可能非常有用,但簡單的東西在非常廣泛的情況下非常有用。解釋我們所見現象的一種方式是,我們擁有這些主要從哺乳動物祖先那里進化而來的情感,并在我們成為原始人類時進行了一點點微調,只是一點點。我們確實擁有相當數量的社會情感,這是哺乳動物可能缺乏的。但它們不是很復雜。正因為它們不復雜,在這個與我們一直生活的世界截然不同的世界里,它們依然很好地服務著我們。

      實際上,它們也會犯錯。例如,我們的情感……其實,我不知道。饑餓算是一種情感嗎?這有爭議。但我認為,例如,在這個食物充足的世界里,我們直覺上的饑餓感并沒有成功地正確引導我們。

      Dwarkesh Patel:人們一直在談論擴展(scaling)數據、擴展參數、擴展計算。有沒有更通用的方式來思考擴展?其他的擴展軸是什么?

      Ilya Sutskever:這是一個我認為可能是正確的視角。過去機器學習的工作方式是,人們只是修修補補,試圖得到有趣的結果。這就是過去一直在發生的事情。

      然后擴展的洞察力到來了。擴展定律(Scaling laws),GPT-3,突然每個人都意識到我們應該擴展。這是語言如何影響思想的一個例子。“Scaling(擴展)”只是一個詞,但它是一個如此強大的詞,因為它告訴人們該做什么。他們說,“讓我們嘗試擴展事物。”所以你會問,我們在擴展什么?預訓練是要擴展的東西。這是一個特定的擴展配方。

      預訓練的巨大突破在于意識到這個配方是好的。你會說,“嘿,如果你把一些算力和一些數據混合進一個特定大小的神經網絡,你會得到結果。你會知道如果你只是按比例放大配方,你會變得更好。”這也很好。公司喜歡這個,因為它為你提供了一種非常低風險的資源投資方式。把資源投入到研究中要難得多。與之相比,如果你做研究,你需要像,“去吧研究人員,去做研究并想出點什么來”,對比“獲取更多數據,獲取更多算力”。你知道你會從預訓練中得到東西。確實,根據有些人在推特上說的各種事情,看起來 Gemini 似乎找到了一種從預訓練中獲得更多的方法。但在某個時候,預訓練的數據會用完。數據顯然是有限的。接下來你做什么?要么你做某種增強版的預訓練,一種與你以前做的不同的配方,要么你做 RL,或者也許是其他東西。但現在算力很大,算力現在非常大,從某種意義上說,我們回到了研究時代。

      也許換一種說法。直到 2020 年,從 2012 年到 2020 年,那是研究時代。現在,從 2020 年到 2025 年,那是擴展時代(age of scaling)——也許加上誤差條,讓我們給這些年份加上誤差條——因為人們說,“這太驚人了。你必須擴展更多。繼續擴展。”這一個詞:擴展。

      但現在規模太大了。真的相信“哦,它這么大,但如果你有 100 倍以上,一切都會如此不同”嗎?肯定會有所不同。但相信只要你把規模擴大 100 倍,一切都會發生質變嗎?我不認為那是真的。所以這又回到了研究時代,只是有了大電腦。

      Dwarkesh Patel:這是一種非常有趣的說法。但讓我問你剛才提出的問題。我們在擴展什么,擁有一個配方意味著什么?我想我沒有意識到預訓練中存在一種非常清晰的、幾乎看起來像物理定律的關系。在數據或計算或參數與損失(loss)之間存在冪律關系。我們應該尋求什么樣的關系,我們應該如何思考這個新配方可能是什么樣子的?

      Ilya Sutskever:我們已經目睹了從一種類型的擴展到另一種類型的擴展的轉變,從預訓練到 RL。現在人們正在擴展 RL。根據人們在推特上所說的,目前他們在 RL 上花費的算力比在預訓練上花費的還要多,因為 RL 實際上可以消耗相當多的算力。你做非常長的展開(rollouts),所以產生這些展開需要大量的算力。然后你從每個展開中獲得的學習量相對較少,所以你真的可以花費大量的算力。

      我甚至不會稱之為擴展。我會說,“嘿,你在做什么?你正在做的事情是你所能做的最高效的事情嗎?你能找到一種更高效的方式來使用你的算力嗎?”我們之前討論過價值函數的事情。也許一旦人們擅長價值函數,他們將更有效地利用資源。如果你找到另一種完全不同的訓練模型的方法,你可以說,“這是擴展還是僅僅是在使用你的資源?”我認為這變得有點模棱兩可。

      在這個意義上,當人們在那時的研究時代,是“讓我們試試這個和這個和這個。讓我們試試那個和那個和那個。哦,看,有趣的事情正在發生。”我認為將會有對此的回歸。

      Dwarkesh Patel:如果我們回到了研究時代,退一步說,我們需要思考最多的配方部分是什么?當你說價值函數時,人們已經在嘗試當前的配方,然后有 LLM-as-a-Judge(大模型作為裁判)等等。你可以說那是價值函數,但聽起來你有更基本的東西在腦海里。我們甚至應該重新思考預訓練,而不僅僅是在那個過程的末尾添加更多步驟嗎?

      Ilya Sutskever:關于價值函數的討論,我認為很有趣。我想強調,我認為價值函數會讓 RL 更有效率,我認為這會有所不同。但我認為任何你可以用價值函數做的事情,你不用它也可以做,只是更慢。我認為最根本的事情是,這些模型不知何故泛化能力比人差得多。這超級明顯。這似乎是一件非常根本的事情。

      Dwarkesh Patel:所以這是關鍵:泛化(generalization)。有兩個子問題。一個是關于樣本效率(sample efficiency):為什么這些模型學習需要的數據比人類多那么多?還有第二個問題。即使拋開所需的數量不談,為什么教模型我們想要的東西比教人類要難得多?對于人類,我們不一定需要一個可驗證的獎勵才能……你現在可能正在指導一群研究人員,你在和他們交談,你在給他們看你的代碼,你在向他們展示你是如何思考的。

      從中,他們學到了你的思維方式以及他們應該如何做研究。

      你不需要為他們設定一個可驗證的獎勵,比如,“好的,這是課程的下一部分,現在這是你課程的下一部分。哦,這次訓練不穩定。”沒有這種笨重、定制的過程。也許這兩個問題實際上在某種程度上是相關的,但我很好奇探索這第二個東西,它更像是持續學習(continual learning),而第一個東西感覺就像是樣本效率。

      Ilya Sutskever:你可能會想,對于人類樣本效率的一個可能的解釋是進化。進化給了我們少量最有用信息。對于像視覺、聽覺和運動這樣的東西,我認為有很強的理由證明進化給了我們很多。

      例如,人類的靈巧度遠遠超過……我的意思是,如果你在模擬中對機器人進行大量的訓練,它們也可以變得靈巧。但在現實世界中訓練機器人像人一樣快速掌握一項新技能似乎遙不可及。在這里你可以說,“哦是的,運動。我們所有的祖先都需要很好的運動能力,松鼠。所以對于運動,也許我們有一些難以置信的先驗(prior)。”

      你可以對視覺提出同樣的觀點。我相信 Yann LeCun 提出過一個觀點,孩子們在練習 10 小時后就學會了開車,這是真的。但我們的視覺太好了。至少對我來說,我記得自己五歲的時候。那時我對汽車非常興奮。我很確定作為五歲小孩,我的汽車識別能力對于駕駛來說已經綽綽有余了。作為一個五歲小孩,你看不到那么多數據。你大部分時間都待在父母的房子里,所以你的數據多樣性非常低。

      但你可以說也許那是進化。但在語言、數學和編程方面,可能不是。

      Dwarkesh Patel:這似乎仍然比模型好。顯然,模型在語言、數學和編程方面比普通人好。但它們在學習方面比普通人好嗎?

      Ilya Sutskever:哦是的。哦是的,絕對的。我想說的是,語言、數學和編程——尤其是數學和編程——表明,無論是什么讓人類善于學習,可能都不太像是一個復雜的先驗,而是某種更多的、某種根本性的東西。

      Dwarkesh Patel:我不確定我理解了。為什么會這樣?

      Ilya Sutskever:考慮一項人們表現出某種巨大可靠性的技能。如果這項技能對我們的祖先來說在數百萬年、數億年里非常有用,你可以爭辯說也許人類擅長它是因為進化,因為我們有一個先驗,一個以某種非常不明顯的方式編碼的進化先驗,不知何故讓我們如此擅長它。

      但如果人們在一個直到最近才存在的領域表現出巨大的能力、可靠性、魯棒性和學習能力,那么這更多地表明人們可能只是擁有更好的機器學習,就這樣。

      Dwarkesh Patel:我們應該如何思考那是什么?ML 的類比是什么?這有幾個有趣的地方。它需要更少的樣本。它更是無監督的。一個學習開車的孩子……孩子們不是在學開車。一個學習如何開車的青少年并沒有完全得到某種預先建立的、可驗證的獎勵。它來自于他們與機器和環境的互動。它需要少得多的樣本。它看起來更無監督。它看起來更魯棒?

      Ilya Sutskever:魯棒得多。人的魯棒性真是驚人。

      Dwarkesh Patel:你有沒有一種統一的方式來思考為什么所有這些事情同時發生?能夠實現類似這種事情的 ML 類比是什么?

      Ilya Sutskever:你一直問的一件事是,青少年司機如何在沒有外部老師的情況下自我糾正并從經驗中學習?答案是他們有他們的價值函數。他們有一種一般的感覺,順便說一句,這種感覺在人身上也非常魯棒。無論人類的價值函數是什么,除了一些關于成癮的例外,它實際上是非常非常魯棒的。

      所以對于像正在學習駕駛的青少年來說,他們開始駕駛,他們立即就有了一種感覺,關于他們駕駛得怎么樣,有多糟糕,有多不自信。然后他們看到,“好的。”然后,當然,任何青少年的學習速度都是如此之快。10 小時后,你就可以上路了。

      Dwarkesh Patel:看起來人類有一些解決方案,但我很好奇他們是怎么做到的,為什么這么難?我們需要如何重新概念化我們訓練模型的方式,以使這種事情成為可能?

      Ilya Sutskever:這是一個很好的問題,也是一個我有很多觀點的問題。但不幸的是,我們生活在一個并非所有機器學習想法都能自由討論的世界,這就是其中之一。可能有一種方法可以做到。我認為這是可以做到的。人們是那樣的這一事實,我認為這就證明了它是可以做到的。

      不過可能還有另一個阻礙,那就是人類神經元做的計算可能比我們要多。如果那是真的,并且如果那起著重要作用,那么事情可能會更困難。但無論如何,我確實認為它指向了某種機器學習原則的存在,對此我有自己的看法。但不幸的是,環境使得很難詳細討論。

      Dwarkesh Patel:沒人聽這個播客,Ilya。

      Dwarkesh Patel:我很好奇。如果你說我們要回到研究時代,你從 2012 年到 2020 年都在那里。如果我們回到研究時代,現在的氛圍會是什么樣的?

      例如,即使在 AlexNet 之后,用于運行實驗的算力也在不斷增加,前沿系統的規模也在不斷增加。你認為現在這個研究時代仍然需要巨大的算力嗎?你認為這需要回到檔案室去讀舊論文嗎?當研究氛圍更濃厚的時候,你在 Google、OpenAI 和斯坦福這些地方。我們應該在社區中期待什么樣的事情?

      Ilya Sutskever:擴展時代的一個后果是,擴展吸走了房間里所有的空氣。因為擴展吸走了所有的空氣,每個人都開始做同樣的事情。我們到了這樣一個地步,世界上的公司比想法多得多。實際上關于這一點,硅谷有句俗話說,想法很廉價,執行才是一切。人們經常這么說,這也有道理。但我看到有人在推特上說,“如果想法這么廉價,為什么沒人有任何想法?”我認為這也是真的。

      如果你從瓶頸的角度思考研究進展,有幾個瓶頸。其中一個是想法,另一個是你將它們變為現實的能力,這可能是算力,也可能是工程。如果你回到 90 年代,假設那時候有些人有很好的想法,如果他們有更大的計算機,也許他們可以證明他們的想法是可行的。但他們做不到,所以他們只能做一個非常非常小的演示,無法說服任何人。所以瓶頸是算力。

      然后在擴展時代,算力增加了很多。當然,有一個問題是需要多少算力,但算力很大。算力大到足以證明某種想法不需要那么多額外的算力這一點并不明顯。我給你一個類比。AlexNet 是建立在兩個 GPU 上的。那是用于它的總算力。Transformer 是建立在 8 到 64 個 GPU 上的。沒有任何單一的 Transformer 論文實驗使用了超過 2017 年的 64 個 GPU,那大概相當于今天的兩個 GPU?ResNet,對吧?你可以爭辯說 o1 推理并不是世界上最耗費算力的事情。

      所以對于研究,你肯定需要一定量的算力,但遠不明顯你需要絕對最大量的算力來進行研究。你可能會爭辯,我也認為是真的,如果你想建立絕對最好的系統,那么擁有更多的算力是有幫助的。特別是如果每個人都在同一個范式內,那么算力就成了巨大的區分因素之一。

      Dwarkesh Patel:我在問你歷史,因為你當時真的在那里。我不確定實際上發生了什么。聽起來使用最少量的算力來開發這些想法是可能的。但 Transformer 并沒有立即成名。它變成了每個人開始做的事情,然后開始在它之上進行實驗并建立,因為它在越來越高的算力水平上得到了驗證。

      Ilya Sutskever:正確。

      Dwarkesh Patel:如果你在 SSI(Safe Superintelligence Inc.)有 50 個不同的想法,如果沒有其他前沿實驗室擁有的那種算力,你怎么知道哪一個是下一個 Transformer,哪一個是脆弱的?

      Ilya Sutskever:我可以對此發表評論。簡短的評論是,你提到了 SSI。具體對我們來說,SSI 用于研究的算力真的不小。我想解釋為什么。簡單的數學可以解釋為什么我們要用于研究的算力比人們想象的要多。我解釋一下。

      SSI 籌集了 30 億美元,從任何絕對意義上來說這都是很多。但你可以說,“看看其他籌集更多資金的公司。”但他們的大量算力用于推理(inference)。這些大數字,這些大額貸款,是專門用于推理的。那是第一點。第二,如果你想擁有一個可以進行推理的產品,你需要有大量的工程師、銷售人員。大量的研究需要致力于生產各種與產品相關的功能。所以當你看看實際上剩下多少用于研究時,差距就變得小得多了。

      另一件事是,如果你在做不同的事情,你真的需要絕對最大的規模來證明它嗎?我不認為那是真的。我認為在我們的案例中,我們要有足夠的算力來證明,說服我們自己和其他任何人,我們正在做的事情是正確的。

      Dwarkesh Patel:公開估計像 OpenAI 這樣的公司目前每年僅在實驗上就花費大約 50-60 億美元。這與他們在推理等方面花費的資金是分開的。所以看起來他們每年運行研究實驗的花費比你們的總資金還要多。

      Ilya Sutskever:我認為這是一個關于你怎么用它的問題。這是一個關于你怎么用它的問題。在他們的情況下,在其他人的情況下,對訓練算力有更多的需求。有更多不同的工作流,有不同的模態,只是有更多的東西。所以它變得碎片化了。

      Dwarkesh Patel:SSI 將如何賺錢?

      Ilya Sutskever:我對這個問題的回答是這樣的。目前,我們只專注于研究,然后那個問題的答案會自己顯現出來。我認為會有很多可能的答案。

      Dwarkesh Patel:SSI 的計劃仍然是直通超級智能(straight shot superintelligence)嗎?

      Ilya Sutskever:也許。我認為這有其優點。我認為這有很多優點,因為不受日常市場競爭的影響非常好。但我認為有兩個原因可能會導致我們改變計劃。一個是務實的,如果時間線變得很長,這有可能。第二,我認為最好、最強大的 AI 存在于外界并影響世界有很大的價值。我認為這是一件有意義且有價值的事情。

      Dwarkesh Patel:那么為什么你的默認計劃是直通超級智能?因為聽起來 OpenAI、Anthropic,所有這些其他公司,他們明確的想法是,“看,我們有越來越弱的智能,公眾可以習慣并為此做好準備。”為什么直接建立超級智能可能更好?

      Ilya Sutskever:我會提出支持和反對的理由。支持的理由是,人們在市場中面臨的挑戰之一是他們必須參與激烈的競爭(rat race)。激烈的競爭非常困難,因為它讓你面臨你需要做出的艱難權衡。說“我們將把自己與所有這些隔離開來,只專注于研究,直到我們準備好了才出來,而不是在此之前”是很好的。但反駁也是有效的,這些是相反的力量。反駁是,“嘿,讓世界看到強大的 AI 是有用的。讓世界看到強大的 AI 是有用的,因為那是你能夠傳達它的唯一方式。”

      Dwarkesh Patel:好吧,我想不僅僅是可以傳達這個想法——

      Ilya Sutskever:傳達 AI,不是想法。傳達 AI。

      Dwarkesh Patel:你是說“傳達 AI”是什么意思?

      Ilya Sutskever:假設你寫了一篇關于 AI 的文章,文章說,“AI 將會是這樣,AI 將會是那樣,它將會是這個。”你讀了它,你說,“好的,這是一篇有趣的文章。”現在假設你看到一個 AI 做這個,一個 AI 做那個。這是無法比較的。基本上我認為 AI 出現在公眾視野中有很大的好處,這將是我們不完全“直通”的一個理由。

      Dwarkesh Patel:我想甚至不僅僅是那個,但我確實認為那是其中重要的一部分。另一件大事是,我想不出人類工程和研究中的另一門學科,其最終產物主要是通過思考如何使其安全來變得更安全的,這與為什么今天每英里的飛機墜毀率比幾十年前低得多形成對比。為什么在 Linux 中找 bug 比幾十年前難得多?我認為這主要是因為這些系統被部署到了世界上。你注意到了故障,這些故障被糾正了,系統變得更魯棒。

      我不確定為什么 AGI 和超人智能會有什么不同,尤其是考慮到——我希望我們要談到這個——似乎超級智能的危害不僅僅是關于有一個惡意的回形針制造者(malevolent paper clipper)。而是一個真正強大的東西,我們甚至不知道如何概念化人們如何與它互動,人們會用它做什么。逐步接觸它似乎是分散其影響并幫助人們為此做好準備的更好方式。

      Ilya Sutskever:在這個點上,即使在直通方案中,你仍然會逐步發布它,我是這么設想的。漸進主義將是任何計劃的固有組成部分。只是問題在于你推出的第一個東西是什么。那是第一點。

      第二,我相信你比其他人更提倡持續學習(continual learning),而且實際上我認為這是一件重要且正確的事情。原因如下。我要給你另一個例子說明語言如何影響思維。在這種情況下,我認為有兩個詞塑造了每個人的思維。第一個詞:AGI(通用人工智能)。第二個詞:預訓練(pre-training)。讓我解釋一下。

      AGI 這個術語,為什么存在?這是一個非常特別的術語。為什么它存在?有一個原因。在我看來,AGI 這個術語存在的原因,與其說是因為它是某種智能最終狀態的非常重要、本質的描述符,不如說是對另一個存在的術語的反應,這個術語就是狹義 AI(narrow AI)。

      如果你回到游戲和 AI、跳棋 AI、國際象棋 AI、電腦游戲 AI 的古代歷史,每個人都會說,看這個狹義的智能。當然,國際象棋 AI 可以擊敗卡斯帕羅夫,但它做不了其他任何事情。它是如此狹義,人工狹義智能。所以作為回應,作為對此的反應,有些人說,這不好。它太狹義了。我們需要的是通用 AI,一種可以做所有事情的 AI。那個術語獲得了很多關注。

      第二件獲得很多關注的事情是預訓練,特別是預訓練的配方。我認為人們現在做 RL 的方式也許正在消除預訓練的概念印記。但預訓練有這個屬性。你做更多的預訓練,模型在所有方面都變得更好,或多或少是一致的。通用 AI。預訓練給予 AGI。

      但 AGI 和預訓練發生的事情是,在某種意義上它們超過了目標。如果你思考“AGI”這個術語,特別是在預訓練的背景下,你會意識到人類不是 AGI。是的,肯定有技能的基礎,但人類缺乏大量的知識。相反,我們依賴于持續學習。

      所以當你思考,“好的,假設我們取得了成功,我們生產了某種安全的超級智能。”問題是,你如何定義它?它將在持續學習曲線的哪個位置?

      我生產了一個超級聰明的 15 歲少年,非常渴望去闖蕩。他們知道的并不多,一個好學生,非常渴望。你去當程序員,你去當醫生,去學習。所以你可以想象部署本身將涉及某種學習試錯期。這是一個過程,而不是你扔出一個完成的東西。

      Dwarkesh Patel:我明白了。你是建議你在超級智能方面指出的不是某種完成的心智,它知道如何做經濟中的每一項工作。因為,比如最初的 OpenAI 章程或其他的定義 AGI 的方式是,它可以做每一項工作,人類能做的每一件事。你提議的是一種可以學習做每一項工作的心智,那就是超級智能。

      Ilya Sutskever:是的。

      Dwarkesh Patel:但是一旦你有了學習算法,它就會像人類勞動者加入組織一樣被部署到世界上。

      Ilya Sutskever:沒錯。

      Dwarkesh Patel:看起來這兩件事中的一件可能會發生,也許這兩件都不會發生。一,這種超級高效的學習算法變得超人,變得和你一樣好,甚至可能更好,在 ML 研究任務上。結果算法本身變得越來越超人。

      另一個是,即使那沒有發生,如果你有一個單一的模型——這明確地是你的愿景——模型的實例被部署到整個經濟中做不同的工作,學習如何做那些工作,在工作中持續學習,掌握任何人可以掌握的所有技能,但同時掌握所有這些技能,然后合并它們的學習,你基本上就有了一個模型,即使在軟件中沒有任何遞歸自我改進,它在功能上也變成了超級智能。

      因為你現在有一個模型可以做經濟中的每一項工作,而人類無法以同樣的方式合并我們的思想。所以你是否期望從廣泛部署中產生某種智能爆炸?

      Ilya Sutskever:我認為很有可能會有快速的經濟增長。我認為隨著廣泛部署,你可以提出兩個相互沖突的論點。一個是,一旦你真的到了擁有一個可以快速學習做事的 AI 并且你有很多個這樣的 AI 的地步,那么將會有一股強大的力量將它們部署到經濟中,除非會有某種法規阻止它,順便說一句,可能會有。

      但是關于廣泛部署帶來的非常快速的經濟增長的想法,我認為這是非常可能的。問題是它會有多快。我認為這很難知道,因為一方面你有這個非常高效的工人。另一方面,世界真的很大,有很多東西,那些東西以不同的速度移動。但另一方面,現在的 AI 可以……所以我認為非常快速的經濟增長是可能的。我們會看到各種各樣的事情,比如不同的國家有不同的規則,那些規則更友好的國家,經濟增長會更快。很難預測。

      Dwarkesh Patel:在我看來,這是一個非常不穩定的情況。在極限情況下,我們知道這應該是可能的。如果你有某種在學習方面和人類一樣好的東西,但它可以合并它的大腦——以人類無法合并的方式合并不同的實例——這似乎在物理上應該是可能的。人類是可能的,數字計算機是可能的。你只需要結合這兩者就能產生這個東西。

      看起來這種東西也非常強大。經濟增長是一種說法。戴森球(Dyson sphere)是大量的經濟增長。但另一種說法是,你將在可能非常短的時間內擁有……你在 SSI 雇傭人,六個月后,他們可能有凈產出。人類學得真的很快,而這個東西變得越來越聰明非常快。你如何考慮讓這一切順利進行?為什么 SSI 定位好能做到這一點?SSI 在那里的計劃是什么,基本上這就是我想問的。

      Ilya Sutskever:我的想法發生變化的方式之一是,我現在更加重視 AI 的逐步和提前部署。關于 AI 的一件非常困難的事情是,我們在談論尚不存在的系統,很難想象它們。

      我認為正在發生的一件事是,實際上很難感覺到 AGI。很難感覺到 AGI。我們可以談論它,但想象一下談論當你年老體弱時變老是什么感覺。你可以進行對話,你可以嘗試想象它,但這只是很難,你會回到那不是事實的現實中。我認為很多關于 AGI 及其未來力量的問題源于很難想象它。未來的 AI 將會不同。它將會很強大。確實,整個問題,AI 和 AGI 的問題是什么?整個問題就是力量。整個問題就是力量。

      當力量真的很大時,會發生什么?我在過去一年中改變主意的方式之一——這種主意的改變,我會稍微對沖一下,可能會反向傳播到我們公司的計劃中——就是如果很難想象,你做什么?你得把那個東西展示出來。你得把那個東西展示出來。我堅持認為大多數從事 AI 工作的人也無法想象它,因為它與人們日常看到的東西太不同了。

      我確實堅持,這是我預測會發生的事情。這是一個預測。我堅持認為隨著 AI 變得更強大,人們會改變他們的行為。我們將看到各種前所未有的事情,這些事情現在還沒有發生。我會舉一些例子。我認為不管是好是壞,前沿公司將在發生的事情中扮演非常重要的角色,政府也是如此。

      我認為你會看到的那種事情,你已經看到了苗頭,那是激烈的競爭對手開始在 AI 安全方面合作。你可能已經看到 OpenAI 和 Anthropic 邁出了第一小步,但這以前是不存在的。這是我在大約三年前的一次演講中預測的事情,這樣的事情會發生。我也堅持認為,隨著 AI 繼續變得更強大,更明顯地強大,政府和公眾也會渴望做點什么。我認為這是一股非常重要的力量,即展示 AI。

      那是第一點。

      第二,好的,所以 AI 正在被建立。需要做什么?我堅持會發生的一件事是,現在,從事 AI 工作的人,我堅持認為 AI 因為它的錯誤而不讓人感覺強大。我確實認為在某個時候 AI 會開始讓人感覺真正強大。

      我認為當那發生時,我們將看到所有 AI 公司在處理安全問題的方式上發生巨大變化。他們會變得更加偏執。我說這是一個預測,我們會看到它發生。我們要看看我是否正確。但我認為這是將會發生的事情,因為他們會看到 AI 變得更強大。現在正在發生的一切,我堅持認為,是因為人們看著今天的 AI,很難想象未來的 AI。

      還有第三件事需要發生。我是從更廣泛的角度來談論它,不僅僅是從 SSI 的角度,因為你問了關于我們要建立的公司。問題是,公司應該渴望建立什么?他們應該渴望建立什么?有一個每個人都被鎖定的大想法,那就是自我改進的 AI。為什么會這樣?因為想法比公司少。但我堅持認為有更好的東西可以建立,我認為每個人都會想要那個。

      那就是穩健地對齊,去關愛有感知能力的生命(sentient life)的 AI,特別是。我認為尤其可以論證,建立一個關愛有感知能力的生命的 AI 比建立一個僅關愛人類生命的 AI 更容易,因為 AI 本身將是有感知的。如果你思考像鏡像神經元(mirror neurons)和人類對動物的同理心這樣的事情,你可能會爭辯說這不夠大,但它存在。我認為這是從我們用建模自己的同一回路來建模他人這一事實中產生的涌現屬性,因為那是最高效的做法。

      Dwarkesh Patel:所以即使你讓 AI 關愛有感知能力的生物——其實我不清楚如果你解決了對齊(alignment),那是不是你應該嘗試做的——情況仍然是大多數有感知能力的生物將是 AI。將會有數萬億,最終數千萬億的 AI。人類將是有感知能力的生物中非常小的一部分。所以如果不清楚目標是對這個未來文明的某種人類控制,這是否是最好的標準。

      Ilya Sutskever:這是真的。這可能不是最好的標準。我要說兩件事。第一,關愛有感知能力的生命,我認為這有其優點。這應該被考慮。我認為如果有一些公司在這種情況下可以使用的想法簡短清單,那將是有幫助的。這是第二點。第三,我認為如果最強大的超級智能的力量在某種程度上受到限制,那將會有實質性的幫助,因為它會解決很多這些擔憂。關于如何做到這一點的問題,我不確定,但我認為當你談論真正、真正強大的系統時,那將會有實質性的幫助。

      Dwarkesh Patel:在我們繼續對齊討論之前,我想雙擊那個點。頂部還有多少空間?你如何思考超級智能?利用這個學習效率的想法,你認為它只是在學習新技能或新知識方面極快嗎?它只是擁有更大的策略池嗎?中間是否有一個更有力或更大的單一凝聚體“它”?如果是這樣,你想象這將與人類文明的其他部分相比像神一樣,還是只是感覺像另一個智能體,或另一組智能體?

      Ilya Sutskever:這是一個不同的人有不同直覺的領域。我認為它肯定會非常強大。我認為最有可能發生的是,大約在同一時間將會有多個這樣的 AI 被創造出來。我認為如果集群足夠大——比如如果集群實際上是大陸規模的——那個東西真的可能非常強大,確實。

      如果你真的有一個大陸規模的集群,那些 AI 可能會非常強大。我能告訴你的是,如果你在談論極其強大的 AI,真正戲劇性地強大,如果它們能在某些方面受到限制,或者如果只有某種協議或其他東西,那就好了。

      超級智能的擔憂是什么?解釋這種擔憂的一種方式是什么?如果你想象一個足夠強大的系統,真的足夠強大——你可以說你需要做一些理智的事情,比如以一種非常一心一意的方式關愛有感知能力的生命——我們可能不喜歡結果。那真的就是這樣。

      順便說一句,也許答案是你不要建立通常意義上的 RL 智能體。我會指出幾點。我認為人類是半 RL 智能體。我們追求獎勵,然后情緒或其他什么讓我們對獎勵感到厭倦,我們追求不同的獎勵。市場是一種非常短視的智能體。進化也是一樣。進化在某些方面非常聰明,但在其他方面非常愚蠢。政府被設計成三個部分之間永無休止的斗爭,這是有效果的。所以我想這類事情。

      另一件讓這個討論變得困難的事情是,我們談論的是不存在的系統,我們不知道如何建立。那是另一件事,這實際上是我的信念。我認為人們現在正在做的事情會走一段距離,然后逐漸減弱。它會繼續改進,但也成不了“那個”。“那個”我們不知道如何建立,很多都取決于理解可靠的泛化。

      我還要說另一件事。關于導致對齊困難的原因,你可以說的一件事是,你學習人類價值觀的能力是脆弱的。然后你優化它們的能力是脆弱的。你實際上學會了優化它們。難道你不能說,“這些難道不都是不可靠泛化的實例嗎?”為什么人類似乎泛化得好得多?如果泛化好得多呢?在這種情況下會發生什么?會有什么影響?但那些問題目前仍然無法回答。

      Dwarkesh Patel:人們如何思考 AI 進展順利是什么樣子的?你已經勾勒出了 AI 可能如何進化。我們將擁有這些持續學習的智能體。AI 將非常強大。也許會有許多不同的 AI。你如何看待許多大陸規模的計算智能四處游走?那有多危險?我們如何讓那變得不那么危險?我們如何以一種保護均衡的方式做到這一點,在這種均衡中可能會有未對齊的 AI 和壞的行動者?

      Ilya Sutskever:這就是為什么我喜歡“關愛有感知能力的生命的 AI”的一個原因。我們可以爭論它是好是壞。但如果這些戲劇性系統中的前 N 個確實關愛、愛人類或某種東西,關愛有感知能力的生命,顯然這也需要實現。這需要實現。所以如果這由前 N 個系統實現,那么我可以看到它進展順利,至少在相當長的一段時間內。

      然后是關于長期會發生什么的問題。你如何實現長期均衡?我認為在那里,也有一個答案。我不喜歡這個答案,但它需要被考慮。

      從長遠來看,你可能會說,“好的,如果你有一個強大的 AI 存在的世界,在短期內,你可以說你有普遍的高收入。你有普遍的高收入,我們都做得很好。”但佛教徒怎么說?“變化是唯一的常數。”事物在變化。有某種政府、政治結構的東西,它在變化,因為這些東西有保質期。一些新的政府事物出現了,它運作,然后過了一段時間它停止運作。那是我們看到一直發生的事情。

      所以我認為對于長期均衡,一種方法是你可以說也許每個人都會有一個 AI 聽從他們的命令,那很好。如果那能無限期地維持下去,那是真的。但那樣的缺點是,然后 AI 去為這個人賺錢,并在政治領域倡導他們的需求,也許然后寫一份小報告說,“好的,這是我所做的,這是情況,”然后人說,“太好了,繼續保持。”但這人不再是參與者了。然后你可以說那是一個不穩定的處境。

      我要先說我不喜歡這個解決方案,但它是一個解決方案。解決方案是如果人們通過某種腦機接口(Neuralink)變成部分 AI。因為結果將會是現在 AI 理解了一些東西,我們也理解了它,因為現在理解是被全盤傳輸的。所以現在如果 AI 處在某種情況中,你自己也完全參與了那種情況。我認為這就是均衡的答案。

      Dwarkesh Patel:我想知道,數百萬年——或者在很多情況下,數十億年——前在完全不同的環境中進化出的情感仍然如此強烈地指導我們的行動,這一事實是否是對齊成功的一個例子。

      為了說明我的意思——我不知道稱之為價值函數還是獎勵函數更準確——但腦干(brainstem)有一個指令,說:“與更成功的人交配。”皮層(cortex)是理解現代背景下成功意味著什么的部分。但腦干能夠對齊皮層并說,“無論你認為成功是什么——我不夠聰明去理解那是什么——你仍然要追求這個指令。”

      Ilya Sutskever:我認為有一個更普遍的觀點。我認為進化如何編碼高層欲望實際上真的很神秘。很容易理解進化如何賦予我們要吃聞起來好的食物的欲望,因為氣味是一種化學物質,所以只要追求那種化學物質。很容易想象進化做那件事。

      但進化也賦予了我們所有這些社會欲望。我們真的很在乎被社會積極看待。我們在乎擁有良好的地位。我們擁有的所有這些社會直覺,我強烈感覺它們是根深蒂固的。我不知道進化是怎么做到的,因為那是一個在大腦中表現的高層概念。

      假設你在乎某種社會事物,它不像氣味那樣的低層信號。它不是某種有傳感器的東西。大腦需要做大量的處理來拼湊大量的信息碎片以理解社會上正在發生什么。不知何故進化說,“那就是你應該關心的。”它是怎么做到的?

      它做得也很快。我們關心的所有這些復雜的社會事物,我認為它們是很近才進化出來的。進化很輕松地硬編碼了這種高層欲望。我不知道有什么好的假設能解釋它是如何完成的。我有過一些想法,但沒有一個是令人滿意的。

      Dwarkesh Patel:特別令人印象深刻的是,這是你在有生之年學到的欲望,這說得通,因為你的大腦是智能的。你能夠學習智能欲望是有道理的。也許這不是你的觀點,但理解它的一種方式是,欲望內置于基因組中,而基因組并不智能。但你不知何故能夠描述這個特征。甚至不清楚你是如何定義那個特征的,而你可以把它構建進基因里。

      Ilya Sutskever:本質上,或者也許我會換一種說法。如果你思考基因組可用的工具,它說,“好的,這是建立大腦的配方。”你可以說,“這是連接多巴胺神經元和氣味傳感器的配方。”如果氣味是某種好氣味,你就想吃那個。

      我可以想象基因組做那個。我聲稱這更難想象。更難想象基因組說你應該關心某種復雜的計算,你的整個大腦,你大腦的一大塊,在做的計算。這就是我聲稱的。我可以告訴你一個關于它是如何做到的推測,我會解釋為什么這個推測可能是錯誤的。

      所以大腦有大腦區域。我們有我們的皮層。它有所有那些大腦區域。皮層是均勻的,但皮層中的大腦區域和神經元大多與它們的鄰居說話。這就解釋了為什么會有大腦區域。因為如果你想做某種語音處理,所有做語音的神經元都需要互相交談。因為神經元只能與它們附近的鄰居交談,在很大程度上,它必須是一個區域。

      所有的區域在人與人之間的位置大多是相同的。所以也許進化確實硬編碼了大活的一個位置。所以它說,“哦,當大腦的 GPS 坐標某某,當那點火時,那就是你應該關心的。”也許那就是進化所做的,因為那會在進化的工具箱內。

      Dwarkesh Patel:是的,盡管有一些例子,例如,天生失明的人,他們皮層的那個區域被另一種感官采用了。我不知道,但如果那些需要視覺信號的欲望或獎勵函數對于那些皮層不同區域被征用的人不再起作用,我會感到驚訝。

      例如,如果你不再有視覺,你還能感覺到我希望周圍的人喜歡我這種感覺嗎,這通常也有視覺線索。

      Ilya Sutskever:我完全同意這一點。我認為對這個理論有一個甚至更強的反駁。有些人在童年時期切除了一半的大腦,他們仍然擁有所有的大腦區域。但它們都不知何故移到了僅有的一個半球,這表明大腦區域,它們的位置不是固定的,所以那個理論是不正確的。

      如果那是真的會很酷,但它不是。所以我認為那是一個謎。但這是一個有趣的謎。事實是不知何故進化能夠賦予我們非常非常可靠地關心社會事物的能力。即使是那些有各種奇怪的精神狀況和缺陷以及情感問題的人也傾向于關心這個。

      Dwarkesh Patel:SSI 計劃做什么不同的事情?大概你的計劃是當時機到來時成為前沿公司之一。大概你創立 SSI 是因為你想,“我想我有辦法以其他公司沒有的方式安全地做到這一點。”那個不同點是什么?

      Ilya Sutskever:我會這樣描述它,我認為有一些想法是有希望的,我想調查它們,看看它們是否真的有希望。真的很簡單。這是一種嘗試。如果這些想法被證明是正確的——我們討論的這些圍繞理解泛化的想法——那么我認為我們將擁有一些有價值的東西。

      它們會被證明是正確的嗎?我們在做研究。我們是一家不折不扣的“研究時代”公司。我們正在取得進展。我們在過去一年里實際上取得了相當好的進展,但我們需要繼續取得更多進展,更多研究。我是這么看的。我把它看作是一種嘗試成為聲音和參與者的方式。

      Dwarkesh Patel:你的聯合創始人兼前 CEO 最近離開去了 Meta,人們問,“好吧,如果有大量的突破正在發生,那看起來像是一件不太可能發生的事情。”我想知道你如何回應。

      Ilya Sutskever:對此,我只想提醒幾個可能被遺忘的事實。我認為這些提供背景的事實解釋了情況。背景是我們正在以 320 億美元的估值融資,然后 Meta 進來提議收購我們,我說不。但在某種意義上,我的前聯合創始人說了是。結果,他也能夠享受到很多近期的流動性,他是 SSI 唯一加入 Meta 的人。

      Dwarkesh Patel:聽起來 SSI 的計劃是成為一家當你們到達人類歷史上這個非常重要的時期——擁有超人智能時——處于前沿的公司。你們有關于如何讓超人智能進展順利的想法。但其他公司將嘗試他們自己的想法。有什么區別 SSI 讓超級智能進展順利的方法?

      Ilya Sutskever:區別 SSI 的主要事情是它的技術方法。我們有一種不同的技術方法,我認為值得,我們正在追求它。

      我堅持認為最終戰略將會趨同。我認為戰略將會趨同,在某個時候,隨著 AI 變得更強大,對每個人來說戰略應該是什么將變得或多或少清晰。它應該是類似這樣的東西,你需要找到某種方式互相交談,你希望你的第一個實際真正的超級智能 AI 是對齊的,并且以某種方式關愛有感知能力的生命,關愛人類,民主,其中之一,或者某種組合。

      我認為這是每個人都應該爭取的條件。那是 SSI 正在爭取的。我認為這一次,如果不是已經這樣了,所有其他公司都會意識到他們正在爭取同樣的東西。我們將拭目以待。我認為隨著 AI 變得更強大,世界將真正改變。我認為事情將會非常不同,人們的行為也會非常不同。

      Dwarkesh Patel:說到預測,你對你描述的這個系統有什么預測,它可以像人類一樣學習,并隨之,作為一個結果,變得超人?

      Ilya Sutskever:我認為大概 5 到 20 年。

      Dwarkesh Patel:5 到 20 年?

      Ilya Sutskever:嗯。

      Dwarkesh Patel:我只想展開你可能看到的世界是如何到來的。就像,我們還有幾年時間,這些其他公司繼續目前的方法并且停滯不前。“停滯不前”在這里意味著他們賺取的收入不超過幾千億?你如何思考停滯不前意味著什么?

      Ilya Sutskever:我認為停滯不前看起來會像……所有不同的公司看起來都會非常相似。可能是這樣。我不確定,因為我認為即使停滯不前,我認為這些公司也可以創造驚人的收入。也許不是利潤,因為他們需要努力工作以使彼此區分開來,但收入肯定有。

      Dwarkesh Patel:但是在你的模型中有一些東西暗示當正確的解決方案確實出現時,所有公司之間會有趨同。我很好奇你為什么認為會是那樣。

      Ilya Sutskever:我更多是在談論關于他們對齊戰略的趨同。我認為技術方法的最終趨同也可能會發生,但我是在暗示對齊戰略的趨同。到底什么才是應該做的事情?

      Dwarkesh Patel:我只是想更好地理解你如何看待未來的展開。目前,我們有這些不同的公司,你預計他們的方法會繼續產生收入,但不會達到這種類似人類的學習者。所以現在我們有這些不同的公司分叉。我們有你,我們有 Thinking Machines,還有一堆其他實驗室。也許其中一個想出了正確的方法。但是隨后他們產品的發布讓其他人清楚了如何做這件事。

      Ilya Sutskever:我認為如何做這件事不會很清楚,但這將清楚地表明有些不同的事情是可能的,那就是信息。人們隨后會試圖弄清楚那是如何工作的。但我確實認為,這里沒有提到、沒有討論的一件事是,隨著 AI 能力的每一次增加,我認為會有某種變化,但我不知道確切是哪些,關于事情是如何完成的。我認為這將很重要,但我無法拼出那確切是什么。

      Dwarkesh Patel:默認情況下,你會期望擁有那個模型的公司獲得所有這些收益,因為他們擁有在世界上建立技能和知識的模型。有什么理由認為那帶來的好處會被廣泛分配,而不是僅僅終結于任何首先獲得這種持續學習循環的模型公司?

      Ilya Sutskever:這是我認為會發生的事情。第一,讓我們看看過去的 AI 是如何發展的。一家公司產生了一個進步,另一家公司爭先恐后,在一段時間后產生了一些類似的東西,他們開始在市場上競爭并將價格壓低。所以我認為從市場角度來看,類似的事情也會在那里發生。

      順便說一句,我們談論的是好的世界。什么是好的世界?就是我們擁有這些強大的類人學習者,它們也……順便說一句,也許還有另一件關于超級智能 AI 規格的事情我們還沒討論,我認為值得考慮。那就是你讓它變狹義,它可以同時有用且狹義。你可以有很多狹義的超級智能 AI。

      但是假設你有很多個,你有一家公司從中產生了很多利潤。然后你有另一家公司進來并開始競爭。競爭運作的方式是通過專業化。競爭喜歡專業化。你在市場上看到它,你在進化中也看到它。你將會有很多不同的利基市場,你將會有很多不同的公司占據不同的利基市場。在這個世界里我們可能會說一家 AI 公司在真正復雜的經濟活動的某個領域確實要好得多,而另一家公司在另一個領域更好。第三家公司非常擅長訴訟。

      Dwarkesh Patel:這難道不被類人學習所暗示的東西反駁了嗎?它是說它可以學習……

      Ilya Sutskever:它可以,但你有積累的學習。你有很大的投資。你花了很多算力變得非常非常擅長,真正非凡地擅長這件事。別人花了很多算力和很多經驗在其他事情上變得非常擅長。你應用了很多人類學習來到達那里,但現在你處于這個高點,別人會說,“看,我不想開始學習你已經學過的東西。”

      Dwarkesh Patel:我想那將需要許多不同的公司在大約同一時間開始類人持續學習智能體,以便他們可以在不同的分支開始他們不同的樹搜索。但是如果一家公司首先獲得了那個智能體,或者首先獲得了那個學習者,那確實看起來像……好吧,如果你只是思考經濟中的每一項工作,讓一個實例學習每一項工作對于一家公司來說似乎是可行的。

      Ilya Sutskever:這是一個有效的論點。我的強烈直覺是,事情不會那樣發展。論點說它會那樣發展,但我的強烈直覺是它不會那樣發展。在理論上,理論和實踐沒有區別。在實踐中,有。我認為這將是其中之一。

      Dwarkesh Patel:很多人的遞歸自我改進模型字面上、明確地指出我們將在服務器里有一百萬個 Ilya 提出不同的想法,這將導致超級智能非常快地涌現。

      你對你正在做的事情的可并行化程度有什么直覺嗎?制作 Ilya 的副本有什么收益?

      Ilya Sutskever:我不知道。我認為肯定會有收益遞減,因為你想要思維不同的人而不是相同的。如果真的是我的字面副本,我不確定你會得到多少增量價值。思維不同的人,那是你想要的。

      Dwarkesh Patel:為什么即使是完全不同的公司發布的、在可能不重疊的數據集上訓練的不同模型,LLM 彼此之間實際上相似得瘋狂?

      Ilya Sutskever:也許數據集并不像看起來那么不重疊。

      Dwarkesh Patel:但在某種意義上,即使個人可能比未來的 AI 生產力低,也許人類團隊比 AI 團隊擁有更多多樣性這一事實是有道理的。我們如何引發 AI 智能體之間有意義的多樣性?我認為僅僅提高溫度(temperature)只會導致胡言亂語。你想要更像是不同的科學家有不同的偏見或不同的想法。你如何在 AI 智能體之間獲得那種多樣性?

      Ilya Sutskever:我認為之所以沒有多樣性,是因為預訓練。所有的預訓練模型幾乎都是一樣的,因為它們在相同的數據上進行預訓練。現在 RL 和后訓練(post-training)是一些差異化開始出現的地方,因為不同的人想出了不同的 RL 訓練。

      Dwarkesh Patel:我聽說你過去暗示過自我博弈(self-play)是獲取數據或將智能體與同等智能的其他智能體匹配以啟動學習的一種方式。我們應該如何思考為什么沒有這種東西在 LLM 上起作用的公開提議?

      Ilya Sutskever:我想說有兩件事要說。我認為自我博弈有趣的原因是因為它提供了一種僅使用算力而不使用數據來創建模型的方法。如果你認為數據是最終瓶頸,那么僅使用算力是非常有趣的。所以這讓它很有趣。

      問題是自我博弈,至少在過去的做法中——當你有不知何故相互競爭的智能體時——它只對開發特定的一套技能有好處。它太狹窄了。它只對談判、沖突、某些社交技能、制定戰略那類東西有好處。如果你關心那些技能,那么自我博弈將是有用的。

      實際上,我認為自我博弈確實找到了歸宿,只是形式不同。所以像辯論、證明者-驗證者(prover-verifier),你有某種 LLM-as-a-Judge(大模型作為裁判),它也被激勵去發現你工作中的錯誤。你可以說這不完全是自我博弈,但我相信這是人們正在做的相關的對抗性設置。

      真正的自我博弈是更一般的智能體之間競爭的一個特例。對競爭的自然反應是試圖變得不同。所以如果你把多個智能體放在一起,你告訴他們,“你們都需要處理某個問題,你是一個智能體,你在檢查其他人正在做什么,”他們會說,“好吧,如果他們已經采取了這種方法,我不清楚我是否應該追求它。我應該追求一些差異化的東西。”所以我認為類似這樣的東西也可以為方法的多樣性創造激勵。

      Dwarkesh Patel:最后一個問題:什么是研究品味(research taste)?你顯然被認為是世界上在 AI 研究方面品味最好的人。你是深度學習歷史上發生的最大事情的合著者,從 AlexNet 到 GPT-3 等等。它是什么,你如何描述你是怎么想出這些想法的?

      Ilya Sutskever:我可以就我自己評論這一點。我認為不同的人做法不同。有一件事指引著我個人,那就是通過思考人是怎樣的,但正確地思考,來形成一種 AI 應該是怎樣的美學。錯誤地思考人是怎樣的是很容易的,但正確地思考人意味著什么?

      我給你舉些例子。人工神經元(artificial neuron)的想法直接受大腦啟發,這是一個偉大的想法。為什么?因為你說大腦有所有這些不同的器官,它有褶皺,但褶皺可能并不重要。為什么我們認為神經元重要?因為有很多神經元。這感覺是對的,所以你想要神經元。你想要某種局部的學習規則來改變神經元之間的連接。大腦這樣做感覺是合理的。

      分布式表征(distributed representation)的想法。大腦對經驗做出反應,因此我們的神經網絡應該從經驗中學習。大腦從經驗中學習,神經網絡應該從經驗中學習。你會問自己,某件事是根本的還是不根本的?事情應該是怎樣的。

      我認為這在很大程度上一直指引著我,從多個角度思考,幾乎是在尋找美,美和簡單。丑陋,沒有丑陋的容身之地。它是美、簡單、優雅、來自大腦的正確靈感。所有這些東西需要同時存在。它們存在得越多,你就越能對自上而下的信念(top-down belief)充滿信心。

      自上而下的信念是當實驗反駁你時支撐你的東西。因為如果你總是相信數據,好吧,有時候你可能做的是正確的事情,但有個 bug。但你不知道有個 bug。你怎么分辨有沒有 bug?你怎么知道你是應該繼續調試還是這結論是個錯誤的方向?就是自上而下。你可以說事情必須是這樣的。類似這樣的東西必須行得通,因此我們必須繼續前進。這就是自上而下,它基于這種多方面的美和大腦的靈感。

      Dwarkesh Patel:好了,我們就到這里。

      Ilya Sutskever:非常感謝。

      Dwarkesh Patel:Ilya,非常感謝。

      Ilya Sutskever:好的。很感激。

      Dwarkesh Patel:這太棒了。

      Ilya Sutskever:是的,我很享受。

      Dwarkesh Patel:是的,我也是。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      不到24小時美國扣押第三艘油輪,遭遇強硬對手引發海上追逐戰

      不到24小時美國扣押第三艘油輪,遭遇強硬對手引發海上追逐戰

      優趣紀史記
      2025-12-23 16:23:38
      86歲李雙江現狀曝光,引起網友熱議

      86歲李雙江現狀曝光,引起網友熱議

      墻頭草
      2025-12-27 09:25:07
      新一輪下崗潮殺到?這4個行業最先被淘汰,看看你中招沒

      新一輪下崗潮殺到?這4個行業最先被淘汰,看看你中招沒

      老特有話說
      2025-12-25 12:15:23
      雷迪克勃然大怒直指詹姆斯?湖人將帥關系或已破裂

      雷迪克勃然大怒直指詹姆斯?湖人將帥關系或已破裂

      體壇周報
      2025-12-26 18:39:10
      36集家庭大劇!蔣欣領銜主演,許亞軍鄔君梅助陣,收視會爆

      36集家庭大劇!蔣欣領銜主演,許亞軍鄔君梅助陣,收視會爆

      樂楓電影
      2025-12-27 15:59:36
      朱元璋的姐夫是聰明人,朱元璋當皇帝后問他要啥官,他回了8個字

      朱元璋的姐夫是聰明人,朱元璋當皇帝后問他要啥官,他回了8個字

      長風文史
      2025-12-23 21:14:32
      明朝十六帝,為何只剩十三陵,那三皇帝到底埋哪去了?

      明朝十六帝,為何只剩十三陵,那三皇帝到底埋哪去了?

      長風文史
      2025-12-26 15:50:16
      錢再多有啥用?身價上億美金的貝克漢姆現狀,給所有運動員提了醒

      錢再多有啥用?身價上億美金的貝克漢姆現狀,給所有運動員提了醒

      說歷史的老牢
      2025-12-26 14:40:07
      中國人壽招領導助理優先會打籃球的?回應:愛好多一些更易被客戶接受

      中國人壽招領導助理優先會打籃球的?回應:愛好多一些更易被客戶接受

      大風新聞
      2025-12-26 21:30:14
      洞房夜妻子不讓我碰,天亮我提離婚,她紅著臉說出原因,我瞬間愣住

      洞房夜妻子不讓我碰,天亮我提離婚,她紅著臉說出原因,我瞬間愣住

      黃家湖的憂傷
      2025-12-25 17:02:52
      全球最精確預言家:2026,歷史性的一年, 能說的都在這里

      全球最精確預言家:2026,歷史性的一年, 能說的都在這里

      神奇故事
      2025-12-24 23:34:15
      曝李晨范冰冰曾領證,女方落難男方籌幾千萬,男方家看不上范冰冰

      曝李晨范冰冰曾領證,女方落難男方籌幾千萬,男方家看不上范冰冰

      古希臘掌管月桂的神
      2025-12-26 18:38:26
      晚年張震將軍與家人的合影,百歲高齡得知兒子去世,63天后也逝世

      晚年張震將軍與家人的合影,百歲高齡得知兒子去世,63天后也逝世

      史之銘
      2025-12-24 19:29:38
      指導老師回應“溫醫大本科生連發40多篇SCI論文”:他能力的確很突出,目前的輿論對學生不公平

      指導老師回應“溫醫大本科生連發40多篇SCI論文”:他能力的確很突出,目前的輿論對學生不公平

      大象新聞
      2025-12-27 10:45:03
      7歲女兒交給老師畫的第一張全家福,畫里爸爸沒有臉,老師果斷報警

      7歲女兒交給老師畫的第一張全家福,畫里爸爸沒有臉,老師果斷報警

      罪案洞察者
      2025-12-02 11:25:59
      我調任市委書記后,被初戀嘲笑,秘書叫我書記后她驚呆了

      我調任市委書記后,被初戀嘲笑,秘書叫我書記后她驚呆了

      秋風專欄
      2025-12-23 15:18:07
      見證歷史!凌晨,全線大漲!發生了什么?

      見證歷史!凌晨,全線大漲!發生了什么?

      數據寶
      2025-12-27 12:53:26
      價格飆升,多地零售價突破10元/斤!年初一斤僅一兩元,網友:雞蛋都快配不上它了……

      價格飆升,多地零售價突破10元/斤!年初一斤僅一兩元,網友:雞蛋都快配不上它了……

      每日經濟新聞
      2025-12-26 10:01:26
      央視曝光新毒物!已流竄到全國,長期食用傷肝腎,孩子淪為重災區

      央視曝光新毒物!已流竄到全國,長期食用傷肝腎,孩子淪為重災區

      有范又有料
      2025-12-26 12:20:20
      汽車誤入施工棧橋墜河一家5口遇難,死者老家村民發聲:車主非常能吃苦,前幾年才在廣州買房

      汽車誤入施工棧橋墜河一家5口遇難,死者老家村民發聲:車主非常能吃苦,前幾年才在廣州買房

      極目新聞
      2025-12-26 19:00:54
      2025-12-27 16:35:00
      象先志 incentive-icons
      象先志
      專注互聯網、電商,聚焦產業、核心,洞察前沿、趨勢
      81文章數 5關注度
      往期回顧 全部

      科技要聞

      小米也漲價了!業界稱終端再不漲明年必虧

      頭條要聞

      "和平計劃"差臨門一腳 特朗普放話烏命運掌握在他手里

      頭條要聞

      "和平計劃"差臨門一腳 特朗普放話烏命運掌握在他手里

      體育要聞

      NBA教練圈的布朗尼,花了22年證明自己

      娛樂要聞

      劉宇寧:我的價值不需要靠番位來證明

      財經要聞

      注意,開始拉物價了!

      汽車要聞

      好音響比大屏更重要?車企開始“聽”用戶的

      態度原創

      健康
      旅游
      時尚
      手機
      軍事航空

      這些新療法,讓化療不再那么痛苦

      旅游要聞

      貴州舉辦2025滿意旅游“痛客行”頒獎儀式

      從0度穿到20度,這件衣服才是今年冬天的“頂流”!

      手機要聞

      年輕人第一臺徠卡!小米17 Ultra徠卡版正式開售:7999元起

      軍事要聞

      英法德三國領導人通話 重申對烏支持

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲自拍小说| 久久性色欲av免费精品观看| 国产精品国产高清国产av| 亚洲色成人网站www永久| 国产精品666| 国产亚洲av手机在线观看 | 久久91精品牛牛| 欧美日本在线| 国产日产欧美最新| 亚洲国产中文乱| 男女羞羞| 亚洲中文字幕无码av永久| 精品国产亚洲第一区二区三区| 97在线视频人妻无码| 亚洲中文视频| 熟妇自搞| 国产成人av免费观看| 成人午夜在线观看日韩| 日韩Av无码一区二区三区不卡| 久久99精品久久久久麻豆| 日韩无码第2页| 99re国产| 国产精品美女| 亚洲日韩AV无码专区影院| 99视频偷窥在线精品国自产拍| 露脸丨91丨九色露脸| 91啪啪视频| 熟妇人妻av中文字幕老熟妇| 最新国产精品精品视频| 亚州精品人妻一二三区| 久久精品亚洲| jizz18| 男人的天堂无码动漫av| 欧洲无码一区二区三区在线观看| 东乌珠穆沁旗| 99伊人网| 国产xxx| 野花香电视剧免费观看全集高清播放| 日本高清aⅴ毛片免费| 快好爽射给我视频| 孙吴县|