網易首頁 > 網易號 > 正文申請入駐

提示詞過時了？GPT-5.5已具備直覺，只需指明目標AI就能自動接管

2026-04-27 19:41:18　來源: 鈦媒體APP

北京舉報

分享至

編輯｜劃重點KeyPoints

近期，OpenAI總裁兼聯合創始人Greg Brockman在Big Technology Podcast的特別訪談中，首次披露了GPT-5.5的幾個核心細節。

Greg Brockman表示，過去兩年AI行業堆砌模型理論智力的階段已經告一段落，AI現在已經正式準備好接管具體的執行工作。AI正從單純的大腦系統跨越到了全新的智能應用形態。

Greg Brockman稱，在實際應用中，GPT-5.5展現出了極強的直覺和上下文理解能力，讓人類得以徹底告別繁瑣的提示詞工程（Prompt Engineering）。這意味著人與計算機的交互方式發生了根本性改變：用戶現在只需設定總體目標，模型就能自動接管并端到端地解決問題。

以下是我們梳理的這場深度訪談的核心重點內容：

1、GPT-5.5的突破在于真正跨越了商業任務的實用性門檻

過去，大模型高度依賴復雜的提示詞工程進行按步指導；現在，憑借更深層的上下文與直覺理解，用戶只需下達總體目標，模型即可自主接管瀏覽器、處理復雜表格或制作演示文稿。在全新的工作流中，AI構成執行的軀干和大腦，人類則從具體的點擊與編寫中抽離，徹底轉變為“監督者”。個人的生產力將被無限放大，每個人都等同于在管理一家全自動化運行的數字企業。

2、開源蒸餾無法復制端到端的系統能力

面對開源模型利用“蒸餾技術”快速追趕的行業態勢，OpenAI的真正護城河并非單一的模型參數。Brockman表示，單純的模型蒸餾無法復制GPT-5.5的實際表現。真正的競爭壁壘在于“端到端的系統協同設計能力”——它涵蓋了算力集群調度、數據管線、組織架構以及安全對齊的無縫配合。這種持續測試、迭代前沿AI的系統性工程能力（即“制造機器的機器”），是開源社區無法輕易抹平的代差。

3.規模化部署必須強綁定企業級IT風控

隨著AI系統獲取更多的操作權限，安全可控成為核心議題。不同于Anthropic的“未公開部署”策略，OpenAI堅持“迭代部署”，主張優先將模型交給網絡防御者測試，以提高真實生態的抗風險能力。更關鍵的挑戰在于規模化管理：當企業內部的自主智能體從幾個膨脹到數十萬個時，原有的管理模式必將失效。因此，Agent的大規模自治必須與嚴格的可觀測性和企業級IT治理架構強綁定，確保數字員工的執行始終處于人類的監督沙箱內。

4.用底層算力規模，換取解決人類難題的速度

世界正進入算力驅動的新階段：投入的算力越多，解決問題的速度就越快。人類在科學與工程領域的上限，將直接取決于可用算力的天花板。以醫療為例，未來可調動十億瓦特級數據中心的專屬算力，讓AI在數月內持續推演、咨詢專家數據并設計實驗，以此攻克阿爾茨海默癥等復雜疾病。算力將取代傳統資源，成為解決日常商業事務與重大科學命題的核心基礎設施，全球對算力的需求將面臨長期的結構性增長。

以下為Greg Brockman訪談實錄：

1.OpenAI的Agent路線圖

Alex：本期節目邀請到了OpenAI總裁兼聯合創始人Greg Brockman，我們將深入探討GPT5.5，即著名的Spud模型，看看它的功能以及它對OpenAI的意義。Greg，很高興見到你。歡迎回到節目。

Greg Brockman：謝謝你的邀請。希望這不算太緊急的情況。

Alex：那么我們就從這里開始吧。你能確認GPT5.5就是Spud嗎？

Greg Brockman：是的。GPT5.5是一個令人驚嘆的模型。我認為在許多方面它是邁向使用計算機完成工作新方式的一步。這是一種全新的智能類別。它在編程以及調試的各個方面非常有用，在解決非常困難和棘手的問題時表現得非常有主動性，能夠真正以極少的指令端到端地解決問題。

但對我來說最引人注目的并不一定是它在編程能力上的提升，我覺得那是大家預料之中的。最引人注目的是它現在真正跨越了實用性的門檻，適用于各類通用應用程序。它在創建幻燈片、電子表格方面表現得更好，在計算機操作、使用瀏覽器以及點擊瀏覽那些原本難以讓AI運行的應用程序方面也出色得多。因此我認為我們確實正在見證這種使用計算機新方式的興起，而這一切都始于這種核心智能。

Alex：我們上次交談時你提到這實際上是長達兩年的研究過程的巔峰之作。那么這是在兩年前就計劃好的嗎？OpenAI的計劃周期有那么長嗎？

Greg Brockman：是的，我們的規劃確實有著非常長遠的眼光。需要注意的是，我們將許多研究想法和賭注堆疊在各種時間尺度上，在技術棧的每一個環節取得持續進展。因此GPT5.5所代表的并不是終點，在許多方面它是一個起點。這實際上是邁向我們預見在接下來幾個月即將到來的那一類模型的一步。大家可以期待我們在更廣泛的領域實現更大幅度的能力提升，涵蓋模型所能完成任務的各個方面。這將是非常令人興奮的事情。我們一直在思考如何讓我們生產的產品對現實世界的用途、真實用戶和實際應用變得更加有用。

Alex：你能否具體分享一下在接下來的幾個月里我們應該關注哪些方面？如果這只是一個開始，那么它是什么的開始？

Greg Brockman：我們的宏偉愿景體現在許多事物中，不僅僅是模型。你可以將模型看作是大腦，將系統、測試框架以及超級應用等應用程序想象成圍繞它構建的軀體，使其成為一個有用的AI。這正是目前正在發生的轉變：從我們這類實驗室產出的語言模型轉向真正實用的AI，轉向一個真正能夠根據你的指令協助你、努力達成你的目標并實際運行的助手。

你可以看到現在的Codex不再僅限于程序員使用，它實際上適用于任何使用電腦的人。它目前并不完美，在某些任務中理應能做到但做得并不完全正確，有時它的個性并不完全是你想要的。它功能極其強大并在外面做了很多了不起的事情，但你仍然需要花一些時間去仔細閱讀它的溝通內容以確認它是如何解決問題的。對于這些方面，我們非常清楚如何將它們做得更好。從5.4到5.5，我們已經取得了非常顯著的進步。在接下來的過程中，我們還將在各個方面取得更加顯著的提升，從而讓這些模型變得更加實用。在內部我們一直在深入思考最終應用。

在過去的十二到十八個月里有一件事發生了變化，那就是我們過去只專注于繼續改進基準測試，讓這些模型在大腦層面更強大。但我們現在的重點是將它們投入到現實世界的應用中，思考財務、銷售、營銷以及每一個職能部門中人們如何使用電腦，我們如何協助他們的電腦工作。我們思考如何讓模型不僅具備理論上的輔助能力，而且還能擁有實際經驗，能夠識別出什么是優秀的成果。

我認為我們正在邁向這樣一個境地，即工作者將成為監督者。你幾乎就是這個自動化公司的CEO，它們正根據你的目標運行。你仍然掌握著主導權并負有責任，你需要思考這是否是你想要的、工作是否達到標準。但關于具體點擊了哪些按鈕、編寫代碼的具體方式或者電子表格的具體運作機制，如果這些對你并不重要，你可以將自己從中抽象出來，只專注于評估成果是否符合預期。所以這就像是在為每一位工作者增加杠桿。

2.端到端協同設計值得投資

Alex：好的。正如你所提到的，這是兩年工作的結晶。為了我們的觀眾我解釋一下，AI訓練有兩種不同類型。第一種是預訓練，在這個階段你只需讓模型預測下一個詞以使其變得通才且智能；第二種是強化學習，讓它能夠真正地去執行并嘗試完成不同的任務，當它出色且有效地完成這些任務時給予獎勵，它在某種程度上就學會了如何完成這些任務。所以你的意思基本上是說，這期間OpenAI加載了大量針對特定任務的強化學習內容并注入到這個模型中，這就是產生你所說的那些結果的原因嗎？

Greg Brockman：我會用稍微不同的方式來表達。在整個流程中有很多步驟，包括預訓練、中期訓練、強化學習以及數據收集等。這些不同的環節共同作用，最終產出結果并決定了模型與世界連接的方式。這也是使其變得實用的關鍵所在。我們一直在針對其中的每一項進行投入，這不僅僅關乎致力于各個環節的個人能力，更是一個真正凝聚在一起的團隊在審視整個技術棧，探討我們如何讓它對現實世界的應用變得更有用。

所以這并不是由我們所做的某單一事項決定的。這實際上關乎整體的努力。就像造一輛汽車一樣，這不僅僅在于你是否擁有一個更好的引擎。你可以造出一臺偉大的引擎，但如果汽車的其他部分達不到引擎的質量水平那也無濟于事。這才是真正的創新：它是端到端的協同設計，所有環節都以可重復的方式結合在一起，使模型變得越來越好以服務我們的用戶。

Alex：你早些時候和我一起參加了一個有許多媒體成員參與的電話會議。其中一件有趣的事是你開門見山地說該模型能更直觀地理解你的需求，不需要像過去那樣一字不差地詳細說明。這里有一條來自roon的推文：已有早期跡象表明5.5是一個稱職的AI研究伙伴。幾位研究人員讓5.5在夜間運行各種變體實驗，僅需提供高層級的算法構思，醒來后便能看到完整的實驗組、儀表板和樣本，完全沒有接觸過代碼或終端。關于這一點，這是一個由兩部分組成的問題：你們是如何做到的？這是否意味著提示工程已經過時了？

Greg Brockman：首先，當我們說存在一種新類別的智能時，這是我們的真實意圖。模型正變得更加易于直觀使用，因為它們擁有更深層的理解能力，能夠真正審視上下文并琢磨出被要求做什么。

至于第二部分，提示工程是否已經過時？我實際上認為在某些方面提示工程可能比以前更具活力。現在你花了大量時間試圖向電腦解釋你到底想要什么，塞進各種上下文說明現狀和要求。你心里會想為什么非得跟電腦解釋這些？重點在于電腦本就應該通過工作來協助我。我不希望還得拆解任務一步步教它該怎么做，只想給它指明一個方向，希望它處理好細節并交付結果，并在過程中提供某種形式的反饋，成為底層執行的驅動者。因此提示工程的未來在于你可以用更少的努力從模型中獲得更多，而付出同樣的努力時你依然擁有一個乘數效應，你會獲得更大的提升。我們現在正處于當今模型能力上限的最前沿階段。

Alex：好的。讓我簡要地與各位談談構建這樣一個模型的經濟成本。雖然你沒有說明投入了多少資金或算力用于訓練這個龐大的巨型模型，但我們可以穩妥地假設這是一筆巨大的投入。一直以來都有這樣一個模式：這些巨型模型發布后會被開源模型制作者進行蒸餾，然后開源模型就只落后領先的基礎模型幾個月的時間。我現在很好奇，既然投入如此巨大，而且隨著不斷推進，模型的能力提升得相當劇烈。那么該如何保持護城河呢？從長遠來看，如果只是讓這種模式一遍又一遍地重復，這又有什么意義？

Greg Brockman：我的看法略有不同。我認為真正的投資是投入到端到端的協同設計中，構建一個系統以及一套將開發人員和技術結合的協同工作方式，其中一部分涉及如何利用龐大的超級計算機來生產這些模型。

現在的情況并非獲取模型輸出并進行蒸餾，就能簡單獲得完全相同能力、只是體積更小且運行更快的模型。如果確實如此，我們早就這么做了，那樣提供服務也會容易得多。雖然蒸餾技術背后蘊含著大量絕妙的技巧，但我想表達的重點是，我們真正投入的是制造機器的機器。

在部署端，我們對安全保障和緩解措施進行了深入思考，針對模型可能被誤用的各個方面在實際場景中進行了大量測試。多年來我們一直致力于此，并在網絡安全和生物等領域深入思考這些問題。這種努力體現在我們公開的備災框架(Preparedness Framework)中，它規定了我們如何處理模型的用途，以及如何嘗試最大化收益并降低風險。因此我們所做的每一件事都需要緊密相連，這關乎如何確保持續取得進展的同時，讓模型能被廣泛獲取。因為我們深信這項技術能夠賦能于人，造福人類并提升每個人的生活水平。

3.模型護城河與蒸餾模型

Alex：回到剛才的話題，這個模型的定價據我所知是上一個模型GPT 5.4的兩倍。從經濟或業務角度來看，既然你們已經為訓練模型投入了如此多的基礎設施，如果開源模型能以更低成本提供稍遜一籌但幾乎相當的性能，你們將如何應對這種威脅？

Greg Brockman：回顧我們的歷史，發展并非由競爭驅動，而是源于我們自身的進步渴望。在同等智能水平上，我們的價格同比已經大幅下降，有時甚至降低了兩個數量級達到100倍。然而典型的杰文斯悖論(Jevons Paradox)一直在上演，即當你降低了某項事物的成本，反而會引發遠比以往更多的活動。

我們不斷看到智能確實能帶來回報，對于模型現在能完成的任務類型來說，哪怕只是一點點智能提升，也能產生巨大影響。這正是5.5版本的核心意義所在。人們可能認為這只是智能水平上的一次增量改進，但我認為它在實際用途上會帶來巨大提升。實際上，用“增量式更新”來形容這個模型非常保守，它雖然只是0.1的版本更迭，但大大低估了模型在實際工作中所展現出的神奇之處。

如果外界看到數字就認為OpenAI面臨IPO壓力，導致免費午餐時代結束，我是反對這種觀點的。我們的業務模式其實非常簡單，即租賃并構建計算資源，然后以一定的利潤空間轉售。只要對智能存在可擴展的需求，只要還有問題需要解決，這種模式就成立。在每個階段我們都看到需求遠超供給，所以我們可以不斷擴展算力規模。

我的核心指令是要求團隊思考如何在原始算力之上增加價值，并確保保持正向的運營利潤率。這與市場競爭無關，關鍵在于能否高效地將算力轉化為智能，讓產出價值高于投入成本。我們始終在努力打造更高效的模型，市場競爭極大地推動了創新，帶動了更多的使用量和生態系統的整體規模提升。這可以從我們以及行業內其他公司的營收數據中看出來。

4.模型網絡安全風險

Alex：Greg，我想請教關于網絡安全影響的問題。OpenAI和Anthropic采取了截然不同的方式。Anthropic最新的巨型模型Mythos并沒有向公眾發布，而你們的Spud或5.5模型卻是公開的。我想直接問你，在缺乏循序漸進實踐的情況下將這種強大的模型公之于眾，是否可能導致重大網絡攻擊？

Greg Brockman：我對這個問題的前提有不同看法。作為備災框架的一部分，我們多年來一直在網絡安全防護領域投入。早在預見各種能力出現之前，我們就已提前布局。我們一直采取非常審慎、循序漸進的方法。過去幾周我們擴大了網絡安全項目的受信任訪問權限。總體而言，我們相信生態系統的韌性，同時也認為需要循序漸進。

隨著模型持續變得更強大，我們希望將更卓越的模型交到防御者手中，以確保能夠保護關鍵基礎設施。當模型被交到人們手中時，他們會以超乎想象的方式進行探索，沒有這種訪問權限是無法實現的。因此必須采用循序漸進的方法，并在流水線中不斷推進，通過引入額外的安全防護措施來最大化收益并降低風險。

我們的團隊一直在深入思考模型在網絡安全方面的影響。我們相信迭代式部署是隨著模型改進將其推向實際應用的一部分。我們堅信訪問民主化，創造這項技術的最終目的是賦能于人，確保其造福全人類。因此我們一直努力解決如何安全且負責任地將這項技術廣泛應用于世界。

Alex：沒錯。你的團隊似乎并不喜歡Anthropic部署Mythos的方式。用Sam的原話來說，宣稱制造了一枚炸彈并準備投下，然后以1億的價格向被選中的客戶出售防空洞，這是極其出色的營銷手段。但另一種情況是，開發者無法考慮到所有因素，必然會出現一些只有實際部署才能發現的漏洞。所以在廣泛部署之前，先從一小群受信任的測試人員開始或許是有意義的。你覺得呢？

Greg Brockman：這里的正確答案很微妙，它植根于技術細節以及面臨的諸多因素中。我們需要思考自身和生態系統中其他參與者的模型演進過程。讓一小部分人擁有訪問權限或許能高杠桿地發現并生成補丁，但隨后該如何在整個行業內協調披露這些信息？

我認為走向任何一個極端都不太準確，需要根據特定情況應用合適的工具。這已不是我們第一次，也不會是最后一次思考這個問題。值得注意的是，我們的模型已交由防御方使用了一段時間，并且一直在建立受信任訪問計劃。我們發布的模型內置了多項安全防護措施，實際上不允許用于網絡攻擊。

簡而言之，這反映了價值觀流派的差異。你究竟是希望將模型交到人們手中并賦予他們力量，還是希望對其進行中心化控制、避免落入大眾之手？這可能是辯論中潛在的緊張點。任何反射性的極端策略都不會為世界帶來最好的結果。

5.如何信任智能體

Alex：好的，我想轉而談談關于智能體的問題。如果在某種程度上給予智能體高度的自主權，它們的工作效果是最好的。這在某種程度上說得通。但我很好奇，隨著未來智能體能執行更多任務、訪問更多文件并跨程序工作，目前對它們給予多大程度的信任才算合適？

Greg Brockman：目前的智能體實際上已經趨于相當可靠。盡管包括提示詞注入在內的問題依然存在漏洞，但我們正在積極修補，模型也正變得更具韌性。

隨著模型被賦予更多責任和重要上下文的訪問權限，這就如同管理員工一樣。擁有五個值得信賴的員工不成問題，但如果有五萬名員工，你就必須考慮如何實現良好的治理與監管。當這款超級應用變得對任何使用電腦工作的人都更加易用時，我們也在治理和監督方面加大了投入。例如在我們最近發布的Workspace Agents中，企業可以在云端定義智能體并獲得一個托管的CodeEx安全沙箱，將其接入Slack執行工作。看到它在組織內部病毒式傳播非常酷。當你看到別人的智能體時，你可以直接復制它來創建自己的版本。這為實現卓越治理提供了契機，IT部門可以查看所有已創建的智能體及其對話，從而精確設定護欄(guard rails)。你需要逐步提升賦予智能體的責任以及它們協作完成任務的多樣性，同時兼顧安全性、可靠性、可觀測性和監管能力。如果不將這些環節緊密結合，狀態就會失衡。

Alex：是的，基本上就是放手去做，但要保持謹慎。

Greg Brockman：但你也必須真正全身心投入。隨著規模的擴大，原型設計和規模化的本質會讓你思考是否依然有能力進行監督并了解全局。所以需要確保在每一步都調整好狀態，并充分了解團隊的動向。

6.算力經濟的未來

Alex：Greg，讓我們以此作為結尾。你提到了計算驅動型經濟，這具體意味著什么？

Greg Brockman：我們正走向這樣一個世界：投入的算力越多，問題被解決的速度就越快，解決問題的上限取決于可用算力的多少。以藥物研發為例，攻克阿爾茨海默癥等復雜疾病目前超出了人類的能力范圍。但想象一下，你可以利用一個吉瓦級的數據中心，花幾個月甚至一年時間專門思考如何攻克它。它不僅在大腦層面思考，還會咨詢世界級專家，甚至建議進行濕實驗室(wet lab)實驗。這無疑將對人類產生深遠且積極的變革性影響。

日常生活中的任務同樣可以通過這種方式解決。你口袋里的智能手機會化身為一個了解你、值得信賴的智能體，它擁有你的個人資料上下文，你可以向它尋求健康建議并獲得可靠信息。你可以直接與它交談，它會主動了解你的目標和興趣并為你提供幫助。無論規模大小，算力都將成為核心資源，它展示了計算機能在多大程度上代表人類完成工作。這是我們所有人正在共同構建的未來。

Alex：是的，我想這也解釋了為什么你會領導這些巨額的基礎設施投資和博弈。

Greg Brockman：這依然不夠，我們將切身感受到資源的稀缺。現在那些嘗試使用智能體的人已經因為觸及速率限制而感受到了這一點。我們正代表所有致力于此領域和想要使用智能體的公司開展工作，盡最大努力確保提供充足資源。我們正走向一個計算資源稀缺的世界，在努力提高資源可用性方面，我們所有人都可以貢獻一份力量。

Alex：Greg，感謝你在百忙之中抽出時間，很高興能和你交談。再次感謝你的到來。

Greg Brockman：同樣，聊得很愉快。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.