![]()
OpenAI于周四發布了gpt-5.3-Codex-Spark,這是其首個運行在Cerebras Systems餐盤大小AI加速器上的模型。該加速器搭載了世界上最快的片上內存技術。
這款輕量級模型旨在通過Cerebras的SRAM封裝CS3加速器為OpenAI的Codex代碼助手用戶提供更具交互性的體驗,生成響應速度超過每秒1000個Token。
上個月,OpenAI與Cerebras簽署了100億美元的合同,部署多達750兆瓦的定制AI芯片來服務Altman團隊的最新一代GPT模型。
Cerebras的晶圓級架構采用了一種名為SRAM的超快片上內存,其速度比英偉達今年CES上發布的即將推出的Rubin GPU中的HBM4內存快約1000倍。
結合推理和應用管道的優化,OpenAI的最新模型能夠在眨眼間生成答案。
由于Spark是專有模型,我們無法獲得參數數量等詳細信息,不像OpenAI去年8月在HuggingFace上發布gpt-oss時那樣。我們知道的是,與那個模型一樣,它是一個純文本模型,擁有128,000個Token的上下文窗口。
模型的上下文窗口是指它能同時跟蹤的Token(詞匯、標點符號、數字等)數量,通常被稱為模型的短期記憶。
雖然128K個Token聽起來很多,但由于模型必須跟蹤現有代碼和新生成的代碼,像Codex這樣的代碼助手可能很快就會用完。即使從空白開始,以每秒1000個Token的速度,大約兩分鐘就會超出上下文限制。
這可能是OpenAI表示Spark默認采用"輕量級"風格的原因,只進行最小的針對性編輯,除非特別要求,否則不會運行調試測試。
快速的模型如果不能編寫有效代碼就沒有太大價值。據OpenAI稱,Spark模型在Terminal-Bench 2.0測試中比GPT-5.1-Codex-Mini提供更高的準確性,同時比更智能的GPT-5.3-Codex模型快得多。
OpenAI可能正在尋求GPU之外的選擇,但短期內肯定不會放棄GPU。
OpenAI寫道:"GPU在我們的訓練和推理管道中仍然是基礎,為廣泛使用提供最具成本效益的Token。Cerebras通過在需要極低延遲的工作流程中表現出色來補充這一基礎。"
這不僅僅是表面文章。盡管Cerebras的CS3加速器速度很快,但在內存容量方面無法與現代GPU匹敵。SRAM雖然快速,但空間效率不高。整個餐盤大小的芯片僅包含44GB內存。相比之下,英偉達的Rubin將配備288GB的HBM4,而AMD的MI455X將搭載432GB。
這使得GPU在運行大型模型時更經濟,特別是在速度不是優先考慮因素的情況下。話雖如此,OpenAI建議隨著Cerebras提供更多計算資源,它將把更大的模型引入該計算平臺,這大概是為那些愿意為高速推理付費的用戶準備的。
GPT-5.3-Codex-Spark目前向Codex Pro用戶提供預覽版,并通過API向特定的OpenAI合作伙伴開放。
Q&A
Q1:GPT-5.3-Codex-Spark有什么特別之處?
A:GPT-5.3-Codex-Spark是OpenAI首個運行在Cerebras Systems AI加速器上的模型,該加速器采用SRAM片上內存技術,速度比英偉達GPU中的HBM4內存快約1000倍。該模型專為代碼助手設計,能以每秒超過1000個Token的速度生成響應,為用戶提供更具交互性的編程體驗。
Q2:為什么OpenAI選擇與Cerebras合作而不是繼續只用GPU?
A:OpenAI與Cerebras簽署了100億美元合同,主要是為了獲得極低延遲的推理能力。雖然GPU在訓練和推理管道中仍然是基礎且更具成本效益,但Cerebras的SRAM技術在需要極速響應的工作流程中表現出色,兩者形成互補關系而非替代關系。
Q3:GPT-5.3-Codex-Spark的上下文窗口有什么限制?
A:該模型擁有128,000個Token的上下文窗口,雖然看似很大,但由于需要跟蹤現有代碼和新生成的代碼,在每秒1000個Token的生成速度下,大約兩分鐘就會達到上下文限制。因此模型默認采用"輕量級"風格,只進行最小的針對性編輯。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.