網易首頁 > 網易號 > 正文申請入駐

GPT-5.5智商145背后：大模型競賽，正在進入工程淘汰賽

2026-04-27 19:41:15　來源: 鈦媒體APP

北京舉報

分享至

文 | 舒書

什么是工程淘汰賽？

在進入正文之前，有必要先明確本文的核心概念。

所謂工程淘汰賽，是指在模型基礎能力趨同的背景下，圍繞推理成本控制、幻覺率治理、數據質量工程、Agent工具鏈可靠性、私有化交付能力、安全合規工程展開的競爭。參數不再是護城河，工程才是。

這一轉變發生在Transformer+MoE主流架構短期難以被顛覆、基礎模型能力集體拉平的周期里。當“誰能做出更聰明的模型”不再是唯一問題，“誰能把模型可靠地用起來”就成為了新的勝負手。

這與智商競賽的本質區別在于：前者比的是誰能做出更聰明的模型，后者比的是誰能把模型的能力以可控的成本和風險跑通。競賽遠未結束，但規則正在改變。

一、通用推理能力的真相：能力在提升，但需回到地面

GPT-5.5 Pro的門薩風格測試成績引發了大量討論。根據LisanBench（第三方AI能力評測平臺，測試時間2026年4月，測試數據集及方法論已公開）的測試結果：

視覺邏輯推理能力：達人類前0.1%水平
在線文本推理能力：達人類前2%水平（門薩入會線為前2%）
線下非公開文本測試：剛好踩在門薩門檻上

這意味著GPT-5.5 Pro在視覺邏輯推理上確實達到了人類頂尖水平，但在純文本推理上，雖然也是聰明人，但并非天才。兩者的差距是前0.1% vs 前2%。

需要指出的是，將人類門薩智商測試直接套用于大模型在學術上并不嚴謹。更準確的表述是在門薩風格測試中的表現。門薩的視覺推理測試（如3x3九宮格）考察的是抽象的、非語言的邏輯推理能力，包括旋轉、鏡像、疊加、增減等復雜規則的識別與應用。

需要指出的是，Claude在長上下文邏輯一致性、實時知識更新、多模態能力等方面仍明顯落后于GPT-5.5。Gemini則在工具調用穩定性和生態成熟度上存在差距。各模型各有長短，本文聚焦幻覺率的對比，不代表全面評價。

GPT-5.5 Pro的進步主要在視覺邏輯推理維度。但這并不意味著智商競賽已經結束，而是說明能力提升的邊際收益正在變化。

二、高推理能力背后的另一面：86%的幻覺率

一個值得反復對比的數字：

GPT-5.5 Pro 幻覺率：86%

Claude Opus 4.7 幻覺率：36%

同一評測機構（Artificial Analysis AA-Omniscience）、同一測試基準、同一數據來源。差距是50個百分點。

高推理能力背后，有一個被部分討論但值得深入分析的數字。

根據第三方評測機構Artificial Analysis在其私有基準測試AA-Omniscience中發布的數據——該測試包含6000個覆蓋6大領域的問題，在無搜索條件下評估模型的知識邊界——GPT-5.5 Pro在面對不確定問題時，有86%的傾向給出錯誤答案而非承認不知道。同一測試中，Claude Opus 4.7的這一比例為36%。

這個數據的含義需要準確理解：86%不是在日常對話中的幻覺率，而是在專門設計的知識邊界探測場景中，當模型觸及知識盲區時的行為傾向。OpenAI官方聲稱的“幻覺減少”是在不同的測試場景（用戶標記的ChatGPT對話樣本）中測量的。兩者都是真實的——取決于你測量的是什么場景。

為什么GPT-5.5會出現高幻覺率？原因可歸納為三個層次：

架構與訓練內因：MoE稀疏激活可能導致專家模塊間的知識沖突；RLHF的討好偏好鼓勵模型嘗試回答而非承認不知道；超長上下文（1M tokens）中注意力可能分散，導致理解偏差。

產品路線的主動取舍：OpenAI的目標是打造一個能處理任何問題的通用推理引擎，為此它在訓練中鼓勵模型嘗試回答而非拒絕回答。Claude則選擇了相反路線：寧可沉默，不可胡說。兩種路線各有優劣——GPT-5.5在開放域推理和復雜任務上的表現遠超Claude，但代價就是更高的幻覺風險。這是能力與可靠性之間的經典權衡。

外部輸入質量：當喂給模型的文檔數據質量低下（如PDF亂碼、表格錯位、公式為圖片），模型無法準確理解上下文，只能依靠概率去猜測——這是幻覺產生的重要外部因素。

對于一個被定位為Agent原生大腦（契合OpenAI官方Agent戰略路線）、賦予自主規劃和執行任務能力的模型來說，高幻覺率是根本性挑戰：一個自信但錯誤的中間結論會污染整個決策鏈條；在財務、醫療等高風險場景，一次幻覺可能導致實際損失。

核心判斷：當一個模型在聰明的同時難以控制自己的自信虛構，它的商業價值需要被打上問號。可靠性，正在成為比推理能力更稀缺的品質。

三、競爭焦點的遷移：成本、可靠性與兩種策略

技術參數的邊際收益正在遞減。對企業級客戶來說，客服場景90分的模型已夠用，金融醫療場景客戶真正需要的是低幻覺率和高可解釋性。

與此同時，行業競爭聚焦于成本，演化出兩種策略：

截至2026年4月，中國市場的價格分層已非常清晰：

*注：以上價格均為各廠商官方公布的公有云標準定價（截至2026年4月），不含限時活動、新用戶優惠、長上下文附加費等特殊場景。DeepSeek V4-Pro限時2.5折活動至2026年5月5日止。*

DeepSeek V4-Flash的輸出價格是Claude Opus的1/12。當推理能力差距縮小、價格差距拉大，企業客戶的選擇邏輯正在改變。

過去12個月，前沿大模型綜合性價比以每年數倍級速度迭代，推理落地成本持續快速下行。這一趨勢有多個信源支撐：

2026年3月發表于arXiv的論文《The Price of Progress》（arXiv:2511.23455v2）基于Artificial Analysis和Epoch AI的數據分析發現：前沿模型的性價比正以每年數倍級速度提升
Gartner預測（2026年3月25日新聞室發布），到2030年，1萬億參數大模型的推理成本將較2025年下降90%以上

核心判斷：競爭焦點正在從誰更聰明轉向誰能以更優的綜合成本提供可靠的服務——包括單價、效率、幻覺率、數據準備成本等多個維度。

四、被忽視的工程挑戰：數據質量、工具調用與安全合規

當前關于工程能力的討論，主要集中在運行效率——如何讓模型跑得更快、更便宜。這固然重要，但還有三個同樣關鍵的維度。

4.1 數據質量工程：讓模型吃干凈的燃料

GPT-5.5被定位為Agent原生大腦，其核心能力是自主規劃和調用工具。然而，一個現實挑戰是：無論模型本身多強大，如果喂給它的文檔數據質量低下（如PDF表格亂碼、多欄排版混亂、公式是圖片），Agent就會基于這些垃圾輸入做出錯誤決策。

真正的工程能力，至少包括四個層次：

運行效率：分布式推理、模型量化、緩存策略
數據質量：文檔解析、多欄排版還原、表格與公式識別
可靠性保障：幻覺監測、輸出驗證、A/B測試
安全與合規：內容風控、數據脫敏、權限隔離、合規審計——在金融、政務、企業私有化場景中，這是工程淘汰賽的核心賽道之一

4.2 工具調用可靠性：Agent的另一只腳

Agent幻覺的另一大來源是工具調用可靠性。當前Agent的核心能力是自主選擇工具、調用API、執行操作。但在實際落地中，模型可能選錯工具、傳錯參數、陷入循環無效調用。

工具調用可靠性的工程化，涉及工具描述規范化、參數校驗機制、調用結果驗證、異常回滾策略等多個環節。這是當前Agent工程化中最容易被低估的挑戰。

五、OpenAI的組織調整：戰略收縮，還是重心轉移？

GPT-5.5的發布、Sora的關停、高管的連環離職——OpenAI近期的調整被一些人解讀為從研究型向工程型組織的范式轉移。這個判斷有道理，但需要更審慎的分析。

更準確的解讀是商業壓力下的戰略收縮。Sora每日算力成本約100萬美元，但長期未能實現可持續商業模式。關停它，不一定代表OpenAI放棄了研究優先的理念，而可能只是在商業化探索受挫后的資源重配。

但這并不意味著基礎研究的價值在降低。當前的工程紅利建立在現有架構之上。一旦行業出現根本性突破，游戲規則會再次改變。一個歷史參照：2010年代的計算機視覺領域，當深度學習突破出現時，之前幾年在工程優化上投入最多的公司并沒有成為贏家——贏家是那些在基礎研究上積累最深的組織。

更平衡的判斷：行業正從研究驅動轉向“研究+工程雙輪驅動”。研究負責突破天花板，工程負責把突破轉化為可規模化的產品。研究員的角色正在從主角轉向基礎設施，但這并不意味著他們不再重要。

六、被忽略的戰場：垂直行業大模型

通用大模型的推理能力競賽正在降溫，但垂直行業的可靠性競賽才剛剛開始。

在金融領域，模型需要的是低幻覺率和可解釋性。一份財報分析報告的準確性，遠比模型的門薩分數重要。

在法律領域，模型必須基于特定判例庫和法規條文回答，不能自由發揮。任何超出授權知識庫的回答都可能是合規風險。

在醫療領域，一次幻覺可能造成嚴重后果。保守輸出比聰明輸出更重要。

這些場景的核心訴求是：領域幻覺率可控、私有數據合規、私有化部署工程。通用推理能力在這里意義有限。

這意味著，工程淘汰賽在垂直賽道上的表現形式完全不同：不是比誰的推理成本更低，而是比誰能在特定領域把幻覺率壓到可接受范圍、誰能把模型安全地部署在客戶的內網環境。

也正是在這一輪垂直化+工程化的雙重浪潮中，中國AI公司的差異化優勢得以充分釋放。

七、中國公司的位置：優勢與邊界

在工程化這場競賽中，中國公司有獨特優勢，也需要正視邊界。

優勢：存量工程能力

字節的推薦系統、阿里的雙11技術保障——這些工程肌肉可以遷移到大模型領域：高并發架構、實時數據處理、模塊化設計、自動化運維，都是中國互聯網過去十年積累的核心能力。

獨特長板：垂直領域積累

除了通用工程能力，中國廠商在垂直領域還有獨特優勢：金融、政務、醫療等行業的私有數據積累、本地化合規經驗、中文原生的對齊能力、私有化交付的工程體系——這些都是海外巨頭短期內難以復制的壁壘。

制約：芯片生態的差距

DeepSeek在V4國產化遷移中遇到的困難，正是昇騰生態與CUDA生態差距的體現。同時需要客觀看到，國產芯片生態正在快速迭代——昇騰的CANN軟件棧持續優化，推理框架已支持主流模型的高效部署，輕量化適配方案在多個行業場景中規模化落地。差距在縮小，但追趕仍需時間。

不確定性：成本優勢的可持續性

當所有玩家都進入工程決勝期，成本優勢會被迅速追趕。價格戰的終局往往是利潤趨零，屆時競爭將回到基礎研究、品牌、生態等綜合實力的比拼。

八、結語：推理能力競賽的邊際價值遞減，工程淘汰賽開始

GPT-5.5的發布是一個標志性事件，但它的多重數據——高推理能力、高幻覺率、價格分層——共同指向一個更復雜的現實：

這里需要澄清的是：強調工程能力成為稀缺并不意味著基礎研究不再重要。沒有基礎研究的突破，工程優化終將觸及天花板。但在當前技術架構相對穩定的窗口期，工程能力是決定誰能率先跑通商業化的關鍵變量。兩者是接力關系，不是替代關系。

接下來的競爭，不再是單純的誰更聰明，而是：

當文本推理能力達到人類前2%就能滿足多數場景，推理能力競賽的邊際價值正在遞減
當幻覺率差距達到50個百分點，可靠性正在成為比推理能力更稀缺的品質
當價格差距達到10倍以上，綜合成本成為企業客戶的核心考量
當數據質量和工具調用決定Agent的生死，工程化的復雜度遠超預期
當安全合規成為政企客戶的門檻，合規工程進入淘汰賽的核心賽道

誰能在可控的綜合成本下，把模型的能力可靠地用起來？

這是規則改變——從參數競賽轉向工程淘汰賽。

當高推理能力不再是稀缺品，稀缺的是讓智能變得便宜、可靠、可規模化的工程能力。

而這，既是所有AI公司的共同命題，也是中國公司的機會與挑戰所在。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.