谷歌 Gemini 3.0 Pro 即將發布,從剛剛曝光的模型卡與早期評測來看,這一代終于不是小修小補,而是能力上的整體跨越。以下幾個核心升級值得關注:
【多模態不止于“看圖”,真正理解視頻內容】
Gemini 3.0 Pro在“Video-MMMU”視頻理解基準上得分約87.6%,顯著高于GPT-5.1的80.4%。這意味著它不僅能識別靜態圖像,還可能能分析視頻中人物動作、推斷前后因果關系、理解場景語境,向真正“看懂視頻”邁出了一大步。
【推理、數學、知識庫能力肉眼可見的進步】
在允許調用代碼執行的情況下,該模型在AIME等高難度數學測試中接近頂尖水平(AIME得分約95.0%)。實際使用中,其推理鏈更完整穩定,圖文混合輸入的邏輯判斷也更準確。
有評測指出,它在處理復雜問題時“更像在思考”,而不只是機械回應。
【長上下文能力更實用了,128k終于不是虛標】
泄露資料顯示其支持長達1000000 token的上下文窗口,并且是“原生多模態”(文字、圖像、視頻、音頻均支持)模型。
雖然上一代也支持長上下文,但3.0 Pro在以下方面有實質改進:長文檔處理中信息丟失率降低、跨段落信息整合能力更強、幻覺率顯著下降,輸出更可靠。
這意味著長上下文不再只是“能讀長文本”,而是真正能用于復雜知識推理。
【智能體與代碼能力全面而均衡】
在LiveCodeBench、SWE-Bench等編程與工具調用測試中,3.0 Pro整體優于前代,執行更穩定、響應更可靠。
不過,在SWE-Bench Verified等專項中,Claude 4.5仍略有優勢。這說明它屬于“全能型選手”,但并非在所有單項上都碾壓對手。
值得注意的是,這些成績尚未獲得官方全面驗證,公測環境中的用戶反饋也相對有限。因此,數據看起來很有說服力,但在“實裝”還需更多驗證。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.