
整理 | 蘇宓
出品 | CSDN(ID:CSDNnews)
時隔四個月,埃隆·馬斯克創立的 xAI 正式帶來了 Grok 4 的升級版——Grok 4.1,此次發布共有兩款型號的模型,分別為 Grok 4.1 和 Grok 4.1 Thinking。
目前,兩者均向所有用戶免費開放,可以通過 grok.com、X 以及 iOS 和 Android 應用使用。付費用戶則能獲得更高的使用額度。
![]()
![]()
全新升級的 Grok 4.1
根據 xAI 的說法,Grok 4.1 為 Grok 在真實場景中的可用性帶來了顯著提升。官方稱,這一版本在創造力、情緒理解以及協作互動方面表現尤為突出。
與此前的模型相比,Grok 4.1 更善于捕捉細微意圖,對話更自然、有吸引力,也展現出更加一致的人格特征。
![]()
為了實現這些能力增強,xAI 繼續沿用了支撐 Grok 4 的大規模強化學習基礎設施,并進一步將其用于優化模型的風格、人格和對齊性。由于這些目標難以通過可驗證的方式直接衡量,xAI 開發了新的訓練方法,讓前沿的智能體推理模型作為獎勵模型,能夠自動化且大規模地評估與改進模型回復。
在上線方式上,xAI 先是于 2025 年 11 月 1 日至 14 日 進行了為期兩周的靜默灰度發布,將早期版本的 Grok 4.1 逐步推送到 grok.com、X 以及移動 App 的真實流量中,并在此期間持續進行盲測式的成對比較評估。
評測結果顯示,Grok 4.1 相比此前的生產版本優勢明顯:
在盲測對比中,Grok 4.1 獲得了 64.78% 的偏好率。
![]()
![]()
登頂 LMArena、位居各大榜單前列的 Grok 4.1
接下來,從具體的能力上來看。
通用能力
在 LMArena 的 Text Arena 排行榜上,Grok 4.1 Thinking(代號:quasarflux) 以 1483 Elo 的成績位列總榜第一,比排名最高的非 xAI 模型 Gemini 2.5 Pro 高出 31 分,領先優勢十分明顯。
LMArena 的 Text Arena 是一個開源工具,允許用戶通過并排、盲測和隨機測試來比較不同的大型語言模型 (LLM)。
![]()
而 Grok 4.1 的非推理模式(代號:tensor) 不使用 thinking tokens,可直接給出即時回復,在排行榜上以 1465 Elo 排名第二。值得注意的是,這個“非推理模式”的 Grok 4.1 的成績,甚至超過所有其他模型的“完整推理版本”。
相比之下,上一代 Grok 4 的總排名僅為第 33 位,與 4.1 的表現差距明顯。
情商
為了評估模型在“人格風格”和“人際互動能力”方面的進步,xAI 使用了 EQ-Bench v3 對 Grok 4.1 進行測試。
EQ-Bench 是一個由大模型擔任裁判的測試,主要衡量模型的主動情緒智力,包括理解力、洞察力、共情能力以及人際溝通技巧。測試集包含 45 個高難度角色扮演情景,大多數由三輪預設對話構成。
評測方法一方面通過固定評分標準檢查模型回答質量,另一方面也會進行成對對比,最終得出每個模型的歸一化 Elo 分數。
xAI 給出的分數來自官方基準測試倉庫的運行結果,采用默認的采樣參數、指定裁判模型 Claude Sonnet 3.7,且未添加系統提示詞,以符合測試規范。
結果顯示,Grok 4.1 Thinking 和Grok 4.1 在 EQ-Bench 測試中名列第一、二名,這意味著該模型能夠以更自然、更富同理心、更人性化的方式做出回應。對于用戶而言,這意味著對話更容易理解,也更貼近生活。
![]()
創意寫作
xAI 在 Creative Writing v3 基準上測試了 Grok 4.1 系列模型的表現。該基準要求模型針對 32 個不同的寫作提示生成回答,并進行 3 輪迭代。
與 EQ-Bench 類似,最終得分由兩部分組成:依據評分標準(rubrics)給出的質量分,以及通過模型對戰方式計算出的歸一化 Elo 分數。
Grok 4.1 Thinking 以 1721.9 的得分排名第二。
![]()
減少幻覺
快速(非推理)模型雖然能利用搜索工具迅速給出答案,但由于推理深度有限、工具調用次數受限,容易出現事實性錯誤。
在 Grok 4.1 的后訓練階段,xAI 透露他們重點優化了信息查詢類提示的事實性幻覺問題。實際觀測顯示,對于生產環境中抽樣的此類提示,幻覺率有了顯著下降。
評估方法上,該團隊在來自生產流量的分層抽樣真實信息查詢中測試了幻覺率,同時還使用了 FActScore 公共基準進行驗證。FActScore 包含 500 個關于個人傳記的問題,用于檢驗模型的事實準確性。
xAI 表示,與舊版本相比,Grok 4.1 將這個問題減少了近三倍。這使得它在人們詢問事實、新聞或解釋時更加可靠。
![]()
![]()
大模型競爭加劇
總體來看,Grok 4.1 是一次穩步升級,幻覺減少、榮登全球 AI 排行榜榜首,競爭力有所提升。
![]()
不過,從年度最佳模型的角度來看,不少外媒認為,Grok 4.1 或許還不是今年的巔峰。Google 正準備推出下一代旗艦 Gemini 3.0,外界普遍預計它將成為今年最強大的模型之一。可以預見的是,接下來一段時間,各家旗艦模型或將上演年度巔峰對決。
參考: https://x.ai/news/grok-4-1
【活動分享】2025 年是 C++ 正式發布以來的 40 周年,也是全球 C++ 及系統軟件技術大會舉辦 20 周年。這一次,C++ 之父 Bjarne Stroustrup 將再次親臨「2025 全球 C++及系統軟件技術大會」現場,與全球頂尖的系統軟件工程師、編譯器專家、AI 基礎設施研究者同臺對話。
本次大會共設立現代 C++ 最佳實踐、架構與設計演化、軟件質量建設、安全與可靠、研發效能、大模型驅動的軟件開發、AI 算力與優化、異構計算、高性能與低時延、并發與并行、系統級軟件、嵌入式系統十二大主題,共同構建了一個全面而立體的知識體系,確保每一位參會者——無論是語言愛好者、系統架構師、性能優化工程師,還是技術管理者——都能在這里找到自己的坐標,收獲深刻的洞見與啟發。詳情參考官網:https://cpp-summit.org/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.