網易首頁 > 網易號 > 正文申請入駐

Grok 4.1強勢上線！超越所有對手，拿下LMArena排行榜第一，事實性幻覺大幅下降

2025-11-18 19:43:56　來源: CSDN

北京舉報

分享至

整理 | 蘇宓

出品 | CSDN（ID：CSDNnews）

時隔四個月，埃隆·馬斯克創立的 xAI 正式帶來了 Grok 4 的升級版——Grok 4.1，此次發布共有兩款型號的模型，分別為 Grok 4.1 和 Grok 4.1 Thinking。

目前，兩者均向所有用戶免費開放，可以通過 grok.com、X 以及 iOS 和 Android 應用使用。付費用戶則能獲得更高的使用額度。

全新升級的 Grok 4.1

根據 xAI 的說法，Grok 4.1 為 Grok 在真實場景中的可用性帶來了顯著提升。官方稱，這一版本在創造力、情緒理解以及協作互動方面表現尤為突出。

與此前的模型相比，Grok 4.1 更善于捕捉細微意圖，對話更自然、有吸引力，也展現出更加一致的人格特征。

為了實現這些能力增強，xAI 繼續沿用了支撐 Grok 4 的大規模強化學習基礎設施，并進一步將其用于優化模型的風格、人格和對齊性。由于這些目標難以通過可驗證的方式直接衡量，xAI 開發了新的訓練方法，讓前沿的智能體推理模型作為獎勵模型，能夠自動化且大規模地評估與改進模型回復。

在上線方式上，xAI 先是于 2025 年 11 月 1 日至 14 日進行了為期兩周的靜默灰度發布，將早期版本的 Grok 4.1 逐步推送到 grok.com、X 以及移動 App 的真實流量中，并在此期間持續進行盲測式的成對比較評估。

評測結果顯示，Grok 4.1 相比此前的生產版本優勢明顯：

在盲測對比中，Grok 4.1 獲得了 64.78% 的偏好率。

登頂 LMArena、位居各大榜單前列的 Grok 4.1

接下來，從具體的能力上來看。

通用能力

在 LMArena 的 Text Arena 排行榜上，Grok 4.1 Thinking（代號：quasarflux）以 1483 Elo 的成績位列總榜第一，比排名最高的非 xAI 模型 Gemini 2.5 Pro 高出 31 分，領先優勢十分明顯。

LMArena 的 Text Arena 是一個開源工具，允許用戶通過并排、盲測和隨機測試來比較不同的大型語言模型 (LLM)。

而 Grok 4.1 的非推理模式（代號：tensor）不使用 thinking tokens，可直接給出即時回復，在排行榜上以 1465 Elo 排名第二。值得注意的是，這個“非推理模式”的 Grok 4.1 的成績，甚至超過所有其他模型的“完整推理版本”。

相比之下，上一代 Grok 4 的總排名僅為第 33 位，與 4.1 的表現差距明顯。

情商

為了評估模型在“人格風格”和“人際互動能力”方面的進步，xAI 使用了 EQ-Bench v3 對 Grok 4.1 進行測試。

EQ-Bench 是一個由大模型擔任裁判的測試，主要衡量模型的主動情緒智力，包括理解力、洞察力、共情能力以及人際溝通技巧。測試集包含 45 個高難度角色扮演情景，大多數由三輪預設對話構成。

評測方法一方面通過固定評分標準檢查模型回答質量，另一方面也會進行成對對比，最終得出每個模型的歸一化 Elo 分數。

xAI 給出的分數來自官方基準測試倉庫的運行結果，采用默認的采樣參數、指定裁判模型 Claude Sonnet 3.7，且未添加系統提示詞，以符合測試規范。

結果顯示，Grok 4.1 Thinking 和Grok 4.1 在 EQ-Bench 測試中名列第一、二名，這意味著該模型能夠以更自然、更富同理心、更人性化的方式做出回應。對于用戶而言，這意味著對話更容易理解，也更貼近生活。

創意寫作

xAI 在 Creative Writing v3 基準上測試了 Grok 4.1 系列模型的表現。該基準要求模型針對 32 個不同的寫作提示生成回答，并進行 3 輪迭代。

與 EQ-Bench 類似，最終得分由兩部分組成：依據評分標準（rubrics）給出的質量分，以及通過模型對戰方式計算出的歸一化 Elo 分數。

Grok 4.1 Thinking 以 1721.9 的得分排名第二。

減少幻覺

快速（非推理）模型雖然能利用搜索工具迅速給出答案，但由于推理深度有限、工具調用次數受限，容易出現事實性錯誤。

在 Grok 4.1 的后訓練階段，xAI 透露他們重點優化了信息查詢類提示的事實性幻覺問題。實際觀測顯示，對于生產環境中抽樣的此類提示，幻覺率有了顯著下降。

評估方法上，該團隊在來自生產流量的分層抽樣真實信息查詢中測試了幻覺率，同時還使用了 FActScore 公共基準進行驗證。FActScore 包含 500 個關于個人傳記的問題，用于檢驗模型的事實準確性。

xAI 表示，與舊版本相比，Grok 4.1 將這個問題減少了近三倍。這使得它在人們詢問事實、新聞或解釋時更加可靠。

大模型競爭加劇

總體來看，Grok 4.1 是一次穩步升級，幻覺減少、榮登全球 AI 排行榜榜首，競爭力有所提升。

不過，從年度最佳模型的角度來看，不少外媒認為，Grok 4.1 或許還不是今年的巔峰。Google 正準備推出下一代旗艦 Gemini 3.0，外界普遍預計它將成為今年最強大的模型之一。可以預見的是，接下來一段時間，各家旗艦模型或將上演年度巔峰對決。

參考： https://x.ai/news/grok-4-1

【活動分享】2025 年是 C++ 正式發布以來的 40 周年，也是全球 C++ 及系統軟件技術大會舉辦 20 周年。這一次，C++ 之父 Bjarne Stroustrup 將再次親臨「2025 全球 C++及系統軟件技術大會」現場，與全球頂尖的系統軟件工程師、編譯器專家、AI 基礎設施研究者同臺對話。

本次大會共設立現代 C++ 最佳實踐、架構與設計演化、軟件質量建設、安全與可靠、研發效能、大模型驅動的軟件開發、AI 算力與優化、異構計算、高性能與低時延、并發與并行、系統級軟件、嵌入式系統十二大主題，共同構建了一個全面而立體的知識體系，確保每一位參會者——無論是語言愛好者、系統架構師、性能優化工程師，還是技術管理者——都能在這里找到自己的坐標，收獲深刻的洞見與啟發。詳情參考官網：https://cpp-summit.org/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.