ChatGPT哭了！馬斯克新AI直接封神

2025-11-18 17:41:28　來源: PConline太平洋科技

廣東舉報

分享至

近日，馬斯克的xAI公司推出了最新一代大語言模型 Grok 4.1。這次更新距離今年 7 月 Grok 4 發(fā)布僅過去四個多月，卻帶來了用戶立刻就能感知到的顯著提升。馬斯克本人在 X 平臺上發(fā)帖表示，大家應(yīng)該會明顯感覺到速度和質(zhì)量的雙重飛躍，而實際體驗也確實如此。

Grok 4.1 的最大亮點在于它對大模型頑疾的針對性優(yōu)化。xAI 團(tuán)隊這次把后訓(xùn)練階段的重心放在了減少幻覺上，通過大規(guī)模強(qiáng)化學(xué)習(xí)和針對信息求取類提示的專項糾偏，新模型在真實世界查詢中的幻覺率從 Grok 4 的 12% 左右直接降到 4% 左右，降幅接近三倍。這意味著用戶問事實性問題時，Grok 4.1 更不容易胡編亂造，而是給出可靠、可驗證的答案。對于依賴 AI 進(jìn)行研究、寫作或決策的用戶來說，這無疑是一次實質(zhì)性進(jìn)步。

除了更可靠，Grok 4.1 在對話體驗上也完成了質(zhì)的飛躍。官方描述稱它在創(chuàng)意、情感和協(xié)作交互方面表現(xiàn)出色，更善于捕捉用戶細(xì)微意圖，回復(fù)更有共情力、個性更連貫，同時保持了前代模型那種鋒利又幽默的風(fēng)格。在 EQ-Bench 情感智商測試中，Grok 4.1 的得分從 Grok 4 的 1206 分暴漲到 1586 分，在創(chuàng)意寫作和人際理解維度同樣領(lǐng)先。這讓它不再只是冷冰冰的問答機(jī)器，而是更像一個真正懂你的對話伙伴。

第三方盲測數(shù)據(jù)進(jìn)一步印證了這些改進(jìn)。在 LMArena 的 Text Arena 排行榜上，Grok 4.1 的思考模式以 1483 的 Elo 分?jǐn)?shù)穩(wěn)坐第一，甚至非推理的快速模式也拿下第二，領(lǐng)先所有非 xAI 模型 31 分之多。更值得一提的是，在 11 月 1 日到 14 日為期兩周的靜默灰度測試中，xAI 把新舊模型的回復(fù)隨機(jī)混在一起讓用戶盲選，結(jié)果 Grok 4.1 以 64.78% 的偏好率完勝前代。這份來自真實用戶的投票，比任何內(nèi)部基準(zhǔn)都更有說服力。

訪問方式也保持了 xAI 一貫的親民作風(fēng)。Grok 4.1 已向所有用戶免費開放，無論在 grok.com 網(wǎng)站、X 平臺，還是 iOS 和 Android 的 Grok App 上，都可以直接使用。進(jìn)入界面后，Auto 模式默認(rèn)就是 Grok 4.1，如果你想手動指定，也能在模型選擇器里找到它。付費的 SuperGrok 或 Premium+ 用戶自然能享受更高配額，但免費版已經(jīng)足夠日常使用。

這次發(fā)布沒有大張旗鼓的直播，也沒有長篇的技術(shù)報告，xAI 只是平靜地把模型推上線，任由用戶自己去感受變化。這種低調(diào)反而凸顯了自信：當(dāng)產(chǎn)品真正好用時，不需要太多噱頭。和其他廠商動輒幾個月一次的大版本迭代相比，xAI 的節(jié)奏明顯更快，從 Grok 4 到 4.1 只用了不到半年，就實現(xiàn)了從排行榜三十多名到全面登頂?shù)哪嬉u。

當(dāng)然，Grok 4.1 并非完美無缺。它依然繼承了 Grok 系列一貫的直率風(fēng)格，有時回答會比其他模型更不加修飾，但這也正是許多用戶喜歡它的原因。在當(dāng)前 AI 軍備競賽白熱化的背景下，xAI 用實際表現(xiàn)證明，追求真理和最大化幫助用戶，依然能在性能和體驗上占據(jù)上風(fēng)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.