近日,馬斯克的xAI公司推出了最新一代大語言模型 Grok 4.1。這次更新距離今年 7 月 Grok 4 發(fā)布僅過去四個多月,卻帶來了用戶立刻就能感知到的顯著提升。馬斯克本人在 X 平臺上發(fā)帖表示,大家應(yīng)該會明顯感覺到速度和質(zhì)量的雙重飛躍,而實際體驗也確實如此。
![]()
Grok 4.1 的最大亮點在于它對大模型頑疾的針對性優(yōu)化。xAI 團(tuán)隊這次把后訓(xùn)練階段的重心放在了減少幻覺上,通過大規(guī)模強(qiáng)化學(xué)習(xí)和針對信息求取類提示的專項糾偏,新模型在真實世界查詢中的幻覺率從 Grok 4 的 12% 左右直接降到 4% 左右,降幅接近三倍。這意味著用戶問事實性問題時,Grok 4.1 更不容易胡編亂造,而是給出可靠、可驗證的答案。對于依賴 AI 進(jìn)行研究、寫作或決策的用戶來說,這無疑是一次實質(zhì)性進(jìn)步。
![]()
除了更可靠,Grok 4.1 在對話體驗上也完成了質(zhì)的飛躍。官方描述稱它在創(chuàng)意、情感和協(xié)作交互方面表現(xiàn)出色,更善于捕捉用戶細(xì)微意圖,回復(fù)更有共情力、個性更連貫,同時保持了前代模型那種鋒利又幽默的風(fēng)格。在 EQ-Bench 情感智商測試中,Grok 4.1 的得分從 Grok 4 的 1206 分暴漲到 1586 分,在創(chuàng)意寫作和人際理解維度同樣領(lǐng)先。這讓它不再只是冷冰冰的問答機(jī)器,而是更像一個真正懂你的對話伙伴。
![]()
第三方盲測數(shù)據(jù)進(jìn)一步印證了這些改進(jìn)。在 LMArena 的 Text Arena 排行榜上,Grok 4.1 的思考模式以 1483 的 Elo 分?jǐn)?shù)穩(wěn)坐第一,甚至非推理的快速模式也拿下第二,領(lǐng)先所有非 xAI 模型 31 分之多。更值得一提的是,在 11 月 1 日到 14 日為期兩周的靜默灰度測試中,xAI 把新舊模型的回復(fù)隨機(jī)混在一起讓用戶盲選,結(jié)果 Grok 4.1 以 64.78% 的偏好率完勝前代。這份來自真實用戶的投票,比任何內(nèi)部基準(zhǔn)都更有說服力。
![]()
![]()
訪問方式也保持了 xAI 一貫的親民作風(fēng)。Grok 4.1 已向所有用戶免費開放,無論在 grok.com 網(wǎng)站、X 平臺,還是 iOS 和 Android 的 Grok App 上,都可以直接使用。進(jìn)入界面后,Auto 模式默認(rèn)就是 Grok 4.1,如果你想手動指定,也能在模型選擇器里找到它。付費的 SuperGrok 或 Premium+ 用戶自然能享受更高配額,但免費版已經(jīng)足夠日常使用。
![]()
這次發(fā)布沒有大張旗鼓的直播,也沒有長篇的技術(shù)報告,xAI 只是平靜地把模型推上線,任由用戶自己去感受變化。這種低調(diào)反而凸顯了自信:當(dāng)產(chǎn)品真正好用時,不需要太多噱頭。和其他廠商動輒幾個月一次的大版本迭代相比,xAI 的節(jié)奏明顯更快,從 Grok 4 到 4.1 只用了不到半年,就實現(xiàn)了從排行榜三十多名到全面登頂?shù)哪嬉u。
當(dāng)然,Grok 4.1 并非完美無缺。它依然繼承了 Grok 系列一貫的直率風(fēng)格,有時回答會比其他模型更不加修飾,但這也正是許多用戶喜歡它的原因。在當(dāng)前 AI 軍備競賽白熱化的背景下,xAI 用實際表現(xiàn)證明,追求真理和最大化幫助用戶,依然能在性能和體驗上占據(jù)上風(fēng)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.