![]()
編輯|Panda、楊文
馬斯克又一次跳過了所有正式流程。沒有官方博客,沒有技術文檔,甚至連宣傳推文都把自家產(chǎn)品的名字給拼錯了。但就在這種極其「馬斯克」的氛圍中,Grok 4.20 Beta 版悄無聲息地正式上線并進行了更新。
![]()
正如馬斯克之前說的那樣,Grok 4.20 采用了某種快速學習機制,能夠持續(xù)進化。18 號開始公測后能每周通過用戶真實交互持續(xù)迭代,不再等下一次大版本更新。
![]()
對于當前版本的 Grok 4.20,xAI 給出的官方介紹是「4 Agents」,也就是說,與以往單一的 Grok 模型不同,4.20 版本內置了一個由 4 個智能體組成的團隊,其會在應對復雜查詢時自動選擇啟用。
![]()
根據(jù)之前內測用戶放出的截圖,這 4 個智能體有著各自專屬的名稱、設定和技能:
- Grok:協(xié)調者,具有標志性的機智、誠實的個性;負責綜合最終輸出。
- Harper:研究專家,實時進行事實核查、收集來源、驗證信息。
- Benjamin:邏輯 / 編程 / 數(shù)學專家,負責處理嚴謹?shù)耐评怼Ⅱ炞C和技術深度。
- Lucas:創(chuàng)意達人,挑戰(zhàn)假設,探索替代方案,減少群體思維。
這 4 個智能體會在內部進行討論(用戶通常可以看到實時的思考過程),達成共識,并提供統(tǒng)一、更高質量的響應。
![]()
這種方法可以大幅降低幻覺(X 用戶 @NoahKingJr 稱測試報告表明幻覺降低了約 65%),并能提高在工程、預測、戰(zhàn)略和多步推理等難題上的可靠性。
不過需要說明的是,在機器之心最新的測試中,Grok 4.20 卻沒有使用 Lucas、Harper、Benjamin 這三個名字,而是使用了 Agent 1、Agent 2、Agent 3 等代號。
![]()
正如前文所言,目前 xAI 尚未發(fā)布相關博客和技術報告,也幾乎沒有官方評測數(shù)據(jù)流出。盡管如此,也已經(jīng)有一些第三方評測機構放出了一些評測結果。
比如 Arena AI 發(fā)布了一份數(shù)據(jù),經(jīng)過 3992 位用戶的評測,Grok 4.20 在評估搜索實時信息、外部知識和可靠引用的能力的 Search Arena 中目前排名第一,超過了 GPT-5.2、Gemini 3.0 Pro 等模型。
![]()
而在評估 LLM 在文本的通用性、語言精確性和文化背景方面的能力的 Text Arena 上,Grok 4.20 排名第 4。
![]()
下表展示了更多評測數(shù)據(jù):
![]()
另外,Grok 4.2 在真實股票交易基準 Alpha Arena 中表現(xiàn)也非常亮眼,其中采用 Situational Awareness 策略的 Grok 4.20 更是以顯著的勝率登頂排行榜。
![]()
下面展示了更具體的數(shù)據(jù):
![]()
幾個實測
看看 Grok 4.20 的表現(xiàn)如何
我們也對這個新版 Grok 4.20 進行了一番實測,首先來看看其搜索能力。正好目前關于 Grok 4.20 的消息不多,我們就提出了一個關于其自身的問題:
搜索網(wǎng)絡上關于 Grok 4.20 的一切,將信息匯總成一份報告,涵蓋其技術細節(jié)、基準指標等。
![]()
可以看到,因為這個任務比較簡單,Grok 4.20 僅啟用了默認的 Grok 智能體,不到一分鐘就完成了任務,給出的報告中也納入了一些前文沒有提到的信息。整體而言,這是一份相當有用的報告,尤其是其得天獨厚的 X 推文檢索能力,更是可以成為輔助我們報道寫作的利器。
再上一個難度更大的任務:編寫一個演示日晷工作原理的動態(tài) SVG。
![]()
這一次,Grok 4.20 的多智能體模式被成功喚起,也成功創(chuàng)建了一個效果還算不錯的嵌入了 SVG 的網(wǎng)頁:

還有網(wǎng)友直接讓它用 three.js 制作一個 FPS 游戲,這個原型充分發(fā)揮了 Grok 4.2 高速精準的代碼生成、實時工具集成、清晰的邏輯結構的優(yōu)勢。
![]()
它在一口氣給出完整、可直接運行的文件這點上,比 Claude Code 和 Codex 明顯更有優(yōu)勢 。
「確實又準又快,幾乎不出錯,所以能把腦子里剛冒出來的想法,迅速做成備忘錄級別的原型,真的太爽了!」
![]()
接下來我們試了試 Grok 4.20 引以為傲的創(chuàng)作能力,讓其為當前這篇文章建議標題并將其改成適合發(fā)小紅書的風格。結果如下,大家可以看看它的小紅書味道正嗎?
![]()
最后,按照 Grok 系列一貫的傳統(tǒng),Grok 4.20 在毒舌懟人方面依然頗具天賦。正如馬斯克分享的這條推文一樣,當用戶問 AI「你為何如此弱智」時,Claude 的回答一板一眼,而 Grok 4.20 直接來了一句「因為我在拉低智商配合你」。
![]()
文中視頻鏈接:https://mp.weixin.qq.com/s/VFYbX07o6TNp5c3f9T3JDg
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.