<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      Grok 4.1強勢上線!超越所有對手,拿下LMArena排行榜第一,事實性幻覺大幅下降

      0
      分享至


      整理 | 蘇宓

      出品 | CSDN(ID:CSDNnews)

      時隔四個月,埃隆·馬斯克創立的 xAI 正式帶來了 Grok 4 的升級版——Grok 4.1,此次發布共有兩款型號的模型,分別為 Grok 4.1 和 Grok 4.1 Thinking。

      目前,兩者均向所有用戶免費開放,可以通過 grok.com、X 以及 iOS 和 Android 應用使用。付費用戶則能獲得更高的使用額度。



      全新升級的 Grok 4.1

      根據 xAI 的說法,Grok 4.1 為 Grok 在真實場景中的可用性帶來了顯著提升。官方稱,這一版本在創造力、情緒理解以及協作互動方面表現尤為突出。

      與此前的模型相比,Grok 4.1 更善于捕捉細微意圖,對話更自然、有吸引力,也展現出更加一致的人格特征。


      為了實現這些能力增強,xAI 繼續沿用了支撐 Grok 4 的大規模強化學習基礎設施,并進一步將其用于優化模型的風格、人格和對齊性。由于這些目標難以通過可驗證的方式直接衡量,xAI 開發了新的訓練方法,讓前沿的智能體推理模型作為獎勵模型,能夠自動化且大規模地評估與改進模型回復。

      在上線方式上,xAI 先是于 2025 年 11 月 1 日至 14 日 進行了為期兩周的靜默灰度發布,將早期版本的 Grok 4.1 逐步推送到 grok.com、X 以及移動 App 的真實流量中,并在此期間持續進行盲測式的成對比較評估。

      評測結果顯示,Grok 4.1 相比此前的生產版本優勢明顯:

      在盲測對比中,Grok 4.1 獲得了 64.78% 的偏好率。



      登頂 LMArena、位居各大榜單前列的 Grok 4.1

      接下來,從具體的能力上來看。

      通用能力

      在 LMArena 的 Text Arena 排行榜上,Grok 4.1 Thinking(代號:quasarflux) 以 1483 Elo 的成績位列總榜第一,比排名最高的非 xAI 模型 Gemini 2.5 Pro 高出 31 分,領先優勢十分明顯。

      LMArena 的 Text Arena 是一個開源工具,允許用戶通過并排、盲測和隨機測試來比較不同的大型語言模型 (LLM)。


      而 Grok 4.1 的非推理模式(代號:tensor) 不使用 thinking tokens,可直接給出即時回復,在排行榜上以 1465 Elo 排名第二。值得注意的是,這個“非推理模式”的 Grok 4.1 的成績,甚至超過所有其他模型的“完整推理版本”。

      相比之下,上一代 Grok 4 的總排名僅為第 33 位,與 4.1 的表現差距明顯。

      情商

      為了評估模型在“人格風格”和“人際互動能力”方面的進步,xAI 使用了 EQ-Bench v3 對 Grok 4.1 進行測試。

      EQ-Bench 是一個由大模型擔任裁判的測試,主要衡量模型的主動情緒智力,包括理解力、洞察力、共情能力以及人際溝通技巧。測試集包含 45 個高難度角色扮演情景,大多數由三輪預設對話構成。

      評測方法一方面通過固定評分標準檢查模型回答質量,另一方面也會進行成對對比,最終得出每個模型的歸一化 Elo 分數。

      xAI 給出的分數來自官方基準測試倉庫的運行結果,采用默認的采樣參數、指定裁判模型 Claude Sonnet 3.7,且未添加系統提示詞,以符合測試規范。

      結果顯示,Grok 4.1 Thinking 和Grok 4.1 在 EQ-Bench 測試中名列第一、二名,這意味著該模型能夠以更自然、更富同理心、更人性化的方式做出回應。對于用戶而言,這意味著對話更容易理解,也更貼近生活。


      創意寫作

      xAI 在 Creative Writing v3 基準上測試了 Grok 4.1 系列模型的表現。該基準要求模型針對 32 個不同的寫作提示生成回答,并進行 3 輪迭代。

      與 EQ-Bench 類似,最終得分由兩部分組成:依據評分標準(rubrics)給出的質量分,以及通過模型對戰方式計算出的歸一化 Elo 分數。

      Grok 4.1 Thinking 以 1721.9 的得分排名第二。


      減少幻覺

      快速(非推理)模型雖然能利用搜索工具迅速給出答案,但由于推理深度有限、工具調用次數受限,容易出現事實性錯誤。

      在 Grok 4.1 的后訓練階段,xAI 透露他們重點優化了信息查詢類提示的事實性幻覺問題。實際觀測顯示,對于生產環境中抽樣的此類提示,幻覺率有了顯著下降。

      評估方法上,該團隊在來自生產流量的分層抽樣真實信息查詢中測試了幻覺率,同時還使用了 FActScore 公共基準進行驗證。FActScore 包含 500 個關于個人傳記的問題,用于檢驗模型的事實準確性。

      xAI 表示,與舊版本相比,Grok 4.1 將這個問題減少了近三倍。這使得它在人們詢問事實、新聞或解釋時更加可靠。



      大模型競爭加劇

      總體來看,Grok 4.1 是一次穩步升級,幻覺減少、榮登全球 AI 排行榜榜首,競爭力有所提升。


      不過,從年度最佳模型的角度來看,不少外媒認為,Grok 4.1 或許還不是今年的巔峰。Google 正準備推出下一代旗艦 Gemini 3.0,外界普遍預計它將成為今年最強大的模型之一。可以預見的是,接下來一段時間,各家旗艦模型或將上演年度巔峰對決。

      參考: https://x.ai/news/grok-4-1


      【活動分享】2025 年是 C++ 正式發布以來的 40 周年,也是全球 C++ 及系統軟件技術大會舉辦 20 周年。這一次,C++ 之父 Bjarne Stroustrup 將再次親臨「2025 全球 C++及系統軟件技術大會」現場,與全球頂尖的系統軟件工程師、編譯器專家、AI 基礎設施研究者同臺對話。

      本次大會共設立現代 C++ 最佳實踐、架構與設計演化、軟件質量建設、安全與可靠、研發效能、大模型驅動的軟件開發、AI 算力與優化、異構計算、高性能與低時延、并發與并行、系統級軟件、嵌入式系統十二大主題,共同構建了一個全面而立體的知識體系,確保每一位參會者——無論是語言愛好者、系統架構師、性能優化工程師,還是技術管理者——都能在這里找到自己的坐標,收獲深刻的洞見與啟發。詳情參考官網:https://cpp-summit.org/

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “中國宜家”崩了,創始人套現200億離場,美的太子接盤血虧?

      “中國宜家”崩了,創始人套現200億離場,美的太子接盤血虧?

      蜉蝣說
      2025-12-23 20:00:55
      3-0!齊達內兒子閃耀非洲杯:率隊開門紅!放棄入選法國隊賺大了

      3-0!齊達內兒子閃耀非洲杯:率隊開門紅!放棄入選法國隊賺大了

      球場沒跑道
      2025-12-25 10:53:26
      河南小伙娶巴鐵美女,婚后成娘家提款機,如今妻女雙亡的他后悔嗎

      河南小伙娶巴鐵美女,婚后成娘家提款機,如今妻女雙亡的他后悔嗎

      朝子亥
      2025-12-25 08:30:03
      孫繼海一敗涂地:足協改革青訓,12歲球員簽1年,張卓毅留不住了

      孫繼海一敗涂地:足協改革青訓,12歲球員簽1年,張卓毅留不住了

      國足風云
      2025-12-25 09:05:48
      1972年陳毅追悼會,江青故意無視宋慶齡,毛主席當場下一死命令,事后宋慶齡感慨:主席真聰明

      1972年陳毅追悼會,江青故意無視宋慶齡,毛主席當場下一死命令,事后宋慶齡感慨:主席真聰明

      寄史言志
      2025-12-17 16:08:14
      鄭州高新區通報“一學校學生意外墜樓”:已成立聯合調查組

      鄭州高新區通報“一學校學生意外墜樓”:已成立聯合調查組

      上觀新聞
      2025-12-25 07:32:05
      大快人心!墨西哥對華加稅近50%挑釁,中國反手掐斷其經濟命脈

      大快人心!墨西哥對華加稅近50%挑釁,中國反手掐斷其經濟命脈

      混沌錄
      2025-12-25 19:35:07
      鄭爽成功復出發露臉動態!曬側臉試水復出,張恒成鄭爽復出定時炸彈

      鄭爽成功復出發露臉動態!曬側臉試水復出,張恒成鄭爽復出定時炸彈

      八卦王者
      2025-12-24 16:28:10
      將星云集:柬埔寨10萬軍隊配三千將軍,每位將軍只能分到一個排

      將星云集:柬埔寨10萬軍隊配三千將軍,每位將軍只能分到一個排

      黃娜老師
      2025-12-24 18:11:42
      暴雨我開車送老局長去機場,處長譏諷:馬屁精,一年后我成一把手

      暴雨我開車送老局長去機場,處長譏諷:馬屁精,一年后我成一把手

      紅豆講堂
      2025-12-22 13:35:09
      朱孝天還是出手了!拋出的重磅爆料,如同一塊巨石砸進娛樂圈

      朱孝天還是出手了!拋出的重磅爆料,如同一塊巨石砸進娛樂圈

      哎呀哎呀看電影
      2025-12-25 10:37:36
      徹底不演了!特朗普宣布,從委扣押的中國油輪,將由美國永久保留

      徹底不演了!特朗普宣布,從委扣押的中國油輪,將由美國永久保留

      前沿天地
      2025-12-25 13:37:28
      順德魚生是淡水生魚片,不擔心寄生蟲嗎?網友:大數據不會騙人!

      順德魚生是淡水生魚片,不擔心寄生蟲嗎?網友:大數據不會騙人!

      夜深愛雜談
      2025-12-23 17:35:17
      領導干部任職前公示

      領導干部任職前公示

      錫望
      2025-12-25 12:45:54
      不得不說這兩位阿姨真的很會打扮,既優雅又有女人味

      不得不說這兩位阿姨真的很會打扮,既優雅又有女人味

      牛彈琴123456
      2025-12-25 10:19:13
      誰能拒絕成熟姐姐,牛仔外套搭高腰瑜伽褲,遮肉顯翹美到挪不開眼

      誰能拒絕成熟姐姐,牛仔外套搭高腰瑜伽褲,遮肉顯翹美到挪不開眼

      小喬古裝漢服
      2025-12-11 19:39:18
      值得反思!父親與兒子斷絕關系,房子贈予親戚,回家遭拒后自殺

      值得反思!父親與兒子斷絕關系,房子贈予親戚,回家遭拒后自殺

      不與世俗同
      2025-12-24 12:22:29
      41年過去了,《高山下的花環》揭露的6大社會問題,依舊發人深省!

      41年過去了,《高山下的花環》揭露的6大社會問題,依舊發人深省!

      動物奇奇怪怪
      2025-12-25 13:27:17
      恭喜國乒3人!入圍2025十大運動員,王楚欽孫穎莎落選,理由如下

      恭喜國乒3人!入圍2025十大運動員,王楚欽孫穎莎落選,理由如下

      侃球熊弟
      2025-12-24 15:05:13
      亞洲周刊曝光徐鶯偽造身份11年,篡改民國收藏史,文博圈大佬站臺

      亞洲周刊曝光徐鶯偽造身份11年,篡改民國收藏史,文博圈大佬站臺

      李博世財經
      2025-12-25 17:02:13
      2025-12-25 20:28:49
      CSDN incentive-icons
      CSDN
      成就一億技術人
      26209文章數 242203關注度
      往期回顧 全部

      科技要聞

      屠龍少年被"招安"!英偉達平安夜豪擲200億

      頭條要聞

      287萬粉絲網紅被指曾販毒 本人:你自己查 這是我隱私

      頭條要聞

      287萬粉絲網紅被指曾販毒 本人:你自己查 這是我隱私

      體育要聞

      單賽季11冠,羽壇“安洗瑩時代”真的來了

      娛樂要聞

      朱孝天把阿信好意當球踢!

      財經要聞

      時隔15月,人民幣升破7,三大推手曝光

      汽車要聞

      速來!智界在上海西岸準備了年末潮流盛典

      態度原創

      教育
      本地
      數碼
      時尚
      公開課

      教育要聞

      12月20日雅思小作文示范寫作 | 流程圖 塑料瓶回收

      本地新聞

      這輩子要積多少德,下輩子才能投胎到德國當狗

      數碼要聞

      性能、能效、AI三位一體:天璣芯片重新定義旗艦平板體驗

      今年冬天最火的搭配竟然是它?從現在美到明年

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 大地资源网中文第五页| 亚洲深深色噜噜狠狠网站| 熟女丝袜av| 南皮县| 色欲aⅴ亚洲情无码av蜜桃| 久久99国产精品久久| 久久青草国产精品一区| 亚洲制服丝袜在线观看| 熟女?人妻?人妻のA片| 下面一进一出好爽视频| 欧美3p两根一起进高清免费视频| 中文字幕人妻中出制服诱惑| 精品久久国产| aⅴ天堂αv国产| 国产精品成人va在线播放| 国产免费AV片在线看| 真实的单亲乱自拍对白免费| 亚洲国产区| 一本加勒比hezyo无码专区| 麻豆精品久久久久久久99蜜桃| av动态| 欧美成人天堂| 色多多性虎精品无码av| 无码日韩精品一区二区三区免费| 人妻中文第二页| jjzzxxxx| 777天堂麻豆爱综合视频| 女人被爽到高潮视频免费国产| 97人人看| 无码无卡| 国内精品卡一卡二卡三| 亚洲高清免费在线观看| 睡熟迷奷系列新婚之夜| 97精品官网国产户外| 又大又粗又爽的少妇免费视频| 国产果冻豆传媒麻婆精东| 乌鲁木齐县| 少妇人妻无码专区视频| 亚洲久悠悠色悠在线播放| 亚洲AV日韩AV永久无码网站| 亚洲精品理论|