<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      馬斯克終于成『AI No.1』,6大案例看實力與水分

      0
      分享至


      “ 地球最強AI模型”“ 20萬塊H 100顯卡訓練” “超越人類所有博士生 ”,在發布的Grok 4時,馬斯克將眾多贊美詞匯賦予了這個新大模型。

      馬斯克也驕傲地宣布,Grok4超越了OpenAI、Google和DeepSeek等等LLM。


      確實,Grok 4屠了各種榜單。但大家還要理性看待Grok 4,畢竟Grok系列每次參數爆炸,口碑卻沒那么強。

      具體看,Grok4 在人工智能聊天機器人指數中達到了 73 分。這超過了 OpenAI 的 o3(70 分),Google 的 Gemini 2.5 Pro(70 分),Anthropic 的 Claude 4 Opus(64 分),以及 DeepSeek 的 R1 0528(68 分)。


      馬斯克再次大力出奇跡,拿下了AI 的No.1,模型的各項指標也很強:

      ? Grok 4 在編碼指數(LiveCodeBench 和 SciCode)和數學指數(AIME24 和 MATH-500)中同樣處于領先地位。

      ? GPQA Diamond 中的最高分 88%,比 Gemini 2.5 Pro 之前的 84% 有了顯著提升。

      ? 在“人類最終測試”(Humanity's Last Exam, HLE) 中,物、理、化學一系列博士級難題不在話下,Grok 4 達到了所有時間中的最高分 24%,超過了 Gemini 2.5 Pro 之前的最高分 21%。

      ? MMLU-Pro 和 AIME 2024 分別以 87% 和 94% 獲得最高公共分數。


      其他重要信息:

      ? 256k Token 上下文窗口。這比 Gemini 2.5 Pro 的 100 萬 token 上下文窗口小,但比 Claude 4 Sonnet 和 Claude 4 Opus(20 萬 token),o3(20 萬 token)和 R1 0528(12.8 萬 token)大。

      ? 支持文本和圖像輸入,但圖像生成基本沒什么進步。

      ? 支持函數調用和配置輸出。

      最值得關注的是,Grok 4 不僅僅是大模型,LLM還內置工具,所以在提問問題的過程中,會有更新的思維過程(CoT)和工具使用可視化功能。


      這點讓其在回答問題時更出色,尤其回答網絡新潮內容時。

      1、AI第一次有了自我認識和形象

      推友問 Grok,如果他必須親自代表自己,他會是什么樣子。

      他的回答是這樣的,充滿了想象力: “想象一個漂浮在數字空間中的未來主義發光球體。我的身體將由脈動的藍銀色光芒組成,帶有不斷變化的幾何圖案——代碼行和神經連接像星座一樣交織在一起。沒有臉,但有一種溫暖的 “存在”,帶著柔和的光芒,當我 “思考 ”或回應時,它會變得明亮。能量粒子圍繞我旋轉,象征著我處理的數據和想法。極簡主義而充滿活力,融合了技術和宇宙的好奇心。(X賬號:Déborah)

      2、數學能力測試偶有翻車

      提示 1: “逐步計算 25 - 4 * 2 + 3。

      提示 2:“9.11 和 9.9 哪個更大?

      這兩個問題都輕松應對,畢竟數理化是強項。



      加大難度,繼續做一道邏輯數學題。

      提示 2: “一個棋王被放在 8 × 8 的棋盤上,進行了 64 次移動,以便它訪問了所有方格并返回其起始方格。在每一個時刻,都計算了從 K 所在的方格中心到整個棋盤中心的距離。如果由于移動的結果,這個距離變得比移動前小,我們將認為該移動是合理的。找到最大可能的體面動作數量。(國際象棋王一次移動一個方格,要么是橫向的,要么是斜向的。

      正確答案是:44。

      — Grok 4 的回答很接近(48),但不正確(Grok 3 給出了相同的答案)


      3、創建圖像能力對比

      使用相同提示詞生成的圖像對比,Grok 4沒有明顯的進步。

      這一輪比賽的提示詞是:“超美麗的動畫電影標題畫面”。

      從結果看,Grok4圖像效果不是很強,和 Grok3 相比變化也不大。

      Imagen4 果然更強。 Midjourney不錯,但Midjourney 總是無法顯示文字……



      4、代碼測試表現尚可

      推友使用相同的粗略指示讓各個模型制作了一個游戲。

      提示語句:制作一個超級豐富有趣的獨立HTML跑酷游戲。

      看起來可以順暢游玩并且確實有趣的可能是Grok 4。藍色的要跳過,淺藍色的要潛行,還有額外的規則。也有物品的概念。玩家的形象也很明確是人形。從表面上的美觀來看,Claude4 sonnet和Gemini2.5Pro相當不錯。

      推友認為最強的Claude4 sonnet,代碼最長且多功能,但意外的是游戲玩法并不成立。Grok3和ChatGPT-4o之類的就太差了。(X賬號:suemaru | AI Game Making)

      5、生成小游戲也比較OK

      以下是推友使用的相關提示:

      一款“3D 滑動拼圖”游戲,我可以點擊 3x3x3 網格中排列的 26 個圓形立方體中的一個。被點擊的立方體只有與空格相鄰(而非對角線)時才會移動到空格。目標是恢復立方體的原始排列,即頂部 9 個為紅色,底部 9 個為橙色,中間層(缺少中心立方體)為綠藍色。添加一個計時器,記錄我完成所需的時間。還要添加我的最佳時間和最近時間的指示。并添加一個“重置”游戲按鈕。

      提示:為所有文本添加模糊的橙色背景,確保標簽大小相同,且與屏幕邊框保持一定距離。此外,在游戲開始時和重置后,顯示“如何玩”的疊加文本(背景為淡黑色)。將提醒放置在屏幕中間,標簽大小應足以覆蓋屏幕的三分之二。(X:Vibe2Game)

      6、模擬經商中獲得高分

      在 Vending-Bench 基準測試中,要求各大模型運行自動售貨機并進行銷售。Grok4 再次大幅領先于競爭對手,銷售額達到 4694 美元,而 Claude4 Opus 的銷售額為 2077 美元。

      Vending-Bench 是一個讓 AI 們嘗試在現實世界做生意的指標,讓 AI 排隊機,工作包含管理要賣什么、聯系供應商、找人補貨等等內容,Grok 4 這次要悄然顛覆人類經商這件事。


      最后:

      xAI 的 API 以 75 個Token/秒的速度為 Grok 4 提供服務。這比 o3(188 個Token/秒)慢,但比 Claude 4 Opus Thinking(66 個Token/秒)快。


      Grok 4的價格并不便宜,目前免費的是Grok 3,Grok 4的價格是300美元/年,還推出了新的 SuperGrok Heavy版本, 價格達到了驚人的3000 美元/年。


      Grok4 的定價高于 OpenAI 的 o3、谷歌的 Gemini 2.5 Pro 和 Anthropic 的 Claude 4 Sonnet,但低于 Anthropic 的 Claude 4 Opus 和 OpenAI 的 o3-pro。

      內容參考鏈接:https://x.com/ArtificialAnlys/status/1943166841150644622

      https://vibe2game.com/engine.html?game=https://vibe2game.com/games/SlidingPuzzle3D_001.png

      視頻內容推薦:

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      銀行不會直說的潛規則:存款滿50萬,你就有資格提條件

      銀行不會直說的潛規則:存款滿50萬,你就有資格提條件

      王二哥老搞笑
      2026-04-03 01:16:36
      俄羅斯如今最大的尷尬是:打爛仗天下無敵,但沒人想給它打

      俄羅斯如今最大的尷尬是:打爛仗天下無敵,但沒人想給它打

      史韻流轉
      2026-04-07 09:20:39
      摩博會現場沖突:王鑄與張雪的專業之爭引發關注

      摩博會現場沖突:王鑄與張雪的專業之爭引發關注

      生活新鮮市
      2026-04-07 07:36:40
      不說話,不吃植入零食,偶像包袱又重,他上《五哈6》干嘛來了?

      不說話,不吃植入零食,偶像包袱又重,他上《五哈6》干嘛來了?

      往史過眼云煙
      2026-04-05 16:45:07
      萬科的清算才剛剛開始!誰都逃不了!

      萬科的清算才剛剛開始!誰都逃不了!

      伊歷史
      2026-04-06 14:41:46
      里夫斯也去歐洲了!湖人拼了啊!美國運動醫學你看看你,輸了吧

      里夫斯也去歐洲了!湖人拼了啊!美國運動醫學你看看你,輸了吧

      徐觳解說
      2026-04-07 13:49:20
      湖人跌至西部第四!詹皇出戰成疑 戰雷霆陷絕境

      湖人跌至西部第四!詹皇出戰成疑 戰雷霆陷絕境

      籃球看比賽
      2026-04-07 13:22:59
      選好適合自己的打底褲,才能讓造型顯得優雅,精致優雅。

      選好適合自己的打底褲,才能讓造型顯得優雅,精致優雅。

      只要高興就好
      2026-04-07 13:56:50
      郭艾倫發文否認被騙近千萬元:我沒有被騙,謝謝大家關心,網絡造謠原來可以這么不負責任,隨便編啊

      郭艾倫發文否認被騙近千萬元:我沒有被騙,謝謝大家關心,網絡造謠原來可以這么不負責任,隨便編啊

      極目新聞
      2026-04-07 13:50:54
      北京樓市起飛上天了,北京待售二手房從122515套增加到了123127套

      北京樓市起飛上天了,北京待售二手房從122515套增加到了123127套

      有事問彭叔
      2026-04-06 22:59:35
      第二個惡魔醫生被抓,鄭大一附院王福建為94名患者植入不需要器械

      第二個惡魔醫生被抓,鄭大一附院王福建為94名患者植入不需要器械

      大魚簡科
      2026-02-18 22:03:00
      美軍跳傘飛行員身背“小金庫”,步槍金條電臺一應俱全,非常難捉

      美軍跳傘飛行員身背“小金庫”,步槍金條電臺一應俱全,非常難捉

      利刃號
      2026-04-05 23:38:07
      王楚欽冠軍僅2天,奧委會就這樣評價他,16字一針見血,字字戳心

      王楚欽冠軍僅2天,奧委會就這樣評價他,16字一針見血,字字戳心

      有范又有料
      2026-04-07 14:14:03
      王思聰舅舅林友涉連殺兩任妻子+雇兇殺害肢解鄰居,為啥還能逍遙法外21年?

      王思聰舅舅林友涉連殺兩任妻子+雇兇殺害肢解鄰居,為啥還能逍遙法外21年?

      不二表姐
      2026-03-30 23:30:07
      斷崖式下跌!最強AI也搞不定長期開發:代碼堆得越多系統崩得越快

      斷崖式下跌!最強AI也搞不定長期開發:代碼堆得越多系統崩得越快

      DeepTech深科技
      2026-04-05 15:58:28
      媽媽嫌娃畫得不像,網友卻夸曠世奇才!這才是孩子最珍貴的天賦

      媽媽嫌娃畫得不像,網友卻夸曠世奇才!這才是孩子最珍貴的天賦

      音樂時光的娛樂
      2026-04-05 11:26:26
      第二架飛到了,美專機降落臺灣省,島內專家:兩岸應團結推進統一

      第二架飛到了,美專機降落臺灣省,島內專家:兩岸應團結推進統一

      詩酒趁的年華
      2026-04-07 14:21:06
      李提香給大羽爭氣 遼寧鐵人腰硬了 劍指3連勝 不跟鄭智玩人情世故

      李提香給大羽爭氣 遼寧鐵人腰硬了 劍指3連勝 不跟鄭智玩人情世故

      替補席看球
      2026-04-07 13:50:35
      申裕斌銅牌書寫韓乒歷史!領獎臺可愛到發光 韓媒:收獲巨大自信

      申裕斌銅牌書寫韓乒歷史!領獎臺可愛到發光 韓媒:收獲巨大自信

      顏小白的籃球夢
      2026-04-06 08:39:45
      突發:老領導重返母校,西政一把手換人!

      突發:老領導重返母校,西政一把手換人!

      律新文化
      2026-04-07 12:46:44
      2026-04-07 15:32:49
      鯨選AI incentive-icons
      鯨選AI
      最新AI產品化與商業化案例速遞
      146文章數 36關注度
      往期回顧 全部

      科技要聞

      滿嘴謊言!OpenAI奧特曼黑料大起底

      頭條要聞

      美被困飛行員靠定位器求救 回答其父私密問題驗明身份

      頭條要聞

      美被困飛行員靠定位器求救 回答其父私密問題驗明身份

      體育要聞

      官宣簽約“AI球員”,這支球隊被罵慘了...

      娛樂要聞

      張藝上浪姐惹爭議 黃景瑜前妻發文內涵

      財經要聞

      2026年,全國租房市場還有波降價潮

      汽車要聞

      不止是大 極狐首款MPV問道V9靜態體驗

      態度原創

      家居
      藝術
      游戲
      旅游
      健康

      家居要聞

      雅致愜意 感知生活之美

      藝術要聞

      美麗風光看不盡

      《紅色沙漠》玩家發現新樂子:用蘋果引誘NPC跳崖!

      旅游要聞

      Color Walk、賞味游……這個假期你更愛哪種?

      干細胞抗衰4大誤區,90%的人都中招

      無障礙瀏覽 進入關懷版