<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      被指又一次DeepSeek時刻,實測kimi K2 Thinking被這幾道題難住了

      0
      分享至

      作者|子川

      來源|AI先鋒官

      日前,月之暗面開源了最新一代大模型Kimi K2 Thinking。

      新模型一經推出,好評如潮!

      HuggingFace 聯合創始人Thomas Wolf 甚至毫不吝嗇的表示,“我們正在見證又一次 DeepSeek 時刻”。


      知名學者Alvin Wang Graylin 也夸贊,其已經超越西方的閉源模型。


      為什么此次月之暗面推出的Kimi K2 Thinking這么受歡迎?

      我們接著往下看。

      根據AI分析機構Artificial Analysis的評估,Kimi K2 Thinking在智能體相關任務中表現非常突出。

      比如,在Artificial Analysis智能指數中,獲得67分。


      這一成績使其領先于所有的其他開源模型,包括最近發布的MiniMax-M2和DeepSeek-V3.2-Exp,僅次于GPT-5。

      在智能體工具調用 (2-Bench)測試中,Kimi K2 Thinking得分高達93%,是目前第三方機構測量到的最高分。


      在在Humanity’s Last Exam(人類終極考試)評測中,Kimi K2 Thinking在無工具情況下的得分為22.3%,僅次于GPT-5和Grok 4。


      這成績已經不是國產SOTA了,當之無愧又一次的DeepSeek時刻。


      據介紹, K2 Thinking 的參數規模高達萬億。

      但其運行成本仍然很低,其 API 價格是百萬 token 輸入 0.15 美元(緩存命中)/0.6 美元(緩存未命中),每百萬 token 輸出 2.5 美元。


      那K2 Thinking的實際效果到底如何?

      老規矩,我們實測一番。

      由于現在的模型的能力越來越強,并且有很多變量的存在,簡單的題目已經無法測出模型的能力了。

      于是我們決定用歷屆模型經常翻車的問題來逐一刁難它,看K2 Thinking究竟是否會翻車!(關閉搜索)

      測試題一:愛心視覺錯題

      這是最近最火的一道視覺測試題,測試模型是否可以看到圖片中的愛心。

      目前沒有一個模型回答正確,看K2 Thinking是否能回答正確。


      K2 Thinking同樣沒看出圖片中的愛心圖標,它的回答是“一個圓形的圖案漂浮在背景之上”。

      測試題二:數值比較

      測試題很簡單,9.11-9.9=?

      看這次K2 Thinking能否答對!


      回答正確!并且還很貼心的把計算過程列出來了。

      測試題三:數數題

      “strawberryrrrrrr"中有幾個字母“r"。

      同樣這道題對于我們來說非常簡單,但對大模型的難度可不一般,此前多款頂尖模型拜倒在這道題的石榴裙下。

      為了防止之前的題目會訓練過,所有我們在“strawberry”的基礎上,多在了6個“r”。


      依舊回答正確,并且明確指出"strawberry"部分有 3個“r”,后面的"rrrrrr"部分有 6個“r”。

      測試題四:竹子過門

      一根5米長的竹竿,能不能通過高2米、寬2米的城門?

      同樣這道題我們也做了簡單從處理。


      終于,被這道題難到了,不過也很正常,這道題很多模型都回答不出。

      下面再來道非常燒腦的邏輯題。

      測試題五:愛因斯坦斑馬問題

      提示詞:

      1、 一條街上有五座不同顏色的房子,每座房子住著不同國籍的人,每個人有不同的職業,喝不同的飲料,養不同的寵物。

      2、英國人住在紅色的房子里;

      3、西

      班牙人養了一條狗;

      4、日本人是一個油漆工;

      5、意大利人喜歡喝茶;

      6、挪威人住在左邊的第一個房子里;

      7、綠房子在白房子的右邊;

      8、攝影師養了一只蝸牛;

      9、外交官住在黃房子里;

      10、中間房子里的那個人喜歡喝牛奶;

      11、喜歡喝咖啡的人住在綠房子里;

      12、挪威人住在藍色的房子旁邊;

      13、小提琴家喜歡喝橘子汁;

      14、養狐貍的人所住的房子與醫師的房子相鄰;

      15、養馬的人所住的房子與外交官的房子相鄰。

      先給大家公布正確的答案。


      回答錯誤,再次難倒。


      為了更全面的了解K2 Thinking的能力,我們再來測試幾道編程題。

      測試題六:使用 p5.js 創建一個精彩的動畫

      整體體驗非常流暢,效果十分不錯。

      上上難度,來一個非常經典的編程題。

      測試題七:天氣卡片

      提示詞:

      Create a single HTML file containing CSS and JavaScript to generate an animated weather card. The card should visually represent the following weather conditions with distinct animations: Wind: (e.g., moving clouds, swaying trees, or wind lines) Rain: (e.g., falling raindrops, puddles forming) Sun: (e.g., shining rays, bright background) Snow: (e.g., falling snowflakes, snow accumulating) Show all the weather card side by side The card should have a dark background. Provide all the HTML, CSS, and JavaScript code within this single file. The JavaScript should include a way to switch between the different weather conditions

      基本上提示詞上所有的功能都實現了,而且呈現的動畫效果依舊流暢。

      看來難度不夠,最后再來一個非常復雜的游戲編程題。

      測試題八:3D打磚游戲

      提示詞:

      “創建一個完全由鼠標控制的3D打磚塊游戲:

      1.使用Three.js構建沉浸式3D場景,包含以下核心組件:可左右滑動的玩家擋板(Paddle):通過鼠標水平移動控制;具備物理屬性的彈跳球體:初始速度適中,碰撞后遵循反射定律;多排彩色懸浮磚塊(Bricks):不同顏色對應不同分值

      2.物理效果要求:碰撞檢測:球體與磚塊/擋板/邊界精確碰撞;動態反彈:擋板不同位置碰撞改變球的水平反彈角度;重力模擬:球體運動軌跡呈自然拋物線

      3.游戲機制:計分系統:擊碎磚塊實時計分(普通磚=10分,金色磚=50分);生命值:初始3條命,球掉落底部則扣除生命;速度進化:每擊碎10塊磚,球速提升15%

      4.視覺特效:磚塊擊碎時觸發粒子爆炸效果;球體運動軌跡添加動態拖尾光效;擋板碰撞時出現環形沖擊波動畫

      5.交互增強:實時顯示分數和生命值HUD;游戲結束界面顯示最終得分+重新開始按鈕;添加碰撞音效(使用Web Audio API)”

      同樣這次功能都基本實現了,不過也出現些許bug,無法移動到最左側。

      看來這次程序員有福了,編程能力辣么強,而且價格又低,簡直就是代替Claude sonnet 4.5的不二之選。

      總的來說,K2 Thinking能力確實非常頂,上述的測試題都僅測試了一次,特別是編程題,完成度很高。

      大家感興趣的可以去體驗一下,K2 Thinking已上線Kimi啦。

      掃碼邀請進群,我們帶你一起來玩轉ChatGPT、GPT-4、文心一言、通義千問、訊飛星火等AI大模型,順便學一些AI搞錢技能。

      往期文章回顧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      縣城,已經毫無隱私

      縣城,已經毫無隱私

      視覺志
      2026-02-24 18:59:01
      啟動啦!上海這個工人新村,等了70年!

      啟動啦!上海這個工人新村,等了70年!

      科學發掘
      2026-02-25 11:37:27
      預測升到13億!《鏢人》逆襲續訂第二部,吳京還有3部大片待上映

      預測升到13億!《鏢人》逆襲續訂第二部,吳京還有3部大片待上映

      得得電影
      2026-02-24 17:11:06
      厄爾尼諾回歸,我國氣候大轉折,今年夏天或有大變化

      厄爾尼諾回歸,我國氣候大轉折,今年夏天或有大變化

      老特有話說
      2026-02-24 23:26:27
      香菇再次被關注!醫生發現:癌癥患者吃香菇,不用多久或有5改善

      香菇再次被關注!醫生發現:癌癥患者吃香菇,不用多久或有5改善

      讀懂世界歷史
      2026-02-12 21:48:53
      英國同卵雙胞胎顛覆實驗:狂吃脂肪 VS 猛炫碳水12周, 結果震驚所有人!

      英國同卵雙胞胎顛覆實驗:狂吃脂肪 VS 猛炫碳水12周, 結果震驚所有人!

      二胎媽媽圈
      2026-02-15 21:48:57
      這就是背叛中國的下場,被美歐輪番“吸血”,沒有一國愿意幫助它

      這就是背叛中國的下場,被美歐輪番“吸血”,沒有一國愿意幫助它

      古事尋蹤記
      2026-02-25 07:32:13
      明日大年初十是“執日”,牢記10個忌諱不要犯,安安穩穩過馬年

      明日大年初十是“執日”,牢記10個忌諱不要犯,安安穩穩過馬年

      一口娛樂
      2026-02-25 15:49:37
      劉強東稱已接到5條大型游艇訂單,每艘平均賣6000萬歐元?

      劉強東稱已接到5條大型游艇訂單,每艘平均賣6000萬歐元?

      界面新聞
      2026-02-25 16:35:54
      巴拿馬賭輸了?撕毀長和租約后,中國21.4%貨運量成致命一擊

      巴拿馬賭輸了?撕毀長和租約后,中國21.4%貨運量成致命一擊

      始于初見見
      2026-02-25 07:43:24
      劉少昂女友發文:人們看到了結果,我目睹了那些努力

      劉少昂女友發文:人們看到了結果,我目睹了那些努力

      懂球帝
      2026-02-25 13:42:11
      21歲拍三級,30歲被出軌,38歲嫁大佬,如今51歲沒孩子被寵成寶

      21歲拍三級,30歲被出軌,38歲嫁大佬,如今51歲沒孩子被寵成寶

      小熊侃史
      2026-02-25 17:53:32
      臺灣前深綠主持人彭文正高調喊話“青鳥”:臺灣人就是中國人!

      臺灣前深綠主持人彭文正高調喊話“青鳥”:臺灣人就是中國人!

      總在茶余后
      2026-02-25 02:53:44
      再也不小瞧“空氣炸鍋”了!果然,只要思路打開,就好用到離譜

      再也不小瞧“空氣炸鍋”了!果然,只要思路打開,就好用到離譜

      美家指南
      2026-02-24 15:48:11
      悲催!安徽姑子給娘家哥3孩、弟2孩每人500紅包,弟媳怒斥不公平

      悲催!安徽姑子給娘家哥3孩、弟2孩每人500紅包,弟媳怒斥不公平

      火山詩話
      2026-02-24 07:01:18
      大跳水!價格暴跌!快撿漏!

      大跳水!價格暴跌!快撿漏!

      天津族
      2026-02-25 11:57:52
      江蘇一家人均1萬6去貝加爾湖看藍冰,為省200塊全家遇難

      江蘇一家人均1萬6去貝加爾湖看藍冰,為省200塊全家遇難

      王曉愛體彩
      2026-02-24 06:13:59
      2-3,泰山全華班不敵海牛 王昊斌+彭逸翔進球 鄺兆鐳首秀發揮亮眼

      2-3,泰山全華班不敵海牛 王昊斌+彭逸翔進球 鄺兆鐳首秀發揮亮眼

      替補席看球
      2026-02-25 17:06:14
      外國人涌入中國,真相扎心:我們的低物價竟成了他們的消費天堂?

      外國人涌入中國,真相扎心:我們的低物價竟成了他們的消費天堂?

      寄星夜幕星河
      2026-02-25 06:43:37
      博德閃耀殺入歐冠16強已獲超5200萬歐獎金,全隊身價為5713萬

      博德閃耀殺入歐冠16強已獲超5200萬歐獎金,全隊身價為5713萬

      懂球帝
      2026-02-25 15:51:49
      2026-02-25 18:39:00
      AI先鋒官 incentive-icons
      AI先鋒官
      AIGC大模型及應用精選與評測
      437文章數 60關注度
      往期回顧 全部

      科技要聞

      “機器人只跳舞,沒什么用”

      頭條要聞

      美官員稱6個月內三國政府或被親美政權取代 中方回應

      頭條要聞

      美官員稱6個月內三國政府或被親美政權取代 中方回應

      體育要聞

      曝雄鹿計劃今夏追小卡 字母哥渴望與其并肩作戰

      娛樂要聞

      撒貝寧到沈陽跑親戚 老婆李白模特身材

      財經要聞

      上海樓市放大招,地產預期別太大

      汽車要聞

      750km超長續航 2026款小鵬X9純電版將于3月2日上市

      態度原創

      健康
      家居
      教育
      房產
      本地

      轉頭就暈的耳石癥,能開車上班嗎?

      家居要聞

      藝居辦公 溫度與效率

      教育要聞

      高考生家長速碼!這幾個冷門專業已翻紅,選對不后悔

      房產要聞

      海南樓市春節熱銷地圖曝光!三亞、陵水又殺瘋了!

      本地新聞

      津南好·四時總相宜

      無障礙瀏覽 進入關懷版