<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek,該卸下掃地僧的枷鎖了

      0
      分享至

      我每次翻《天龍八部》,翻到少林寺藏經閣那一段,都要停下來。

      蕭遠山、蕭峰父子對上慕容博、慕容復父子,鳩摩智再從旁攪局,三十年的血海深恨攪在一處,眼看就要分出生死。就在這當口,一個枯瘦的掃地僧走了出來。

      蕭峰的降龍十八掌打在他身上,他雖受內傷吐血,卻以渾厚內力生生受之;他舉手投足間讓慕容博陷入「假死」復又救活,這種生死由心的境界,令在場一眾頂尖高手莫不震懾失語。


      這一刻,誰強誰弱,答案不言而喻。

      AI 圈最近幾年,流行把 DeepSeek(深度求索)比作這位老僧。在所有人眼里,AI 賽道的格局早已注定,海外有御三家,國內有大廠和彼時風頭正盛的 AI 六小虎,輪不到旁人來置喙。

      結果一家做量化交易出身的中國公司,悄沒聲兒地走出來,用一套從天而降的招法,在各項核心評測上與這幫人正面交手,打得有來有回。


      只是,掃地僧出場,是《天龍八部》行將收尾的時刻。他的使命是終結紛爭、化解戾氣,然后全書走向尾聲。可大模型的故事,沒有尾聲,也沒有終章,只有下一回,還有下下一回。

      把 DeepSeek 比作掃地僧,是對它過去的最高贊譽,但如果這三個字正在慢慢變成困住它的枷鎖,我倒覺得,贊譽和催命符,有時候只在一念之間。

      掃地僧是怎么練成的

      金庸寫掃地僧,從來不正面寫他的功夫。他寫的是別人的反應,蕭峰愣了,慕容復愣了,旁觀的人也愣了。高手的境界,要從旁人失語的瞬間才能傳遞出來。

      DeepSeek 的故事,也暗合這個邏輯。

      作為杭州的一家對沖基金,外人提到幻方量化,第一反應是期貨、是算法交易、是數學天才們盯著屏幕上跳動的數字。這和 AI 大模型,八竿子打不著,卻悄悄把一批工程師和研究員聚在一起做大模型。


      2023 年 11 月,他們發布首個開源代碼大模型 DeepSeek Coder,后續拿出了一個 67B 的語言模型。在官方給出的多項評測中,67B 超過了 LLaMA2 70B,67B Chat 在部分中文和開放式評測中優于 GPT 3.5。只是,圈內少數幾個消息靈通的人注意到了,大多數人沒注意到。掃地僧還在掃地,少林寺的人都在忙著練少林長拳。

      讓其開始嶄露頭角,是 2024 年 5 月 7 日發布的 V2。V2 用的是 MoE(混合專家)架構,總參數 2360 億,但每次推理實際激活的只有 210 億。與此同時,V2 首次采用了 MLA(多頭潛在注意力)機制,大幅壓縮了推理時的顯存占用。

      兩相疊加,讓模型在同等效果下,跑得更快,花得更少。用金庸的話來說,這叫以柔克剛,以精妙的內功路數,彌補了真氣總量上的不足。


      ▲ https://arxiv.org/abs/2405.04434

      但砸出最大水花的,是定價。V2 的 API 定價,每百萬 token 輸入 1 元,輸出 2 元。GPT-4 Turbo 當時是它的七十倍,Meta 的 Llama3 70B 是它的七倍。一塊錢,一百萬個 token,大約相當于一本《三國演義》的字數。

      這個價格擺出來,讓整個國內大模型市場為之色變。當月,字節、阿里、百度、騰訊、訊飛、智譜,一家接一家跳出來宣布降價,最高降幅 97%,部分輕量級模型直接免費開放。

      一場持續了大半年的價格戰,就這么被 DeepSeek 的一句定價點燃了。那時候,業內給 DeepSeek 送了個外號,價格屠夫。

      美國的半導體咨詢公司 SemiAnalysis 在那段時間寫了一篇分析,說這家公司有可能成為 OpenAI 的對手,也有可能碾壓其他開源大模型。當時讀到這句話的人,大概有一半覺得是危言聳聽。一年多以后回頭看,沒有人再覺得是危言聳聽了。


      2024 年末的 V3 和 2025 年初的 R1,則是連續出手的兩招,把對手打得目瞪口呆。DeepSeek 用極低的投入,打出了旗鼓相當的效果。

      更讓人震驚的是參與人數,139 名工程師和研究人員完成了這個項目,而 OpenAI 同期有 1200 名研究人員,Anthropic 有 500 名。Meta 超級智能實驗室負責人亞歷山大·王后來說了一句被廣泛流傳的話,當美國人休息時,他們在工作,而且以更便宜、更快、更強的產品追上我們。

      緊接著便是是 R1,主打深度推理,數學、代碼、邏輯,在相當多的測試維度上與 OpenAI o1 不落下風,訓練方法用的是 GRPO 強化學習,靠讓模型自己想清楚來提升推理能力。


      最要緊的一步是開源。

      R1 的開源,被廣泛解讀為一種慷慨。模型權重、技術論文、訓練細節全部公開,全球開發者共享成果。這套敘事里,DeepSeek 是那個敞開藏經閣大門的人,路不拾遺,人人可進。

      武功秘籍直接擺桌上,誰想學誰來拿的這一手,也打破了少數幾家巨頭對前沿模型的壟斷,讓全球數以萬計的中小開發者有了和頂尖模型掰手腕的資格。

      金庸寫掃地僧,主要抓住幾樣東西,出身邊緣、多年隱匿、一鳴驚人、技法精絕、胸懷坦蕩。DeepSeek V2 的價格屠刀、V3 的成本奇跡、R1 的開源普惠,也讓人們在 DeepSeek 身上,真真切切地看見了那個老僧的影子。

      枷鎖,以及枷鎖之后

      但武俠小說是會結束的,AI 賽道不會。

      每次我寫 DeepSeek 的文章,底下的評論區都像藏經閣又打了一場架。有人說它安安靜靜做產品,不收費、不立人設,能用就用,這才是正道。有人說它連國產其他巨頭都未必打得過,已經無法攪局。


      有人替它抱不平,有人覺得它早就該被淘汰。更有人說,「我們一直以來都沒把 DeepSeek 當作優等生,而是當作掃地僧,真心希望它能如我們所愿」,這句話說得又期待,又帶著一絲說不清楚的悲涼。


      意見如此撕裂,本身就說明了一件事。DeepSeek 所受到的關注,早已超出了一家普通 AI 公司應有的體量。捧它的人把它捧上神壇,罵它的人把它踩進泥里,沒有幾家公司能在輿論場里同時承受這兩種極端。

      這篇文章大概也逃不過同樣的命運,有人會說這是黑稿,有人會說這是 PR 稿,落個兩頭不討好。但這無所謂,輿論從來都是這樣,藏經閣里打架,不管誰贏,總有人不服。


      說回正題,掃地僧出場那一幕,是《天龍八部》收尾的信號。他出手,紛爭平息,故事逐漸走向終章。這個敘事結構,似乎天然就帶著一種大結局的氣息,英雄橫空出世,一招定乾坤,從此江湖太平。

      根據《創智記》援引知情人士消息稱,按照創始人梁文鋒在內部透露的時間,DeepSeek V4 將于四月下旬正式發布。
      爽文里的主角,每一章都要有突破,讀者翻到下一頁,期待的永遠是更大的驚喜。

      V3 和 R1 用四兩撥千斤的邏輯征服了世界,大眾于是開始把它當成 DeepSeek 的固定輸出,每一次出手都必須讓硅谷巨頭血濺千里,都必須讓英偉達的股價抖一抖。V4 也應當如此。


      可在這等待一年多的時間里,外界等得有些躁動,各路聲音都出來了,說一拖再拖,是不是黔驢技窮了,掃地僧要不行了?說這話的人認為 DeepSeek 理應每次出手都是奇跡,一旦慢了半拍,便是江郎才盡。

      慢,自然有慢的原因。

      3 月 29 日,DeepSeek 的服務器崩了將近十三個小時,創下網頁端和 App 平臺上線以來最長中斷紀錄。連續的服務事故暴露了 DeepSeek 在運維監控、應急預案和災備機制上的明顯短板,也給整個 AI 行業敲響警鐘。


      當然,綜合各家報道來看,V4 一再推遲的原因,還藏在芯片層面。

      V3 和 R1 的成功,一定程度上建立在成熟的英偉達 CUDA 生態上,DeepSeek 的工程師們在工具完備、文檔詳盡、社區活躍的環境里,把算法效率一點一點榨到了極限,每一步都踩得踏實。

      V4 要做的事,是把這套功夫移植到國產 AI 芯片上。工具鏈還在快速迭代,底層接口和 CUDA 差異巨大,分布式訓練框架幾乎需要從頭重構。

      DeepSeek 交出的答卷,如果是在受限條件下做出來的,這讓它的每一分成績,都帶著額外的含金量。哪怕梁文鋒愿意為這件事多拖幾個月,也是一筆非常劃算的決策。

      至于 V4 本身,《創智記》報道稱,技術重心據悉落在了 LTM(長期記憶)能力的突破上,同時將原生多模態從底層融入架構,文字和視覺在預訓練階段就融合在一起。

      另一個值得關注的變化,是梁文鋒本人的注意力在悄悄轉移。盡管在過去的一年里,包括 R1 的核心作者郭達雅在內的部分 DeepSeek 核心骨干陸續離職,不過根據《晚點 LatePost》的觀察,DeepSeek 的人才基本盤依然穩固,并未出現大規模的人才流失現象。

      進入 2025 年下半年,梁文鋒也愈發看重技術的商業落地與產品化進程,積極招募負責 Agent 領域的策略產品經理。與此同時,他正在為公司啟動估值,給員工的期權一個明確的錨點,讓團隊對未來有更清晰的預期。


      綜合上述種種動向不難得出一個結論:曾經心無旁騖盯著 AGI 的 DeepSeek 也得開始面對一家成熟科技公司必須面對的那些現實:商業閉環、生態建設、可持續的收入來源。

      掃地僧可以幾十年不問江湖俗事,守著藏經閣一掃到底,一家公司,沒有這個選項。

      《笑傲江湖》里的令狐沖憑著獨孤九劍可以破盡天下武功,但當他真正坐鎮恒山派,每天迎來送往,護佑門人,一招鮮遠遠不夠,他需要的是內政、是人心、是香火代代相傳的根基。奇招,解決不了日常的柴米油鹽。


      因此,我們應該主動幫 DeepSeek 卸下「掃地僧」這個名號。這三個字是對過去的最高褒獎,卻是對未來的過重負擔。即便 V4 發布時沒有斷崖式的領先,只是一款 LTM 扎實、多模態原生融合、各項指標均衡的水桶機。

      從產業的角度看,這依然是巨大的成功,成功在于它或許將證明 DeepSeek 有能力從一個創造奇跡的挑戰者,變成一個穩定交付的基礎設施提供者。

      有意思的是,這件事或許本來就是雙向的。《晚點 LatePost》此前的報道里,DeepSeek 對外的溝通姿態明顯比以往克制,既沒有大張旗鼓地預熱,也沒有放出足以吊足胃口的技術信號。

      這種低調,很難說是無意為之。

      他們比任何人都清楚,掃地僧這三個字背后懸著什么。每一次出手若不能再掀翻整張牌桌,輿論的落差就會被無限放大。這是一種預期管理,也是一種自我解綁——他們同樣不想再背著這個包袱走下去。


      ▲AI 模型的世界,已經從少數幾家機構的專屬游戲,變成了全球開發者共同參與的基礎設施建設,而且這個趨勢還在加速。 https://huggingface.co/blog/huggingface/state-of-os-hf-spring-2026

      而話說回來,當輿論都在一窩蜂盯著 DeepSeek,卻少有人往旁邊多看一眼。


      ▲開源模型等級列表,圖片來源:https://www.interconnects.ai/p/2025-open-models-year-in-review

      這片江湖里,國內每一家 AI 都在苦修內功,押注多模態、Agent 生態、算力布局,也都在各自的賽道上走出了自己的路數。

      DeepSeek 固然是那個最讓人心跳加速的名字,但把眼光只鎖死在它一家身上,未免看窄了這個時代。真正讓天龍八部成為天龍八部的,是那一整代人各有來路,各有絕學,彼此激蕩,才撐起了那個波瀾壯闊的時代。

      掃地僧的傳說,止于藏經閣那一戰,藏經閣外,才是真的江湖。

      作者:莫崇宇

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗徹底露餡!外交嘴炮vs軍方硬剛,霍爾木茲海峽成權力戰場

      伊朗徹底露餡!外交嘴炮vs軍方硬剛,霍爾木茲海峽成權力戰場

      老馬拉車莫少裝
      2026-04-18 00:53:19
      近5萬元梵克雅寶手鏈僅戴兩次就發黑氧化,客服回應

      近5萬元梵克雅寶手鏈僅戴兩次就發黑氧化,客服回應

      界面新聞
      2026-04-17 20:04:07
      何潤東談張凌赫被評價“粉底液將軍”:不一樣的戲種、類型,是完全不能比較的;稱自己翻紅后接到很多工作邀約,還沒時間看《逐玉》

      何潤東談張凌赫被評價“粉底液將軍”:不一樣的戲種、類型,是完全不能比較的;稱自己翻紅后接到很多工作邀約,還沒時間看《逐玉》

      魯中晨報
      2026-04-17 09:24:06
      美股飆漲,納指13連陽續創新高,追平1992年以來最長連漲紀錄,金銀大漲,油價閃崩

      美股飆漲,納指13連陽續創新高,追平1992年以來最長連漲紀錄,金銀大漲,油價閃崩

      新浪財經
      2026-04-18 09:51:43
      俄媒報告:中國經濟體量全球首位,俄羅斯第四,中美差距越拉越大

      俄媒報告:中國經濟體量全球首位,俄羅斯第四,中美差距越拉越大

      趣文說娛
      2026-04-17 21:59:51
      71歲老人:找老伴,一要伺候我,二不能花我錢,否則休想嫁我

      71歲老人:找老伴,一要伺候我,二不能花我錢,否則休想嫁我

      烙任情感
      2026-04-16 17:47:55
      蔣介石私生活有多混亂?貼身秘書晚年才敢說破,宋美齡的做法絕了

      蔣介石私生活有多混亂?貼身秘書晚年才敢說破,宋美齡的做法絕了

      芊芊子吟
      2026-04-12 21:20:03
      如果當年沒有朝鮮戰爭,粟裕手里的60萬大軍,能一舉拿下臺灣嗎?

      如果當年沒有朝鮮戰爭,粟裕手里的60萬大軍,能一舉拿下臺灣嗎?

      兵卒史
      2026-03-04 18:18:50
      72年,劉沙去獄中看望丈夫呂正操,不斷提醒:切不可對毛主席見外

      72年,劉沙去獄中看望丈夫呂正操,不斷提醒:切不可對毛主席見外

      歷史龍元閣
      2026-04-17 17:15:10
      上喂阿祖下睡士兵男孩!底特律變人女主成黑袍奶媽

      上喂阿祖下睡士兵男孩!底特律變人女主成黑袍奶媽

      游民星空
      2026-04-16 18:19:55
      剛剛,誕生一項新吉尼斯紀錄!13315.04㎡,世界最大零食店在長沙!

      剛剛,誕生一項新吉尼斯紀錄!13315.04㎡,世界最大零食店在長沙!

      瀟湘晨報
      2026-04-17 13:55:31
      臨時封閉,影響出行!涉及沈陽青年大街、北陵大街...

      臨時封閉,影響出行!涉及沈陽青年大街、北陵大街...

      沈陽公交網小林
      2026-04-18 00:15:55
      貝克漢姆妻子首次回應大兒子與家庭矛盾,稱自己是“改過自新的控制狂”:站在聚光燈下30年,一直努力保護孩子

      貝克漢姆妻子首次回應大兒子與家庭矛盾,稱自己是“改過自新的控制狂”:站在聚光燈下30年,一直努力保護孩子

      魯中晨報
      2026-04-17 13:28:11
      馬斯切拉諾為何辭職?名記:與梅西爭吵不斷,更衣室大吵成導火索

      馬斯切拉諾為何辭職?名記:與梅西爭吵不斷,更衣室大吵成導火索

      奧拜爾
      2026-04-17 12:18:49
      黃渤和鄧超為什么無戲可拍了?

      黃渤和鄧超為什么無戲可拍了?

      閑人電影
      2026-04-16 18:55:11
      2011年,她全裸接受記者采訪,并稱:我敢看你們,你們敢看我嗎?

      2011年,她全裸接受記者采訪,并稱:我敢看你們,你們敢看我嗎?

      觸摸史跡
      2026-04-08 16:02:42
      央視直播U20女足亞洲杯時間表:4月18日CCTV5+直播日本朝鮮爭冠

      央視直播U20女足亞洲杯時間表:4月18日CCTV5+直播日本朝鮮爭冠

      薇說體育
      2026-04-17 17:08:08
      國際原油價格跌幅繼續擴大 美油跌破每桶90美元

      國際原油價格跌幅繼續擴大 美油跌破每桶90美元

      財聯社
      2026-04-17 20:28:06
      廣州地鐵票價優化:劍指地鐵18、22號線

      廣州地鐵票價優化:劍指地鐵18、22號線

      音樂時光的娛樂
      2026-04-18 01:04:20
      姜還是老的辣!蘭姐宣布獨自去海外開拓麻六記,徹底引爆網絡討論

      姜還是老的辣!蘭姐宣布獨自去海外開拓麻六記,徹底引爆網絡討論

      市井大實話
      2026-04-18 08:00:26
      2026-04-18 10:36:49
      愛范兒 incentive-icons
      愛范兒
      消費科技第一媒體
      38714文章數 2601500關注度
      往期回顧 全部

      科技要聞

      傳Meta下月擬裁8000 大舉清退人力為AI騰位

      頭條要聞

      B太18萬幫扶涼山女孩被騙:女孩父親拿低保打牌揮霍

      頭條要聞

      B太18萬幫扶涼山女孩被騙:女孩父親拿低保打牌揮霍

      體育要聞

      時隔25年重返英超!沒有人再嘲笑他了

      娛樂要聞

      劉德華摯友潘宏彬離世 曾一起租房住

      財經要聞

      "影子萬科"2.0:管理層如何吸血萬物云?

      汽車要聞

      奇瑞威麟R08 PRO正式上市 售價14.48萬元起

      態度原創

      數碼
      家居
      親子
      游戲
      公開課

      數碼要聞

      PC玩家再遭重擊!CPU缺貨已比內存還嚴重:花錢都買不到

      家居要聞

      法式線條 時光靜淌

      親子要聞

      后悔晚接觸寶寶巴士!新手家長有了這套兒童繪本

      大話西游手游一念圣魔策劃答疑!萬金油雅聲套,是不是真的無敵?

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版