<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      奧特曼的“溫和奇點”愿景,線性注意力的勝利?MiniMax-M1技術報告深度解析

      0
      分享至

      OpenAI CEO 奧特曼前兩天發了一篇博文,名字叫「溫和的奇點」(The Gentle Singularity),文中有一句話是這么說的:


      “Then focus on making superintelligence cheap, widely available, and not too concentrated with any person, company, or country.”

      這段話明確指出,未來的超級智能(superintelligence)必須實現低成本、大規模普及,且不應被少數個人、公司或國家壟斷。換言之,AI 應像電力一樣普及——前提是要做好基礎設施建設并將價格壓到足夠低。然而,OpenAI 自身在這兩方面一直被人詬病:其一,自 GPT-3.5 以來一直采取閉源策略;其二,ChatGPT 在世界許多地區仍無法使用。

      要讓 AI 真正“廉價且廣泛可用”,并滿足當下應用需求(奧特曼、黃仁勛等一眾將 2025 年稱為“Agent 元年”),至少需要具備以下三項能力:

      • 推理reasoning能力,對應了應運而生的各種復雜任務,傳統大模型思考能力有限,只有帶有推理能力的大模型才能搞定。

      • tool calling,所謂的Agent其實就是縮小版的人類,它得熟練使用各類不同的工具(聯網搜索,畫圖,調用程序等),并且最好跟現在的各種MCP,A2A協議適配。

      • 盡可能長的上下文context:很多大型文檔或者稍大點的開源repo需要消耗大量token,短的上下文別說工作,連資料都讀不完。

      這三點需求正好體現了 AI 模型從“寫詩對對子”的玩具階段向“具備實際工作能力”的工具階段的演進。

      而演進的速度其實受到了很多方面的制約,硬件、算法和架構缺一不可,現有的大模型大多基于英偉達的硬件,所以能夠做文章的地方主要就是架構和算法。


      這次MiniMax-M1的發布,在這兩個方向都有不小的創新。

      • Lighting Transformer的創新性應用:在盡可能保留信息的前提下降低了訓練成本

      • Hybrid MoE架構:適應Lighting Transformer,Dense級別的消耗,10x大小模型性能

      • RL算法創新:CISPO

      論文以及開源代碼地址:https://github.com/MiniMax-AI/MiniMax-M1

      技術報告地址:https://arxiv.org/abs/2506.13585

      前兩個算架構的創新性應用,特別是Lighting Transformer的應用,現有的絕大多數大模型都采用的是傳統的Transformer結構,這個結構圖估計大家見過非常多次了。


      Transformer這個圖復雜,但其實它的原理很簡單,就是把一句話的每個詞之間的關系都找出來,比如我吃飯,它會找到(我,吃)(我,飯)(吃,飯)這些關系,但這只有三個字,如果字數變數,關系數量直接翻倍(3->6)。


      特別是很多朋友喜歡直接把一本幾十萬字的書扔給AI分析,那對于顯卡的負擔可想而知,而Lighting Transformer的本質就是盡可能的保證準確的前提下,降低對于計算資源的消耗。這就是Lighting Transformer的發力的地方,它的原理其實在數學上很簡單,傳統的Transfomer需要Q*K^T*V,QK這兩個數的乘積會隨著輸入文字的長度劇烈的擴張,也就說傳統的方法好用,但是碰到超長的文本,就會算的非常吃力。


      而Lighting Transformer可以說就是利用了數學上的乘法定律,A*B*C = A*(B*C),只是讓后面兩個數先乘,就這簡單的一步就可以將所需要的計算量降低很多。

      但有一個問題,那就是在數學角度上看起來很直觀的公式,真正到了實際應用中卻非常難以實現,因為有非常多的瓶頸限制。MiniMax-M1用的lighting transformer其實并不是簡單的線性注意力,而是一個針對現代GPU硬件特性進行深度優化I/O-aware的變體,它的存在可以讓理論盡可能的貼近了現實。


      其實除了M1用的這個lighting transformer,LLM領域也有幾個很火的架構,分別是Mamba和RWKV,都比傳統的Transformer處理速度要快很多,但是他們的局限性也很強,那就是碰到超長上下文的時候會捉襟見肘,在前LLM時代還能行,但agent時代明顯不太夠用了。


      特別的是M1的架構也不是純Lighting Transformer,而是每7層Lighting后會加一層傳統的softmax transformer,因為只要省算力,那肯定會有代價,這是一種深思熟慮的工程權衡。

      這種設計體現了一種務實的架構理念:在享受線性注意力帶來的巨大計算和內存效率的同時,周期性地利用標準softmax注意力的能力來校準和鞏固模型的表征。


      感興趣的朋友可以看看,純粹的線性注意力模型雖然高效,但學術界已經指出其存在一些固有缺陷,例如可能導致表征能力的“秩崩潰”(low-rank nature),從而在需要精細區分和復雜關系建模的任務上表現不佳 。

      論文地址:

      https://arxiv.org/html/2411.07635v1 https://arxiv.org/abs/2411.07635

      可以看到新架構的優勢,同樣的生成長度(橫軸),M1的消耗幾乎是直線,而DeepSeek-R1和Qwen的消耗明顯大的多,從實際效果中也印證了線性注意力的效果。


      另一部分的創新就是RL算法,現在新出的大模型基本上都是推理大模型,而推理大模型的前身就是傳統大模型,多加的步驟就是post-training,相當于給一個具備了高中知識的人灌了一大堆博士級別的思考方式,本質上知識量沒變,只是掌握了更多的思考方式和技巧。

      這個核心就是用強化學習RL來做,主流的算法有兩個,PPO(Proximal Policy Optimization)、GRPO(Group Relative Policy Optimization),其中最近的大模型基本上都是后者,比如DeepSeek,Qwen3等等,它倆的核心思路都是相同的,都是讓模型朝著性能提升的方向走。

      但是M1的作者們發現了一個問題,那就是Token Clipping,通俗來講,就是你在學數學,對于一個很難的問題,你突然有了靈感,比老師設想的解題速度快很多,老師就直接把你的做法否定了,這么做當然可以讓你更扎實的學知識,但是也有問題,那就是把你那些靈光乍現的經驗人為的遏制了。


      但問題是在Agent時代,模型需要這種靈感乍現,需要這種深度的長思考能力。

      本文提出的CISPO就是發現了這個問題會導致模型的性能提不上去,特別是采用了獨特的Lighting Transformer,CISPO的核心思路就是不限制任何思路,只是“提醒”,如果思考的太快,那就提示“慢一點兒”,這種溫和的約束可以保持大模型的訓練目標是正向向前的同時,還能夠穩定的學到所有重要的地方。

      紅色的部分(CISPO)實現了兩倍的訓練速度,同時效果還最好。


      同時有架構和算法上的創新,MiniMax-M1的性能也很不錯,跟世界上最強的幾個模型相比也很不錯,特別是跟Agent相關能力的維度上,幾乎跟最強的幾個閉源模型齊平了。


      別忘了,M1的幾個特性都是奔著性價比去的,你看文中的這句話,3周、512塊H800(DeepSeek R1同款),0.53M美元。


      這是什么意思,也就是只用了53萬美元就完成了RL訓練,這釋放出的信號對于大模型領域的玩家都是非常積極的,你想,一個世界梯隊的Reasnoing大模型,只需要租512張H800,三周時間就能迭代一輪,相比起之前動輒幾個月才能完成的訓練,M1讓大模型這盤蛋糕變的更大,成本直接降低了一個數量級,顯而易見的入場門檻也更加友好了。

      所以說,M1的這篇論文要傳達并不是單純的性價比或者技術力,更多的是一種新路徑的探索,它不僅是一個在多個基準測試上取得優異成績的模型,它更是一次成功的技術宣言。它宣告了通過底層的架構和算法創新,我們完全有能力構建出既強大又高效的大規模AI系統。它所開辟的這條非Transformer、高效率、高性能的道路,為整個AI領域邁向更復雜、更智能、更普惠的未來,提供了一份極具價值的參考設計。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      越南樓市失控了

      越南樓市失控了

      格隆匯
      2025-12-26 19:37:05
      中方對美連發“三個停止”警告

      中方對美連發“三個停止”警告

      第一財經資訊
      2025-12-26 18:13:53
      打虎!郭學益被查

      打虎!郭學益被查

      新京報政事兒
      2025-12-27 10:47:31
      冬至過后要補陽!每天1杯,逼出寒濕、暖手腳、精力旺!安穩過冬

      冬至過后要補陽!每天1杯,逼出寒濕、暖手腳、精力旺!安穩過冬

      江江食研社
      2025-12-26 16:30:07
      老人被城管推翻后續!老人去世,其單位受牽連,警方通報: 已刑拘

      老人被城管推翻后續!老人去世,其單位受牽連,警方通報: 已刑拘

      社會日日鮮
      2025-12-27 05:29:43
      美國頁巖油陷阱!廢水回注正在失控,或引發人類巨大災難

      美國頁巖油陷阱!廢水回注正在失控,或引發人類巨大災難

      新浪財經
      2025-10-07 21:58:33
      全世界在看北京怎么亮劍!針鋒相對扣押運走美國貨輪貨物

      全世界在看北京怎么亮劍!針鋒相對扣押運走美國貨輪貨物

      柳扶風
      2025-12-26 09:08:54
      疑知名女星前夫被判無期,“涉案10余億元,已有受害人過世”

      疑知名女星前夫被判無期,“涉案10余億元,已有受害人過世”

      魯中晨報
      2025-12-27 12:49:35
      “蹭準毒品擦邊球”?霸王茶姬回應高濃度咖啡因爭議

      “蹭準毒品擦邊球”?霸王茶姬回應高濃度咖啡因爭議

      深圳晚報
      2025-12-26 23:58:38
      貝克漢姆26歲長子跟富豪岳父拍全家福,抱嬌妻很滿足,與父母斷聯

      貝克漢姆26歲長子跟富豪岳父拍全家福,抱嬌妻很滿足,與父母斷聯

      譯言
      2025-12-27 09:33:47
      注意,開始拉物價了!

      注意,開始拉物價了!

      米筐投資
      2025-12-27 07:04:52
      中央紀委國家監委公開通報七起違反中央八項規定精神典型問題

      中央紀委國家監委公開通報七起違反中央八項規定精神典型問題

      界面新聞
      2025-12-27 17:02:22
      在同學群“打包”發布淫穢視頻及圖片被行拘13天,男子不服提起行政訴訟,兩審均被駁回

      在同學群“打包”發布淫穢視頻及圖片被行拘13天,男子不服提起行政訴訟,兩審均被駁回

      紅星新聞
      2025-12-27 10:05:19
      被排隊斬殺的美國人為什么不反抗?

      被排隊斬殺的美國人為什么不反抗?

      觀雨大神經
      2025-12-26 19:55:35
      曹建國已從院士名單中撤下

      曹建國已從院士名單中撤下

      觀察者網
      2025-12-27 14:20:07
      中新網報道:中國赴柬埔寨游客增長43.5%,你會去俄、柬旅游嗎?

      中新網報道:中國赴柬埔寨游客增長43.5%,你會去俄、柬旅游嗎?

      名人茍或
      2025-12-27 06:04:21
      搶中國原油的美軍,意識到玩砸了,收到最新命令,60天內不能動手

      搶中國原油的美軍,意識到玩砸了,收到最新命令,60天內不能動手

      近史博覽
      2025-12-26 11:41:41
      太奇葩了,中國籃協宣布重要決定,球迷怒噴,中國籃球又成為笑話

      太奇葩了,中國籃協宣布重要決定,球迷怒噴,中國籃球又成為笑話

      宗介說體育
      2025-12-27 15:42:19
      倫納德你太狠了,NBA歷史第一的紀錄,塵封多年,如今被你打破了

      倫納德你太狠了,NBA歷史第一的紀錄,塵封多年,如今被你打破了

      大西體育
      2025-12-27 14:57:50
      即將與澤連斯基會晤,特朗普放話:未經我批準,他無法敲定任何事

      即將與澤連斯基會晤,特朗普放話:未經我批準,他無法敲定任何事

      環球網資訊
      2025-12-27 09:02:08
      2025-12-27 18:19:00
      平凡AI incentive-icons
      平凡AI
      高校AI從業者
      54文章數 23關注度
      往期回顧 全部

      科技要聞

      小米也漲價了!業界稱終端再不漲明年必虧

      頭條要聞

      男子戒毒后隨領導出差被警察帶走驗尿 回家后工作沒了

      頭條要聞

      男子戒毒后隨領導出差被警察帶走驗尿 回家后工作沒了

      體育要聞

      NBA教練圈的布朗尼,花了22年證明自己

      娛樂要聞

      張昊唯逃稅涉黃風波落幕:法院認定朋友造謠

      財經要聞

      注意,開始拉物價了!

      汽車要聞

      好音響比大屏更重要?車企開始“聽”用戶的

      態度原創

      本地
      親子
      家居
      公開課
      軍事航空

      本地新聞

      云游安徽|踏訪池州,讀懂山水間的萬年史書

      親子要聞

      她稱自己是易孕體質!碰一下就會懷孕?

      家居要聞

      格調時尚 智慧品質居所

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      英法德三國領導人通話 重申對烏支持

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲性日韩精品一区二区 | 专区国产无码| 久久精品www人人爽人人| 久久久无码人妻精品无码| 紫阳县| 亚洲国产第六| 日本中文字幕不卡在线一区二区| 91在线观看视频| 免费看成人aa片无码视频吃奶 | 亚洲人成人77777网站| 欧美zoozzooz性欧美| 波多野结衣无码视频| 久久18| 1024你懂的国产精品| 亚洲av无码专区在线亚| 国产av一区二区三区日韩| 亚洲va中文字幕无码久久| 国产成人无码a区在线观看视频app | awww在线天堂bd资源在线| 日韩午夜福利| 国产精品无码午夜福利| 丁香花在线影院观看在线播放| 91资源在线| 亚洲avav| 毛多水多高潮高清视频| 无人区码一码二码w358cc| 国产又色又爽又刺激在线观看| 欧美成人天堂| 国产VA在线视频观看| ..真实国产乱子伦毛片| 富宁县| 强奷白丝美女在线观看| 国产精品乱码一区二区三区| 无码少妇精品一区二区免费动态| 人人干人人噪人人摸| 亚洲一本在线| 大厂| 亚洲中文在线观看| 日韩欧美视频一区二区三区| 亚洲熟妇av日韩熟妇在线| 蜜臀av午夜一区二区三区|