<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      GLM-4.5技術報告揭秘:如何圍繞Agent構建一個模型

      0
      分享至


      作者 | 周一笑
      郵箱 | zhouyixiao@pingwest.com

      智譜GLM-4.5的發(fā)布,在近期的AI開源社區(qū)中引發(fā)了不小的討論。模型放出后,它在Hugging Face社區(qū)的趨勢榜單上表現亮眼,綜合性能也在多個基準測試中位列前茅。其原生Agent能力的提法和頗具競爭力的定價,都成為了開發(fā)者們關注和討論的焦點。

      在模型獲得了一波社區(qū)的實踐和反饋之后,智譜緊接著發(fā)布了長達25頁的詳盡技術報告。這份報告同樣獲得了很高的關注度,登上了Hugging Face Daily Papers的熱度榜首。


      這份報告的價值在于,它系統(tǒng)性地闡述了其模型的設計思路,明確將Agent、Reasoning(推理)和Coding(代碼)三種能力的統(tǒng)一,即ARC,作為衡量通才模型的核心標準。


      報告鏈接:https://github.com/zai-org/GLM-4.5/blob/main/resources/GLM_4_5_technical_report.pdf

      ARC三位一體

      GLM-4.5的設計哲學的核心聚焦于Agent、推理和代碼三者的原生統(tǒng)一。報告在開篇就明確提出了這個主張。它認為,大語言模型(LLM)正從通用知識庫演變?yōu)橥ㄓ脝栴}解決者,一個真正的通才模型,需要統(tǒng)一掌握三項相互關聯的核心能力:

      Agentic abilities (Agent能力):與外部工具和真實世界進行交互。

      complex Reasoning (復雜推理能力):解決數學、科學等多步驟問題。

      advanced Coding (高級代碼技能):處理真實的軟件工程任務。

      這三者之間存在著緊密的內在邏輯。一個強大的Agent,必須具備調用工具的能力,而代碼(Coding)正是與數字世界交互的終極工具;同時,要完成一個復雜任務,例如根據用戶需求去修復一個GitHub倉庫里的Bug,必然需要嚴密的邏輯推理(Reasoning)能力來規(guī)劃步驟和理解依賴關系。

      因此,GLM-4.5的設計目標就是將這三者進行原生集成,讓Agent能夠基于優(yōu)秀的推理和代碼能力,去思考和行動,后續(xù)大量的技術細節(jié),都是圍繞這個目標展開。

      為Agent打造的技術路徑

      一個清晰的目標,需要一條嚴謹的技術路徑來實現。GLM-4.5的技術報告用大量篇幅介紹了其如何從模型架構、數據處理、訓練流程到最終的強化學習,一步步地將Agent能力注入到模型中。

      模型架構:更深、更專的MoE設計

      GLM-4.5采用了當前大模型領域主流的混合專家(MoE)架構,以在保證性能的同時提升計算效率。報告揭示了其在具體實現上的一些獨特設計選擇,例如“瘦高”結構。與一些模型追求更“寬”(更多的專家數量、更大的隱藏層維度)不同,GLM-4.5團隊選擇了減少寬度,但增加模型深度的結構。報告提到,他們發(fā)現更深的模型在推理能力上表現更出色,這直接服務于ARC能力中的推理基礎。此外,報告還提到了一些為增強推理能力而做的精細調整,例如模型使用了倍數于常規(guī)模型的注意力頭,并引入QK-Norm技術來穩(wěn)定訓練。這些改動共同為模型打下了堅實的推理和代碼功底。


      GLM-4.5與DeepSeek-V3 與 Kimi K2的模型架構對比

      訓練流程:從“廣積糧”到“中場強攻”

      一個好的模型架構需要海量且優(yōu)質的數據來喂養(yǎng)。報告詳細介紹了其復雜的多階段訓練流程,清晰地展示了從通用到專精的演進過程。在兩階段預訓練中,模型先在15T Tokens的通用語料上進行學習,可以理解為“廣積糧”。隨后,則在一個7T Tokens的數據集上繼續(xù)訓練,這個數據集會重點上采樣與代碼和推理相關的高質量內容,相當于開始為ARC能力“定向施肥”。

      報告中一個非常有趣的環(huán)節(jié)是獨特的中期訓練(Mid-training)。在完成大規(guī)模預訓練后,模型會進入一個專門的“中期訓練”階段,針對性地“強攻”特定能力。這個階段主要包含三類數據:一是代碼倉庫級數據,將同一個代碼庫的多個文件拼接訓練,讓模型學習跨文件的依賴關系;二是合成推理數據,利用已有模型生成大量帶有推理過程的問答數據;三是長上下文與Agent軌跡數據。這是最關鍵的一步,模型開始接觸并學習大量的、由機器合成的Agent任務軌跡,同時訓練的序列長度也從預訓練時的4K,一路擴展至最終的128K。


      Pre-training和Mid-training的多階段流

      后訓練:RL注入Agent靈魂

      如果說預訓練和中期訓練是為模型打造了強健的“軀體”,那么后訓練,特別是強化學習,則是為其注入“靈魂”的關鍵。正如一位社區(qū)開發(fā)者評論的那樣,這份報告的大部分篇幅都在講述一個復雜的后訓練策略。

      報告中的RL訓練設計,處處體現出為Agent服務的思想。例如,Agentic RL的訓練聚焦于兩類可以被程序自動驗證結果的任務:基于信息檢索的問答和軟件工程,因為這類任務有明確的成功或失敗信號,便于模型進行高效的強化學習。報告中一個值得注意的細節(jié),是為模型的工具調用設計了一套新的XML格式模板,旨在解決常見JSON格式在參數包含代碼時需要大量轉義字符的痛點,直接提升了Agent最核心的工具調用環(huán)節(jié)的穩(wěn)定性和效率。

      另一個例子體現在模型的交互式解決問題能力上。如下圖所示,在網頁瀏覽這類典型的Agent任務中,模型的準確率會隨著與環(huán)境交互輪次的增多而穩(wěn)步提升。這說明模型學會的不是一次性地給出答案,而是通過持續(xù)的探索、試錯和信息整合來逼近正確解,這正是Agent模式的核心價值所在。


      BrowseComp模型的準確率隨交互輪次(測試時計算量)的增加而變化。

      為了支撐如此復雜的RL訓練,智譜還專門設計并開源了名為slime的RL訓練框架。根據報告描述,這個框架的核心設計(如異步、解耦的訓練架構)就是為了高效處理Agent任務中常見的數據生成慢、交互耗時長的痛點,體現了其構建開發(fā)者生態(tài)的意圖。

      總體來看,GLM-4.5的技術報告用詳盡的數據,對其以Agent為核心的設計理念進行了驗證。

      報告的評測部分體現了模型綜合性能。在涵蓋Agent、推理、代碼的12項基準測試中,GLM-4.5的綜合得分位列全球第三,Agent能力單項排名全球第二。


      報告還提供了更深入的Agent能力評測細節(jié)。例如,在一個名為CC-Bench的真實編程任務測試中,GLM-4.5的工具調用成功率達到了90.6%,超過了多個強有力的競爭對手。這種在實際任務中表現出的高可靠性,也讓一些海外開發(fā)者評價其為“當今最精通工具、最原生的Agent模型”。


      不同模型在 CC-Bench 上的平均工具調用成功率與單輪交互的平均 Token 消耗對比。

      社區(qū)的討論也指向了另一個維度:性價比。有用戶評論認為,“性價比才是大模型落地的真正核心指標”。這一點與GLM-4.5的技術選型不謀而合。其采用的MoE架構本身就是一種平衡效果與成本的高效方案,這種技術效率也反映在了它的市場策略上,使其能以一個普惠的價格,鼓勵更多開發(fā)者進行調用和嘗試,形成生態(tài)的正向循環(huán)。

      這份技術報告,本質上是智譜將其以Agent為核心的設計思路,完整地攤在了桌面上。當模型權重、技術報告、以及RL訓練框架slime三者同時被推向社區(qū),其意義就不再只是發(fā)布一個供人調用的工具。這更像是一種開放的邀請,開發(fā)者不僅可以“用”這個模型,更可以深入地“學”它的實現方法,甚至“改”它的訓練流程。這或許是更深層的價值所在。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      湖南29歲廖大雁去世,未婚未孕挺著“孕肚”4年,在父母懷里離世

      湖南29歲廖大雁去世,未婚未孕挺著“孕肚”4年,在父母懷里離世

      千言娛樂記
      2026-04-18 16:23:12
      太夸張!臺積電5nm一季度利潤,比中芯國際年利潤還多400億!

      太夸張!臺積電5nm一季度利潤,比中芯國際年利潤還多400億!

      互聯網.亂侃秀
      2026-04-18 11:34:41
      深大一口氣停招26個專業(yè),這些“坑”你還在踩嗎?

      深大一口氣停招26個專業(yè),這些“坑”你還在踩嗎?

      牛鍋巴小釩
      2026-04-17 13:18:03
      復雜的黎巴嫩,走投無路的真主黨

      復雜的黎巴嫩,走投無路的真主黨

      寰宇大觀察
      2026-04-17 17:36:11
      重磅突發(fā)!那不勒斯緊急約談孔蒂,國家隊挖人危機正式爆發(fā)

      重磅突發(fā)!那不勒斯緊急約談孔蒂,國家隊挖人危機正式爆發(fā)

      夜白侃球
      2026-04-18 21:34:23
      阿爾特塔反問記者:我們在聊什么?

      阿爾特塔反問記者:我們在聊什么?

      籃壇第一線
      2026-04-18 21:47:20
      鄭麗文心都定了,上海的吸引力在哪里?

      鄭麗文心都定了,上海的吸引力在哪里?

      新民晚報
      2026-04-18 09:48:38
      440公斤濃縮鈾引爆美伊危機,伊朗導彈產能激增

      440公斤濃縮鈾引爆美伊危機,伊朗導彈產能激增

      享用人生
      2026-04-15 21:19:18
      成都老板娘被搭肩后續(xù):警方通報眼鏡非扇飛,惡心評論又來了

      成都老板娘被搭肩后續(xù):警方通報眼鏡非扇飛,惡心評論又來了

      社會日日鮮
      2026-04-17 13:34:22
      外交部發(fā)聲:20名中國學者西雅圖機場遭拒絕入境

      外交部發(fā)聲:20名中國學者西雅圖機場遭拒絕入境

      知識分子
      2026-04-17 21:37:09
      向太曝竇驍負債累累!8000萬身家被蠶食干凈,何超蓮弟媳凈身出戶

      向太曝竇驍負債累累!8000萬身家被蠶食干凈,何超蓮弟媳凈身出戶

      八卦王者
      2026-04-18 16:44:13
      張雪機車再奪國際大賽桿位賽第二名 最新規(guī)定:張雪機車車手與車輛組合最低重量為239公斤

      張雪機車再奪國際大賽桿位賽第二名 最新規(guī)定:張雪機車車手與車輛組合最低重量為239公斤

      紅星新聞
      2026-04-18 12:32:22
      男子搶救7.5小時用100余支止血針過量嗎?家屬質疑后醫(yī)院退費,工作人員稱用藥合理

      男子搶救7.5小時用100余支止血針過量嗎?家屬質疑后醫(yī)院退費,工作人員稱用藥合理

      紅星新聞
      2026-04-17 22:35:10
      零食包裝上寫著“勿忘國恥是每個中國人的出廠設置”,廠家回應:這是老板的情懷,希望傳達正能量

      零食包裝上寫著“勿忘國恥是每個中國人的出廠設置”,廠家回應:這是老板的情懷,希望傳達正能量

      極目新聞
      2026-04-17 09:51:27
      世錦賽揭幕戰(zhàn),趙心童5-4艱難領先,張安達兩桿破百,5-3力壓艾倫

      世錦賽揭幕戰(zhàn),趙心童5-4艱難領先,張安達兩桿破百,5-3力壓艾倫

      天涯遠行人
      2026-04-18 21:33:02
      溫州一網紅瀑布突然收費?網友吵翻了!

      溫州一網紅瀑布突然收費?網友吵翻了!

      大永強
      2026-04-18 15:07:39
      19歲希洛出道了,長得像朱莉也像皮特

      19歲希洛出道了,長得像朱莉也像皮特

      小書生吃瓜
      2026-04-15 22:07:27
      1:0!射門2:9,亞洲杯決賽,日本女足一腳射門就進球,占奪冠先機

      1:0!射門2:9,亞洲杯決賽,日本女足一腳射門就進球,占奪冠先機

      小彭美識
      2026-04-18 20:36:36
      世界波!王上源一腳穿透5人,破657天中超球荒,河南3場首球

      世界波!王上源一腳穿透5人,破657天中超球荒,河南3場首球

      奧拜爾
      2026-04-18 19:47:26
      北京電影節(jié)開幕式紅毯:高圓圓舒淇好美,高葉造型亮眼,尹正瘦了

      北京電影節(jié)開幕式紅毯:高圓圓舒淇好美,高葉造型亮眼,尹正瘦了

      八卦先生
      2026-04-16 23:19:54
      2026-04-18 22:16:49
      硅星GenAI incentive-icons
      硅星GenAI
      比一部分人更先進入GenAl。
      270文章數 36關注度
      往期回顧 全部

      科技要聞

      傳Meta下月擬裁8000 大舉清退人力為AI騰位

      頭條要聞

      因壓線被罰 張雪機車征戰(zhàn)WSBK荷蘭站第一回合憾獲第四

      頭條要聞

      因壓線被罰 張雪機車征戰(zhàn)WSBK荷蘭站第一回合憾獲第四

      體育要聞

      時隔25年重返英超!沒有人再嘲笑他了

      娛樂要聞

      劉德華回應潘宏彬去世,拒談喪禮細節(jié)

      財經要聞

      "影子萬科"2.0:管理層如何吸血萬物云?

      汽車要聞

      奇瑞威麟R08 PRO正式上市 售價14.48萬元起

      態(tài)度原創(chuàng)

      本地
      房產
      手機
      家居
      公開課

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      房產要聞

      官宣簽約最強城更!海口樓市,突然殺入神秘房企!

      手機要聞

      藍廠續(xù)航之王來了!vivo Y600 Pro首發(fā)10200mAh藍海電池:告別充電寶

      家居要聞

      法式線條 時光靜淌

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版