<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      首個智能體模型實測:產品、開發、運維“全包了”

      0
      分享至



      假如你已經習慣了AI“動嘴”,接下來將進入AI“動手”的時代。

      2025年下半年剛開局,幾家大模型企業就開始卡位Agent,要么上線了“Agent模式”,要么發布了新的Agent產品,但思路大多是“大模型+外掛工具”,就像是“大腦”指揮一堆外部的“手”協同完成任務。

      7月28日,智譜正式發布了新一代旗艦模型GLM-4.5,在MMLU Pro、AIME24、MATH 500、SciCode等12項基準評測中,綜合平均分位居全球模型第三、國產模型第一,開源模型第一。



      比起榜單排名,讓我們更感興趣的是——GLM-4.5是專為智能體應用打造的基礎模型,首次在單個模型中實現將推理、編碼和智能體能力原生融合,不再滿足于扮演一個被動回答問題的“聊天機器人”,而是要成為能夠理解復雜目標、自主規劃并執行多步驟任務的“全優生”。

      相當于模型自己就是“帶手的腦”,實現了自主拆解任務、調用工具、完成工作,直接將大模型的原生能力卷到了下一個Level。

      為什么技術博客認為大模型的下一個范式,一定是把各種能力整合到一起?智譜的路線能否跑通呢?

      我們花了半天的時間,在z.ai上通過GLM-4.5測試了8組Demo,一起來看下GLM-4.5這個“優等生”的表現。(注:所有Demo均來自一句簡單的提示詞,大家可復制提示詞進行驗證)

      Demo1:三只萌犬的網頁名片

      提示詞:用HTML+CSS寫一個寵物展示網頁,有三只小狗,展示它們的名字、簡介和圖片。

      在測試其他Agent產品時,我們需要把提示詞寫的盡可能詳細,包含頁面主題、頁面結構、CSS樣式要求、圖片說明等等,只有足夠詳細的提示詞,才能保證模型能理解我們的需求,生成想要的網頁效果。

      第一次測試GLM-4.5的Agent能力,我們選擇大膽的“賭”一把,相對簡單甚至模糊的提示詞,最終會生成什么樣的效果?



      直接說結果:GLM-4.5根據我們的需求生成了一個靜態網頁,自動生成了網頁主題、生成了3張小狗照片,并詳細介紹了它們的名字、品種、年齡、性格和簡介;頁面使用了漸變背景、毛玻璃效果和懸停動畫效果,而且是完全響應式設計,在手機、平板、電腦上都能完美顯示。

      Demo 2:AI入門課件

      提示詞:寫一份15分鐘的“AI入門課件”,適合初中生,要求通俗易懂、有例子。

      制作PPT幾乎是所有Agent產品的主打功能,同時也是比較考驗模型能力的場景:需要先理解用戶的指令,識別出關鍵的信息和目標;根據主題或關鍵詞檢索信息,確保內容的準確性和關聯性,并按合適的順序和結構展示;結合內容自動搜索并插入合適的圖片,以增強視覺效果和理解力。

      GLM-4.5的表現,在很大程度上超出了我們的預期:通俗易懂地解釋了什么AI,列舉了AI發展史的關鍵節點,梳理了AI的運作邏輯、日常生活中的落地場景、未來的發展趨勢,并且通過“小測驗和思考題”增加了互動性。



      不同于使用模板填充信息的PPT生成方式,GLM-4.5直接根據搜索到的資料和圖片接以HTML形式編寫圖文,讓信息更準確、排版更靈活,而且允許用戶直接編輯修改。以我們生成的這份PPT為例,從標題、排版到配圖、ICON,整份PPT的質量非常高,連小細節都挑不出什么毛病。

      Demo 3:旅游打卡小紅書卡片生成器

      提示詞:設計一個小紅書卡片生成器,目標是幫助用戶快速生成適合旅游打卡分享的卡片。

      比起靜態的網頁,直接生成應用的任務,需要對圖片進行美化、裁剪、加濾鏡、添加裝飾元素等操作,而且用戶需要在生成過程中能夠有一定的交互,例如選擇模板、調整圖片、修改文案等等。

      結果依然可圈可點,用戶可以上傳照片、輸入文案、選擇模板風格,還提供了三組文案和描述供用戶參考。



      一個小插曲在于,最初生成的應用無法下載圖片,我們將問題反饋給GLM-4.5后,迅速檢查了代碼,發現是“Tailwind CSS v4使用了新的oklch顏色格式,但html2canvas不支持解析這種顏色格式”,然后GLM-4.5拋棄了html2canvas,改用原生的Canvas API實現卡片生成,迅速修復了錯誤。

      接下來繼續上難度,要求GLM-4.5增加一個新功能:根據用戶的描述,自動生成標題和文案,同時一鍵獲取當前地理位置。

      想要滿足這個需求,大模型必須要正確理解用戶的需求并生成相關文案、熟悉小紅書的文案風格,在應用中一鍵獲取當前地理位置,并將位置數據與生成的文案組合排版,渲染出精美的小紅書卡片。



      整個過程中,我們沒有輸入一行代碼,甚至沒有檢查一行代碼,所有的調試都是用自然語言完成的。

      Demo 4:反應測試小游戲

      提示詞:設計并編寫一個反應速度測試小游戲,玩家點擊一個按鈕后,在隨機時間內按鈕顏色會發生變化,玩家需盡快點擊按鈕,點擊得越快,得分越高。

      先看下GLM-4.5是怎么理解這個需求的,被拆分成了4個部分:

      1、游戲機制:點擊開始→等待變色→盡快點擊→查看成績,并設計了2-6秒隨機等待時間,防止玩家預判。

      2、功能特性:實時統計當前成績、最佳成績和游戲次數,根據反應時間給出等級評價,等待狀態按鈕禁用。

      3、用戶體驗:藍色:開始游戲;黃色:等待中;綠色:立即點擊;紫色:再次挑戰,匹配了不同的音效。

      4、評價系統:玩家點擊按鈕的反應時間會被計算并轉換為分數,得分= (1 - 點擊時間 / 最大時間) * 100。

      讓人驚喜的是,GLM-4.5在推理的過程中通過反思進一步優化了游戲細節,比如設置了新手→進階→專家→大師→傳奇的難度等級,并在游戲結束后加入了社交分享功能,可以將成績分享到微博或微信。



      對于大模型來說,這個任務不僅僅代碼生成,需要跨越多個技術維度,涉及到游戲機制、UI界面設計、用戶體驗優化等多個方面,具備理解玩家行為、生成富有挑戰性的游戲內容、平衡游戲樂趣與難度的綜合能力。

      Demo 5:前任行為分析大師

      提示詞:生成一個“前任行為分析大師”,專門幫用戶解讀前任發朋友圈的含義,給出“是否在試探復合”的專業分析。

      這個任務的難點在于:大模型需要具備強大的情感語境理解能力,不僅要識別顯性信息,還要能夠讀懂隱性信息;處理文本、圖片等多種格式,進行情感和意圖解讀;基于用戶和前任的行為數據,提供個性化的分析和建議。

      這個Demo可能是GLM-4.5完成的最出色的任務,在界面上清晰描述了智能體的功能,并貼心地加入了隱私提醒。



      效果怎么樣呢?

      我們找到了一組“渣男文案”:“想起了我們一起去過的那個咖啡館,好久沒去了,那個咖啡真的好喝,尤其是我們一起喝的那杯。”

      “前任行為分析大師”的輸出結果如下:



      需要說明的是,這個Agent僅供娛樂參考,請勿過度依賴。

      Demo 6:抖音爆款短劇生成器

      提示詞:生成一個“抖音爆款短劇自動機”,用戶輸入主線(如:窮小子逆襲),你輸出完整分鏡腳本、角色名、反轉節點。

      整個過程和前面幾個demo一樣,GLM-4.5準確理解了我們的需求。進行了一組簡單的測試,創意與生成能力、情感共鳴與情節推進、劇本結構化輸出等表現都讓人滿意,但頁面的風格和前面比較相似。



      于是我們再次給GLM-4.5上了強度——“把界面改成黑神話悟空的風格”。

      原以為模型只會把頁面色彩改一下,適配黑神話的“暗黑美學”,大大超出預期的是,GLM-4.5進行了全面改造:

      不單單是在視覺上采用了深色漸變的風格,文案風格、UI組件命名、交互效果等都在向游戲風格靠齊。



      比如標題改成了”黑神話·短劇天機”,副標題改成了“悟空慧眼觀世間,AI神筆寫乾坤。一念生成千萬劇,皆是因果皆是緣”,輸入區域被定義為”天機演算法壇”,生成按鈕標稱了”演算天機劇本”。

      Demo 7:荒島求生游戲

      提示詞:設計一個“荒島求生游戲”,用戶輸入想要的資源和技能,智能體生成一系列求生任務和情境,用戶通過與系統的互動解決困境。

      GLM-4.5的完成度非常高,設計了角色創建系統、生存系統、任務系統、隨機事件系統和游戲進度系統。游戲會根據玩家當前技能和資源生成合適的任務,并在資源消耗、技能成長、風險回報上進行了平衡。



      同時也在考驗模型在情境生成、任務多樣性、即時反饋以及決策等方面的能力。比如我們多次選擇狩獵大型動物的任務,導致生命值不斷下滑后,后續生成的任務主要是休息和安全探索,確保玩家可以“活下去”。

      由于提示詞比較簡單,整個游戲的可玩性不是特別強,但讓我們看到了一種新的可能:游戲公司在驗證一個創意的可行性時,可以先簡單做一個Agent,不斷模擬游戲中的場景,豐富游戲的劇情。

      Demo 8:診療陪練系統

      提示詞:做一個診療陪練應用,通過AI模擬患者,輔助醫學生提升診斷技能,提供問診評分,高效助力臨床實踐訓練。另外再寫一個管理員頁面的功能,方便管理員查看醫學生的成績。

      這個demo主要涉及兩個部分:

      1、診療陪練應用,通過AI模擬患者來輔助醫學生提升診斷技能,提供問診評分。

      2、管理員頁面功能,使管理員能夠方便地查看醫學生的成績。

      不管是AI對話系統的復雜性、評分算法的設計、數據模型的復雜性,還是實時交互的技術挑戰、醫學專業知識的準確性、系統集成和數據流的處理,幾乎都在考驗當前大模型的能力上限。

      一個直接的例子,GLM-4.5需要理解醫學生的提問和患者的回答,并且根據設定的醫學背景、癥狀和情境模擬合理的互動。例如模擬患者可能表達各種癥狀,且這些癥狀需要結合醫學知識進行適當的反饋。



      就交互體驗和系統完整性而言,GLM-4.5的表現依舊值得稱贊,只用了十幾分鐘的時間,但已經很接近一套完整的診療陪練系統,而且UI設計、題庫設計、交互體驗、數據管理等模塊不遜于市場上的大多數成熟產品,驗證了大模型生成復雜Agent系統的可能性。

      一些思考

      作為基座模型的GLM-4.5,同時扮演了產品經理、程序員和測試運維的角色,通過在一個模型中實現多種能力的融合,很大程度上簡化了搭建智能體的工程難度,進一步拉低了智能體的應用門檻。

      目前GLM-4.5只能部署8個實例,我們也只能展示8組Demo,但傳遞出的信號已經十分明顯:

      1、技術的門檻正在消失,創意將直接和生產力掛鉤。

      就像上述的Demo,即便是最簡單的靜態網頁,至少需要一個前端和一個設計師協同,花費三四天的時間,現在只需要一句自然語言的指令,文案、配圖、代碼、上線部署等均可以交給GLM-4.5。

      當技術的門檻被抹平了,創意的價值將被無限放大,即使是不懂技術的普通人,也能將創意轉化為生產力。

      2、智能體競賽的邏輯即將重構,從“系統拼裝”向“模型驅動” 轉變。

      過去智能體競賽的焦點在于能否將不同的組件、工具和技術有效地集成到一起,更多依賴于工程實現,而非模型本身的創新。

      智譜示范了另一種路線,即“模型即操作系統”的路線:通過大模型能力的全面提升,減少了工程集成的復雜性。一些簡單的智能體能力,或將被基座大模型整合,但基座模型能力的增強,賦予了開發者更大的想象空間。

      3、從比拼榜單刷分到真實場景表現,大模型廠商越來越務實。

      GLM-4.5的基準評測成績不可謂不亮眼,讓我們印象最深刻卻是在真實場景中的表現,代表著大模型的產業落地進程。

      除了性能優化,GLM-4.5也在成本和效率上實現了突破,其中API調用價格已經低至輸入0.8元/百萬tokens,輸出2元/百萬tokens,高速版本實測生成速度超過100 tokens/秒,可以說兼顧成本效益與交互體驗。

      也讓我們有理由相信,當GLM-4.5代表的新模型不斷融合更多通用智能能力,AI“動手”的時代已經離我們越來越近,Agent正加速從實驗室走向真實場景,成為日常生活中不可或缺的一部分。

      聲明:個人原創,僅供參考

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      雷德利·斯科特回歸小熒幕,為何標志一個時代終結?

      雷德利·斯科特回歸小熒幕,為何標志一個時代終結?

      影視情報室
      2026-04-19 02:15:08
      伊萬卡大秀禿嚕了皮的膝蓋。她的膝蓋怎么會禿嚕了皮呢?

      伊萬卡大秀禿嚕了皮的膝蓋。她的膝蓋怎么會禿嚕了皮呢?

      一口娛樂
      2026-04-18 13:00:29
      一個害國害民的歷史罪人,老百姓還把他當成英雄崇拜

      一個害國害民的歷史罪人,老百姓還把他當成英雄崇拜

      小豫講故事
      2026-04-19 06:00:10
      50億保溫杯出口爆單:你以為老外愛養生,其實是中國工廠贏了

      50億保溫杯出口爆單:你以為老外愛養生,其實是中國工廠贏了

      隨遇而安之心
      2026-04-20 03:17:52
      與孔令輝分手12年,被黑人托在肩上的馬蘇,終是為自己的風流買單

      與孔令輝分手12年,被黑人托在肩上的馬蘇,終是為自己的風流買單

      情感大頭說說
      2026-04-18 21:06:00
      不愧是嫁給上海首富的美女主持人,54歲了還像30出頭的

      不愧是嫁給上海首富的美女主持人,54歲了還像30出頭的

      舊時光老師
      2026-04-19 19:08:29
      被豆包害慘了的大學生們!網友:豆包就是愚蠢且勤勞的老實人

      被豆包害慘了的大學生們!網友:豆包就是愚蠢且勤勞的老實人

      夜深愛雜談
      2025-12-02 20:51:10
      她是上海著名主持,堅守一線工作30年,如今既是大學教授也是網紅

      她是上海著名主持,堅守一線工作30年,如今既是大學教授也是網紅

      以茶帶書
      2026-04-19 16:46:39
      這跟不穿有啥區別?Rose真空上陣、穿鏤空透視,卻被中國女星搶鏡

      這跟不穿有啥區別?Rose真空上陣、穿鏤空透視,卻被中國女星搶鏡

      天天熱點見聞
      2026-04-18 08:09:59
      極端情況下,切爾西可能要靠輸給利物浦來獲得歐冠資格

      極端情況下,切爾西可能要靠輸給利物浦來獲得歐冠資格

      懂球帝
      2026-04-20 00:22:46
      性需求是人的活力來源,性需求是成年人最強大的生命力

      性需求是人的活力來源,性需求是成年人最強大的生命力

      加油丁小文
      2026-04-03 11:30:07
      新代言人火爆全球,以色列慌了

      新代言人火爆全球,以色列慌了

      俠客棧
      2026-04-18 13:14:53
      巴基斯坦總理與伊朗總統通話討論地區局勢

      巴基斯坦總理與伊朗總統通話討論地區局勢

      新華社
      2026-04-20 04:39:03
      超710億!廣東這條“堵王”高速,即將全面改擴建,最寬12車道!

      超710億!廣東這條“堵王”高速,即將全面改擴建,最寬12車道!

      娛樂圈見解說
      2026-04-18 14:54:03
      停止焦慮最好的辦法,不是讀書,不是運動,而是……

      停止焦慮最好的辦法,不是讀書,不是運動,而是……

      壹心理
      2026-04-19 11:03:36
      抵京!首鋼新外援威廉姆斯:我是全能型,會去做球隊要求的一切

      抵京!首鋼新外援威廉姆斯:我是全能型,會去做球隊要求的一切

      懂球帝
      2026-04-19 22:36:59
      古斯塔沃傷病疑云!兩次稱病缺席,媒體人:降薪后欠薪落差太大

      古斯塔沃傷病疑云!兩次稱病缺席,媒體人:降薪后欠薪落差太大

      奧拜爾
      2026-04-19 13:40:33
      韓國一美女因晨跑健身“走紅”,身材緊致太吸睛,網友:太漂亮了

      韓國一美女因晨跑健身“走紅”,身材緊致太吸睛,網友:太漂亮了

      馬拉松跑步健身
      2026-04-19 06:30:13
      蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

      蘇州一對情侶,談了7年,女子提了18次分手,分手后在街頭痛哭!

      川渝視覺
      2026-04-17 22:13:14
      震驚!蘇州一公司全員放假61天,聲稱業務停滯停工,鼓勵員工離職

      震驚!蘇州一公司全員放假61天,聲稱業務停滯停工,鼓勵員工離職

      火山詩話
      2026-04-19 15:02:27
      2026-04-20 05:40:49
      Alter聊科技 incentive-icons
      Alter聊科技
      探究產業興衰,專注商業解讀。
      1499文章數 168126關注度
      往期回顧 全部

      科技要聞

      50分26秒破人類紀錄!300臺機器人狂飆半馬

      頭條要聞

      特朗普:美艦武力攔截伊朗貨船 在機艙炸出一個洞

      頭條要聞

      特朗普:美艦武力攔截伊朗貨船 在機艙炸出一個洞

      體育要聞

      湖人1比0火箭:老詹比烏度卡像教練

      娛樂要聞

      何潤東漲粉百萬!內娛隔空掀桌第一人

      財經要聞

      華誼兄弟,8年虧光85億

      汽車要聞

      29分鐘大定破萬 極氪8X為什么這么多人買?

      態度原創

      教育
      家居
      手機
      公開課
      軍事航空

      教育要聞

      南昌縣全民閱讀活動在斗柏路小學開展

      家居要聞

      法式線條 時光靜淌

      手機要聞

      8.8英寸小鋼炮!REDMI K Pad 2核心配置揭曉

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗逼退美掃雷艇:美方求給15分鐘撤退

      無障礙瀏覽 進入關懷版