<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<cite id="erw81"><track id="erw81"></track></cite>

<sup id="erw81"></sup>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

20個企業級案例揭示Agent落地真相：閉源模型吃掉85%，手搓代碼替代LangChain

2025-12-10 19:46:32　來源: 硅基觀察Pro

北京舉報

0

分享至

加州大學伯克利分校（UC Berkeley）剛剛發布了一份重磅論文：《Measuring Agents in Production》。

論文地址：https://arxiv.org/pdf/2512.04123

這份論文，基于來自全球的真實請求：306名從業者深度調研，20個企業級部署案例，覆蓋 26 個行業。

這是AI Agent 領域，迄今最大規模的實證研究。

最核心的三個信息：

生產力提升是Agent 落地的第一推動力；

閉源模型、人工Prompt 和受控流程是當前的“通行公式”；

可靠性是最大的攔路虎，人工審核依然不可或缺；

這份報告信息非常多，容我慢慢道來。

73%為生產力買單，金融成Agent 第一戰場

先說一個數字：

73%的從業者表示，部署Agent的首要目的是“提高生產力”。

其他的動機也非常務實：63.6%是為了減少人工工時，50% 是為了自動化常規勞動。

形成對比的是，那些難以量化的質性收益，如“風險規避”(12.1%)和“加速故障響應”(18.2%)，排名則相對靠后。

也就是說，Agent 的落地，優先于那些能帶來直接、可量化回報的場景，那些價值難以估量的質性改進，目前還得往后稍稍。

從應用場景看，Agent早已走出寫代碼或聊天機器人，深入到了更嚴肅的商業流程中。

其中，金融與銀行業是第一大戰場，占比39.1% 其次是科技（24.6%）和企業服務（23.2%）。

除了這些，Agent 還在很多意想不到的地方落地：

保險理賠流程自動化：代理人負責處理從保單查詢到風險識別的序列排序流程。

生物醫學工作流自動化：在科學發現領域，Agent 用于自動化執行復雜的實驗和數據分析流程。

企業內部運營支持：涵蓋人力資源信息搜索、站點故障事件診斷等多個方面。

這些跨行業的成功案例證明，AI Agent已經具備解決真實世界復雜問題的能力，并正在創造切實的商業價值。

在實際業務場景里，Agent 目前的角色，更像是人類的“超級實習生”。

92.5%的Agent 直接服務于人類用戶，其中52.2%是服務于企業內部員工。

為什么大部分是內部員工在用？因為在組織內部，錯誤后果可控，而且隨時有人盯著。只有7.5%的Agent 是服務于其他軟件系統的，Agent 之間的全自動交互還很遙遠。

與很多想象的不一樣，Agent的響應速度并不是客戶最先考慮的問題。在生產環境中，66%的系統允許分鐘級甚至更長的響應時間。

原因很簡單：相比于人類完成任務需要的數小時或數天，Agent 花幾分鐘仍然是巨大的效率提升。這意味著，開發團隊可以將重心放在提升輸出的質量和可靠性上，而不是犧牲能力去追求極限的低延遲。

生產級Agent 的“極簡主義”：拒絕微調，死磕 Prompt

與學術界對復雜自主Agent的探索形成對比，生產級AI Agent的構建哲學是“大道至簡”。

從業者優先選擇簡單、可控、可維護的技術路徑，以最大程度地系統的可靠性。這種務實的工程選擇貫穿于模型選型、技術實現、核心架構和框架使用的方方面面。

在模型選擇上，閉源是絕對主流。

在20個深度案例中，85%（17個）使用了閉源模型 Anthropic 的 Claude 系列和 OpenAI 的 GPT 系列是首選。

選擇閉源的核心邏輯是效率。對于輔助專家（如醫生、高級工程師）的Agent來說，推理成本相比人力成本幾乎可以忽略不計，因此團隊傾向于選擇最強的模型。

開源模型更多被認為是特定場景下的補充。只要在滿足嚴格約束條件時，團隊才會選擇開源模型，一般來說兩種情況比較常見：

成本效益：對于需要大規模、高推理的場景，自托管開源模型的成本優勢凸顯。

數據隱私：受法規或企業政策限制，當敏感數據無法突破外接環境時，開源模型成為唯一選擇。

與模型選擇一樣，從業者在技術路徑上也傾向于更簡單、迭代更快的方法：拒絕微調，死磕Prompt。

學術界熱衷的微調（Fine-tuning）和強化學習（RL），在實際應用場景里極少使用。其中70%的案例直接使用現成模型，完全不進行權重微調。

大家的精力都花哪了？花在寫Prompt 上。

78%的系統采用全手動或手動+AI 輔助的方式構建 Prompt 生產環境的。Prompt 可能會非常長，12%的Prompt超過了10,000個Token。

這也說明，從業者更相信自己手寫的規則，而不是自動優化工具（如DSPy）。

為了降低Agent的不可控性，生產級Agent的自主性被嚴格限制在可控范圍內。

68%的系統在需要人工干預前，執行步驟不超過10步，甚至有47%的系統少于5步。

為什么要限制？主要有三個原因：

保證可靠性：步數越多，錯誤越容易累積；

控制成本：API 調用不是免費的；

控制延遲：每多一步，用戶就得多等一會；

所以，80%的案例采用了預定義的靜態工作流比如一個保險Agent，它的流程是固定的：查詢保障 -> 審查必要性 -> 識別風險。 Agent只能在已有的流程里做決定，不能自己發明新的步驟。

另一個比較有意思的現象是，在問卷調查里，60%的人說愿意用第三方框架（LangChain 等），但在實際案例里，85%的團隊選擇完全自研，直接調模型API。

為什么？為了減少依賴臃腫（dependency bloat），為了獲得對系統的完全控制權。

這種對定制化解決方案的強烈偏好揭示了企業級Agent系統的一個關鍵成熟度指標：從通用框架向深度集成、定制定制的編排引擎演進，使得這些系統正成為關鍵任務基礎，需要現有工具無法提供的控制水平。

學術榜單“失靈”，75% 的團隊放棄基準測試

基準測試幾乎沒有任何參考價值。

其中，75%的團隊完全不使用基準測試。因為每個企業的業務都太特殊了，公開的學術榜單毫無參考價值。

剩下25%的團隊，選擇從零開始構建自己的自定義基準。

在這種情況下，人工循環驗證（Human-in-the-loop）是主導的評估方法，被74.2%的從業者采用。

在開發階段，領域專家直接審查和驗證系統輸出的正確性、安全性和可靠性。比如，醫療專家逐一驗證醫療保健代理生成的診斷建議，是否符合臨床標準。

在運行階段，人類作為最終決策者，基于Agent提供的建議和分析采取的行動，充當最后一個安全護欄。比如，站點修復工程師根據代理生成的故障分析報告，最終決定執行哪些修復操作。

還有另一種評估方法：自動化評估（LLM-as-a-Judge）。其典型工作流程如下：

1. Agent生成一個輸出。

2.一個“裁判”LLM對輸出進行評估，并給出一個置信度分數。

3.高分輸出被自動接受，低分輸出則被路由給人類專家進行審查。

4.同時，專家會定期進行饑餓檢查那些被自動接受的高分輸出，以監控“裁判”LLM的表現，形成一個人類持續布局的閉環反饋。

雖然這種方法也有很多人在用，但沒人敢完全信任它。

51.6%的團隊使用了LLM 當裁判，但所有這些團隊都結合了人工驗證。一個典型的做法是：LLM 給個分，高分的自動通過，低分的轉人工；同時人工還會定期抽查高分樣本。

/ 04 /

核心挑戰：可靠性，可靠性，還是可靠性

可靠性是頭號大敵37.9% 的人把“核心技術問題”（可靠性、魯棒性）列為頭號挑戰，遠超合規性（17.2%）和治理問題（3.4%）。

為什么這么難？

基準難建：數據稀缺、成本高昂、高度定制化；

測試難做：Agent 的非確定性讓傳統的單元測試失效了；

反饋太慢：很多時候，你不知道Agent 錯了，結果直到幾個月后才出現；

與可靠性相比，安全與合規性問題被認為是次要問題。原因是，它們通常可以通過“約束設計”解決。常見的“約束設計”有以下四種：

1.復雜修改操作：嚴格限制Agent只能讀取數據，界面允許其生產環境的狀態。例如，一個站點可靠性（SRE）Agent可以分析日志并生成報告，但最終的修復操作必須由人類工程師執行。

2.沙盒環境：將Agent部署在與生產系統隔離的沙盒環境中。Agent在沙盒內生成并測試代碼或配置變更，只有在通過所有驗證后，結果才會被同步到生產系統。

3.限制抽象層：在Agent和生產工具之間構建一個API封裝層。這個抽象層只公開必要的功能，并隱藏了內部實現的細節，了Agent的潛在破壞范圍。

4.控制：嘗試讓Agent繼承發起請求的用戶的訪問權限。然而，實踐表明這仍然是一個挑戰，因為Agent在調用工具時可能會繞過或遇到與用戶權限不一致的細粒度控制。

/ 04 /

總結：約束性部署的勝利

這份報告揭示了一個核心悖論：

可靠性明明是最大挑戰，為什么這些系統還能上線？

答案是：“約束性部署”（Constrained Deployment）。實現“約束性部署”的具體模式包括：

環境約束：將Agent部署于復雜模式、內部網絡或與生產隔離的沙盒環境中，從源頭上杜絕了Agent對關鍵系統的直接破壞風險。

自主性約束：將Agent的行為限定在少于10個步驟的構成、預定義工作流程內，避免了因長期自主探索而導致的不可預測行為和錯誤累積。

人工：監督將專家安置決策回路的關鍵節點，設置成為代理輸出的最終驗證者和執行者，構成了最后一個、也是人類最加固的一個安全防線。

另一個重要的啟示是，僅利用現有的前沿大模型和相對簡單的提示工程技術，就足以在超過26個不同行業中創造出可觀的、可量化的商業價值。

這意味著，企業不用等AGI，就能通過實際將現有技術確定明確的、提升范圍可控的業務問題，就能夠獲得顯著的生產力。

文/林白

PS：如果你對AI大模型領域有獨特的看法，歡迎掃碼加入我們的大模型交流群。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

大模型最難的AI Infra，用Vibe Coding搞定

機器之心Pro 2026-01-07 15:33:06
0 跟貼 0
這家好萊塢公司提供了全新的影視工業AI解決方案

鈦媒體APP 2025-11-11 17:25:10
0 跟貼 0

2025人工智能發展現狀報告：超級智能與中美大模型PK，限制與超越 | 企服國際觀察

鈦媒體APP 2026-01-12 13:32:15
0 跟貼 0

讓兩個大模型在線吵架，跑通全網95%科研代碼｜深勢Deploy-Master

機器之心Pro 2026-01-09 14:22:47
0 跟貼 0
@CEO，你的下一個私人助理何必是人類

量子位 2025-09-17 12:14:47
0 跟貼 0

中國AI Agent產業化參考范本：斑馬口語攻克的四大技術難關

機器之心Pro 2025-11-18 14:12:50
0 跟貼 0

為什么是這10個詞，定義了2025年AI敘事

鈦媒體APP 2025-12-31 07:59:09
1 跟貼 1
AI 超級公司進化論：從技術突破到商業落地

鈦媒體APP 2025-12-02 19:06:25
0 跟貼 0

JarvisEvo 如何讓 Agent 像人類一樣擁有「視覺反思」能力？

機器之心Pro 2025-12-24 14:52:46
0 跟貼 0
姚順雨對著唐杰楊植麟林俊旸貼大臉開講！基模四杰中關村論英雄

量子位 2026-01-11 11:04:48
0 跟貼 0
智能體卷王誕生！干活自動配結項報告，1.5張截圖就把事說清了

量子位 2026-01-10 14:38:21
2 跟貼 2
CES 2026 觀察｜從“秀肌肉”到“干臟活”，中國機器人率先走入“實干時代” 軟硬協同仍是業界的共同挑戰

每日經濟新聞 2026-01-12 22:01:07
0 跟貼 0
拒絕智能手機，炮轟ChatGPT，沒有他就沒有今天的互聯網

DeepTech深科技 2025-12-26 18:07:26
0 跟貼 0
矩陣超智發布新一代人形機器人MATRIX-3，定義物理智能機器人新標桿 | 公司動態

鈦媒體APP 2026-01-12 21:39:09
0 跟貼 0
成本0.3美元，耗時26分鐘！CudaForge：顛覆性低成本CUDA優化框架

機器之心Pro 2025-11-17 18:45:03
0 跟貼 0
國乒新年首站男女單均丟冠:女隊可原諒男隊形勢嚴峻

文匯報 2026-01-12 11:12:10
2174 跟貼 2174
我們可能沒有技術，但我們會抄啊

萌哥電影 2026-01-09 17:59:23
1 跟貼 1
大姐給小瓶分裝梨膏，手工操作氣定神閑，真正的技術一滴不漏！

公干的搞笑社 2026-01-11 09:41:44
1 跟貼 1
仿造發明機器，卻加大員工難度，最核心的技術沒學到手

海星旅行 2026-01-12 09:43:40
0 跟貼 0
一路向南，告別Z99次列車！

新民晚報 2026-01-12 13:23:24
341 跟貼 341
反轉了！居然全是演的！視頻已清空

洪觀新聞 2026-01-12 11:16:01
383 跟貼 383
風雨交加，大窗戶吹下來了。高層住宅落地窗設計應充分考慮安全性

河南之聲 2026-01-11 10:36:50
0 跟貼 0
字節、阿里、美團罕見“會師”：自變量機器人獲10億元融資 2026年具身智競爭轉向

每日經濟新聞 2026-01-12 21:30:28
1 跟貼 1
大模型進入萬億參數時代，超節點是唯一“解”么？丨ToB產業觀察

鈦媒體APP 2025-08-08 17:47:40
0 跟貼 0
南方路機：南方路機目前已接入DeepSeek大模型

每日經濟新聞 2026-01-12 23:15:06
0 跟貼 0
嵐靈花鳥市場4月10日關閉！外面多個場地來搶商戶，市民今后去哪買花鳥魚蟲還是未知數

隨申Hi 2026-01-12 16:41:11
33 跟貼 33
港股“大模型雙雄”首周開門紅！智譜最高漲超60%、MiniMax市值破千億

財聯社 2026-01-12 23:42:09
0 跟貼 0
確認了：浙江有望新增兩所大學教育部正在公示

浙江發布 2026-01-12 20:38:02
62 跟貼 62
預售價31.3萬起智能化動力全面迭代升級全新奧迪Q5L值得期待？

天天汽車 2026-01-11 08:00:00
0 跟貼 0
設計聯十四年了：從好看，到好用，到可被未來調用

設計聯 2026-01-11 19:29:17
0 跟貼 0
“電腦不賣、貨架不賣、電視不賣”，即將關閉的宜家門店多個貨架售罄，客服稱不再補貨

洪觀新聞 2026-01-12 15:51:02
360 跟貼 360
特斯拉有多劣質，b柱被輕松撞斷，安全性令人擔憂

阿酞侃生活 2026-01-12 13:58:39
0 跟貼 0
熱搜爆了！iOS微信通知能顯頭像，你更新體驗了嗎

雷科技 2026-01-12 22:44:52
0 跟貼 0
監控下拍到一幕，大哥10秒側方停車，技術好壞一目了然！

豆豆尬笑 2026-01-12 09:37:05
4 跟貼 4
國產車企警惕！特斯拉FSD即將入華，技術代差恐進一步拉大

燕梳樓頻道 2026-01-12 21:14:25
2 跟貼 2
垃圾進垃圾出，大模型刷多了垃圾推文，智商驟降還變自戀狂

機器之心Pro 2025-10-24 18:51:47
0 跟貼 0
溫州晉級“萬億GDP俱樂部”背后：已連超徐州大連唐山

中國經營報 2026-01-12 18:39:15
74 跟貼 74
雜技團的小姐姐，居然可以做到懸浮唱歌，這技術絕對不是吹的

萌力暴擊 2026-01-11 10:17:47
1 跟貼 1
歐爾班：向烏撥款8000億歐元？“我們拒絕！”

參考消息 2026-01-12 10:09:04
651 跟貼 651
國產新型航母模型疑曝光！舷號19清晰可見，卻有3大疑點？

儒雅隨和老泰勒 2026-01-12 16:49:53
0 跟貼 0

“四九”可能成為今年最冷的“九”：本周末起，一股強冷空氣將制造大范圍降溫，還可能激發較大范圍雨雪天氣

“四九”可能成為今年最冷的“九”：本周末起，一股強冷空氣將制造大范圍降溫，還可能激發較大范圍雨雪天氣

魯中晨報

2026-01-12 19:09:16

吃飯七分飽被推翻了？醫生：過了75歲，吃飯盡量要做到這6點

吃飯七分飽被推翻了？醫生：過了75歲，吃飯盡量要做到這6點

健康科普365

2026-01-12 12:05:08

一位老人感嘆：人沒必要活得太長壽。60歲走，太年輕；70歲走，有點早；80歲去世，剛好合適。

一位老人感嘆：人沒必要活得太長壽。60歲走，太年輕；70歲走，有點早；80歲去世，剛好合適。

二胡的歲月如歌

2026-01-12 18:27:06

美日都沒能攔住！鄭麗文當眾立誓，臺當局：我們絕不會向大陸投降

美日都沒能攔住！鄭麗文當眾立誓，臺當局：我們絕不會向大陸投降

男女那點事兒兒

2026-01-13 00:20:15

西楚霸王項羽麾下15位重要將領及結局：1龍且，2鐘離昧，3英布

西楚霸王項羽麾下15位重要將領及結局：1龍且，2鐘離昧，3英布

鶴羽說個事

2026-01-12 11:46:44

美記者爆料：德艦過臺海遭中方電磁壓制，電子設備全癱瘓只能盲航

美記者爆料：德艦過臺海遭中方電磁壓制，電子設備全癱瘓只能盲航

羅富強說

2026-01-12 17:12:01

中國賺錢美國花？老戲骨祖孫三代在美奢華享樂過上“人上人”生活

中國賺錢美國花？老戲骨祖孫三代在美奢華享樂過上“人上人”生活

古事尋蹤記

2026-01-08 07:10:52

陳偉霆兒子滿月照曝光！全身發紫胳膊上有包，長相公開更像父親

陳偉霆兒子滿月照曝光！全身發紫胳膊上有包，長相公開更像父親

陳意小可愛

2026-01-12 07:02:56

人民幣現金收付新規！2月起實施！

人民幣現金收付新規！2月起實施！

我愛大招遠

2026-01-12 17:50:26

多家存儲封測廠漲價：漲幅約三成后續不排除啟動第二波漲價

多家存儲封測廠漲價：漲幅約三成后續不排除啟動第二波漲價

財聯社

2026-01-12 09:18:10

三連敗！火箭掉到附加賽區，事實證明火箭五大策略徹底宣告失敗！

三連敗！火箭掉到附加賽區，事實證明火箭五大策略徹底宣告失敗！

田先生籃球

2026-01-12 13:53:35

澳網官宣：周杰倫參加“一球制勝”賽若奪冠將捐出百萬獎金

澳網官宣：周杰倫參加“一球制勝”賽若奪冠將捐出百萬獎金

醉臥浮生

2026-01-12 15:57:06

俄羅斯榛樹導彈故意不裝彈頭，烏方承認：雷達完全失效，看不見

俄羅斯榛樹導彈故意不裝彈頭，烏方承認：雷達完全失效，看不見

科普100克克

2026-01-11 11:44:23

河北一所大學破產！

新牛城

2026-01-12 10:01:15

2場0勝！曝41歲曼聯救火教練6天便下課，周一官宣新帥：索肖出局

2場0勝！曝41歲曼聯救火教練6天便下課，周一官宣新帥：索肖出局

我愛英超

2026-01-12 07:14:35

手戴1000多萬名表，坐擁3.6億私人飛機，“滬上皇”秦奮啥來頭？

手戴1000多萬名表，坐擁3.6億私人飛機，“滬上皇”秦奮啥來頭？

小熊侃史

2026-01-12 07:40:07

邵佳一：德國人的嚴謹對我影響很大，在1860降級給我上了一課

邵佳一：德國人的嚴謹對我影響很大，在1860降級給我上了一課

懂球帝

2026-01-12 20:25:15

如果俄羅斯想要格陵蘭島，美國會幫丹麥抵抗，但現在是美國想要

如果俄羅斯想要格陵蘭島，美國會幫丹麥抵抗，但現在是美國想要

Ck的蜜糖

2026-01-13 00:49:43

任素汐還在演戲，但沒人敢用她，觀眾記住了她的臉也記住了她的事

任素汐還在演戲，但沒人敢用她，觀眾記住了她的臉也記住了她的事

可樂談情感

2026-01-13 00:37:13

誰能終止上海連勝，接下來五場比賽的對手，會給出想要的答案

誰能終止上海連勝，接下來五場比賽的對手，會給出想要的答案

章民解說體育

2026-01-13 00:25:57

硅基觀察Pro

人工智能新時代的商業智庫和價值燈塔

789文章數 57關注度

往期回顧全部

科技要聞

面對SpaceX瘋狂“下餃子” 中國正面接招

頭條要聞

日媒:高市連續兩日閉門不出不回應媒體采訪請求

頭條要聞

日媒:高市連續兩日閉門不出不回應媒體采訪請求

體育要聞

一場安東尼奧式勝利，給中國足球帶來驚喜

娛樂要聞

蔡少芬結婚18周年，與張晉過二人世界

財經要聞

倍輕松信披迷霧實控人占用資金金額存疑

汽車要聞

增配不加價北京現代第五代勝達2026款上市

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

房產

旅游

教育

時尚

藝術要聞

開工！美肌全球總部基地“云灣美谷”，效果圖公布

房產要聞

重磅調規！417畝商改住+教育地塊！海口西海岸又要爆發！

旅游要聞

“在德昌康養”成為向往四川德昌以海花溝“熱”帶動鄉村振興

教育要聞

高考地理中的斷層線與不整合面

看了日本主婦的搭配才明白，年紀大了這么穿，優雅又不油膩

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：成人黃色A片免费看三更小说| 亚洲五月婷婷久久综合| 99精产国品一二三产区| 国产老妇伦国产熟女老妇高清 | 无码国产精品一区二区免费式影视| 国产精品美女一区二三区| 会泽县| 亚洲视频在线观看一区二区三| 大陆一区视频观看| 欧美一区二区三区久久综合| 蜜芽久久人人超碰爱香蕉| 无码少妇一区二区三区免费| 久久综合干| 少妇扒开双腿让我看个够| 人妻无码一区二区三区四区| 中文字幕乱码人妻无码久久| av无码免费一区二区三区| 精品人妻二区中文字幕| 欧美巨大巨粗黑人性aaaaaa| 91免费在线| 日韩中文字幕一区二区| 国产精品成| aⅴ久久欧美丝袜综合| 亚洲国产成熟视频在线多多| 色综合色国产热无码一| 亚洲无码成人| 中文有码亚洲制服av片| 一本大道东京热无码视频 | 国产主播一区二区三区| 亚洲精品成人片在线观看精品字幕| 精品人妻无码一区二区色欲产成人| 免费情侣作爱视频| 成人国产一区二区三区| 精品久久久久久无码中文字幕一区 | 午夜亚洲aⅴ无码高潮片苍井空| 伊人久久精品久久亚洲一区| 日本在线观看| 亚洲欧美清纯校园另类| 91热| 成人影片在线观看网站18| 一区777|

<blockquote id="hw7tj"></blockquote>

<sub id="hw7tj"></sub>

<sub id="hw7tj"></sub>