網易首頁 > 網易號 > 正文申請入駐

中科大團隊發現工具調用背后的硬件成本真相

2026-04-15 22:16:42　來源: 科技行者

北京舉報

分享至

要說現在最熱門的人工智能話題，大語言模型絕對算一個。而在這個領域里，有一個特別有趣的現象：這些AI不僅會聊天，還學會了使用各種工具——比如調用搜索引擎查資料、運行代碼計算數字，甚至訪問網頁獲取最新信息。就像一個聰明的助手，不僅腦子靈活，手也很巧。

不過，最近中國科學技術大學的研究團隊發現了一個被大家忽略的問題：當AI使用這些工具時，背后的計算成本遠比我們想象的要復雜。這項研究發表于2026年4月的arXiv預印本平臺，論文編號為arXiv:2604.05404v1，為我們揭開了工具集成推理效率評估的神秘面紗。

想象一下這樣的場景：你請一個很聰明的朋友幫你解決數學題。這個朋友不僅要在腦子里思考，還要時不時拿出計算器按幾下，或者翻翻參考書查資料。表面上看，朋友解題的速度可能很快，但如果我們仔細觀察就會發現，每次他停下來使用工具時，都會打斷思考的連續性，而且每次重新開始思考時，都需要重新回憶之前的思路和已經獲得的信息。

這正是研究團隊發現的核心問題。在AI領域，這種現象被稱為"工具集成推理"。當AI模型需要調用外部工具時，就像那個朋友停下來用計算器一樣，AI的"思考過程"會被中斷。更關鍵的是，每次中斷后重新開始時，AI需要重新加載之前的所有信息到內存中，這就好比朋友每次用完計算器后都要重新翻看之前的草稿紙，回憶整個解題過程。

研究團隊用一個巧妙的比喻來解釋這個問題：就像烹飪一樣。傳統的AI推理過程就像一個廚師在灶臺前連續烹飪一道菜，動作流暢，效率很高。但工具集成推理就像廚師要在烹飪過程中不斷停下來去冰箱拿食材，每次回來都要重新熱鍋，重新適應烹飪節奏。看起來只是增加了幾個步驟，但實際的時間和能源消耗卻大大增加了。

更有意思的是，研究團隊發現現有的效率評估方法就像用"食材重量"來衡量烹飪的復雜程度一樣不準確。傳統方法只是簡單地數AI生成了多少個字，或者調用了多少次工具，就像只看廚師用了多少斤肉、多少顆菜一樣。但實際上，真正耗費成本的是那些看不見的過程：重新熱鍋、重新整理工具、重新找回烹飪狀態。

為了解決這個問題，中科大團隊提出了一個叫做"預填充token等價"（PTE）的新指標。這個指標就像一個精明的餐廳老板，不僅要算食材成本，還要算燃氣費、廚師的時間成本，甚至連重新熱鍋浪費的能源都要計算在內。這樣算出來的"真實成本"才能反映一道菜到底有多"貴"。

具體來說，PTE指標考慮了兩個關鍵因素：一個是AI"思考"時的計算成本，就像廚師切菜、配料時需要的技巧和時間；另一個是AI"回憶"時的內存成本，就像廚師每次停頓后重新整理思路需要的時間。研究團隊發現，當AI調用的工具返回很長的信息時，第二種成本會急劇上升，就像廚師的工作臺越來越亂，每次重新開始都要花更多時間整理。

研究團隊為了驗證他們的發現，就像一個嚴謹的實驗室做了大量的對比實驗。他們測試了從7億參數到235億參數的各種AI模型，涵蓋了數學推理、編程計算、信息檢索等多個領域的任務。結果令人驚訝：同樣能得到正確答案的不同模型，計算成本竟然能相差幾十倍甚至上百倍。這就好比兩個廚師都能做出美味的菜，但一個用了一個小時和十度電，另一個卻用了十個小時和一百度電。

更有趣的是，研究團隊還發現了四種典型的"效率陷阱"，就像烹飪中常見的浪費現象。第一種叫"確認式工具使用"，就像廚師已經知道菜熟了，但還要用溫度計再測一次，純屬多余。第二種叫"工具混用"，就像做一道菜時既用燃氣灶又用電磁爐，看起來很專業，實際上浪費時間。第三種叫"缺乏工具先驗知識"，就像廚師拿到一個新工具不知道怎么用，折騰半天才搞明白。第四種叫"工具格式崩潰"，就像廚師按錯了微波爐的按鈕，結果什么都沒加熱成功。

通過深入分析這些現象，研究團隊得出了一個重要結論：那些計算成本高的AI推理過程，往往也更容易出錯。這就像一個經驗法則：越復雜、越折騰的烹飪過程，往往越容易把菜做糊。簡單高效的方法不僅節省成本，通常也能得到更好的結果。

研究團隊的發現對整個AI行業都有重要意義。目前的AI評估就像餐廳只看菜品好不好吃，不考慮制作成本，這在實際應用中顯然是不夠的。特別是在大規模商業應用中，效率成本往往決定了技術是否具有實用價值。一個看起來很厲害但成本極高的AI系統，就像一道需要米其林大廚花一整天制作的家常菜，雖然美味但缺乏實用性。

這項研究還揭示了一個有趣的現象：那些號稱具有"思考"能力的AI模型在處理復雜任務時確實表現更好，但在簡單任務上卻可能過度浪費資源。這就像讓一個頂級廚師去煮白米飯，雖然技藝精湛，但可能會過度復雜化這個簡單過程，反而不如普通廚師來得高效實用。

研究團隊還發現了一個重要規律：AI使用工具的效率很大程度上取決于它對這些工具的"熟悉程度"。就像廚師對自己常用的工具得心應手，但面對陌生工具時就會手忙腳亂。這提示我們，在訓練AI時，不僅要教它推理能力，還要讓它充分熟悉各種工具的使用方法。

為了讓這些發現更具實用價值，研究團隊還開發了一套完整的評估框架，并計劃開源給學術界和工業界使用。這套框架就像一個精密的成本計算器，能夠準確評估不同AI方案的真實效率，幫助開發者在性能和成本之間找到最佳平衡點。

從更宏觀的角度來看，這項研究揭示了AI發展過程中的一個重要趨勢：簡單粗暴的性能指標已經不足以指導技術發展，我們需要更精細、更全面的評估體系。就像評判一個餐廳不能只看菜品口味，還要看服務效率、成本控制、能源消耗等多個維度一樣，評估AI系統也需要綜合考慮準確性、效率、可持續性等多個因素。

這個發現對普通用戶也有實際意義。當我們使用各種AI服務時，那些響應快速、成本低廉的服務往往背后有著更優秀的效率設計。而那些功能強大但運行緩慢的AI服務，可能就存在著類似研究中發現的效率問題。了解這些原理，可以幫助我們更好地選擇和使用AI工具。

研究團隊的工作還為未來的AI發展指明了一個重要方向：在追求更強大功能的同時，必須重視效率優化。這不僅關乎成本控制，更關乎AI技術的可持續發展。畢竟，一個需要消耗巨額電力和計算資源的AI系統，即使功能再強大，也難以大規模普及應用。

最終，這項研究告訴我們一個樸素的道理：在AI的世界里，聰明不僅體現在能力上，更體現在效率上。就像最好的廚師不僅能做出美味的菜肴，更能在最短時間內用最少資源達到最佳效果一樣，最優秀的AI系統應該在保證性能的前提下，實現資源的最優配置。這不僅是技術挑戰，更是AI走向實用化的必經之路。

Q&A

Q1：PTE指標是什么，為什么比傳統指標更準確？

A：PTE（預填充token等價）是中科大團隊提出的新效率指標，就像精明餐廳老板不僅算食材成本，還算燃氣費和廚師時間成本一樣。它考慮了AI思考時的計算成本和回憶時的內存成本，比傳統的簡單計數方法更能反映真實的硬件消耗。

Q2：工具集成推理中的四種效率陷阱是什么？

A：四種陷阱分別是：確認式工具使用（明知答案還要工具驗證）、工具混用（不必要地混合使用多種工具）、缺乏工具先驗知識（不熟悉工具使用方法）、工具格式崩潰（工具調用格式錯誤）。這些都會大大增加計算成本而不帶來實際價值。

Q3：這項研究對普通AI用戶有什么實際意義？

A：這項研究幫助我們理解為什么有些AI服務響應快速成本低廉，而有些功能強大卻運行緩慢。了解效率原理可以幫助我們更好地選擇AI工具，同時這項研究也推動了整個行業向更高效、更可持續的方向發展。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.