11月17日,第47期AIR學術沙龍如期舉行。本期活動榮幸邀請到了伯克利前沿基金科技顧問芮勇博士,為清華師生帶來一場題為《AI Agent在現實世界的落地:從概念框架到實踐演化》的深度分享。
![]()
講者簡介
![]()
芮勇博士是全球產業界、科技界、學術界三棲領袖。是多家企業、大學、VC 的董事及顧問。現任伯克利前沿基金科技顧問,是前聯想集團全球CTO,前微軟亞洲研究院常務副院長。他創建了聯想首個 AI 實驗室,領導15000名研發工程師,是聯想智能化轉型、端側智能體、智能制造、智能柔性設備、智能數據中心的技術領導者,助力聯想市值上漲三倍。他領導微軟總部及亞太的研發團隊,為微軟的數字媒體、必應搜索、視頻會議、Azure AI Services 的多媒體化和智能化做出了重要貢獻。他是歐洲科學院及加拿大工程院外籍院士,是 Fellow of ACM/IEEE/AAAS/IAPR/SPIE. 他是清華、北大、中科院客座教授,清華企業家協會成員。是全球多媒體期刊 IEEE Multimedia Magazine 首任華人主編。
報告內容
在人工智能快速演進的時代,我們越來越關心一個核心問題:AI Agent 如何真正走向現實世界,成為能夠“落地”的智能體?兩千多年前,屈原在《天問》中提出百余個問題,后人將其總結為“九問”。今天,我們站在人工智能第三次浪潮的中心,芮勇博士同樣以“九問”之名,向 AI Agent 的未來提出九個重要的問題。這九個問題將從大模型的局限性與 Agent 的必然性、從概念框架走向可落地的 Agent以及未來趨勢展望這三個方向展開。
大模型的局限性與Agent的必然性
要理解為什么 AI Agent會成為新的方向,就必須先認識大模型本身的局限。在人工智能這個詞誕生的69年里,人工智能經歷了兩次寒冬,而每一次寒冬的核心原因都是無法在真實世界落地。現在大模型固然強大,產業化也在飛速發展,但仍存在多個關鍵問題。
![]()
首先便是理解能力不足,例如:讓現有最強的大模型讀取簡單的模擬時鐘,準確率只有 39%;讀日期,只有 23%。這種人類能輕松獲取的基礎能力上的短板,暴露出模型在“理解”層面上的結構性局限。其次是存在幻覺問題,大模型會自信地說錯。人類對于自己的不確定性是有意識的,而大模型則看似篤定地給出錯誤答案。最后是缺乏真正的認知能力,例如物理直覺、因果推理、結構化認知等。模型會“照貓畫虎”地套用過去的模式,卻未真正理解背后機制。
這些問題讓我們意識到:光靠一個大模型,不足以支撐真正的智能體。我們需要給它一些列外掛,包括自我認知(Self-awareness)、記憶系統(Memory)、任務分解(Decomposition)、計劃能力(Planning)、與環境互動的感知(Perception)和工具與知識庫的調度能力(Tool-use)。
Agent 的出現,正是為了解決這些“大模型做不到的問題”。
![]()
然而,擁有一個宏觀框架是不夠的,更重要的是:如何真正把 Agent 做出來?
接下來,芮勇博士將對AI Agent的落地和發展進行深刻思考,提出九個重要的問題。
第一問:控制論能否啟發AI Agent的設計?
芮勇博士首先提出“第一個問題”:控制論在過去半個多世紀取得巨大成功,其中的思維方式與體系結構,是否能夠啟發我們今天設計 AI Agents?
![]()
芮勇博士指出,控制論中的經典框架包括:前置控制器(Controller),后置反饋系(Feedback)和被控對象(Plant),而這套結構與當前LLM Agent 架構之間存在高度相似性。
首先前饋控制器對應prompt優化,讓大模型輸出更準確、更穩定、更可控。例如在數學推理和具身智能的任務中,未加入前饋控制器的情況下,大模型直接接收任務,輸出質量往往不穩定,出現遺漏步驟、產生偏差等問題。如果在前面加入一個可學習的小模型作為控制器,將任務自動分解成多個可執行步驟,再將這些結構化信息喂給大模型,則正確率會顯著提升。
![]()
其次反饋機制在 AI Agent 中同樣極為關鍵,而且目前行業已經出現明顯趨勢——由人類反饋(RLHF)向 AI 反饋(RLAIF)轉變。例如OpenAI 的CriticGPT,用 GPT-4 生成程序代碼,再用另一個 GPT-4 模型進行代碼審查。結果非常顯著,錯誤檢查效率提升 60%。系統形成了“模型糾模型”的自循環反饋,不再依賴大量人工注釋。
![]()
芮勇博士總結到,控制論思想正在重新啟發 AI Agent 的結構設計。其中大模型是被控對象,小模型作為前饋控制器使系統更穩定、更可控,反饋機制讓系統實現自我閉環。控制論的結構與 Agent 架構高度一致,啟發 AI Agent 的設計與實現。并且未來的 Agent 系統很可能沿著“前饋 + 反饋”的閉環路徑持續演化。
![]()
第二問:認知心理學能否啟發AI Agent設計?
接著,芮勇博士將關注點轉向了大模型的 記憶(Memory)機制。芮勇博士指出,當今基于 Transformer 架構的大模型在本質上存在結構性限制,缺乏真正意義上的記憶系統。這與人類認知方式存在根本差異,也可能成為未來系統能力提升的瓶頸。從而芮勇博士提出第二個問題,認知心理學能否啟發AI Agent設計?
![]()
首先,在多輪對話與長鏈任務中,AI 系統依賴不斷增長的上下文序列進行推理,導致上下文窗口迅速膨脹,從而內存與算力消耗急劇上升,推理能力顯著下降。相比之下,人類會自動對大量冗余內容進行壓縮,將過去的對話或任務歸納成簡潔的要點,從而節省工作記憶資源。芮勇博士指出,將人類這種摘要式記憶機制應用于 Agent 的短期記憶,可以顯著降低計算負擔并提升長序列任務穩定性。
![]()
接著芮勇博士指出,長期的記憶能夠讓Agent持續積累經驗,使記憶不斷迭代優化,體現出與人類學習方式高度相似的邏輯。芮勇博士以Reasoning Bank為例,說明Agent模擬人類長期記憶與工作記憶的相互作用。Reasoning Bank首先根據當前任務從長期記憶中提取最相關的內容,填充到工作記憶中。接著針對任務執行情況進行結構化總結。這些結構化結果再被更新到長期記憶,從而實現類似人類“學習—固化—提取”的循環。
![]()
芮勇博士總結到,人類認知心理學關于記憶結構與記憶流動的研究,能夠為 AI Agent 的體系化設計提供關鍵啟發。無論是短期記憶的壓縮方式,還是短期與長期記憶之間的動態交互,都將是構建更智能、更可持續進化的 Agent 系統的核心方向。
第三問:計算機網絡能否啟發AI Agent的設計?
接著,芮勇博士指出,對于支持 AI Agent 運行的“工具”體系,無論是互聯網、工具庫、應用程序,還是知識庫,大模型本身都無法直接調用這些外部對象,必須借助外掛式的工具接口。但這些工具應當如何構建?這一問題可以從計算機網絡的設計中獲得啟發。
![]()
芮勇博士指出AI Agent 如今面臨與 1990 年代互聯網相同的瓶頸,即缺乏統一協議來訪問外部服務。芮勇博士認為,Meta 的 MCP、輕量級的 Skills 以及微軟的 NLWeb,正在構建類似“Agent 時代的 HTTP”的基礎通信層,使傳統服務重新對大模型可訪問,并可能像 Mosaic 之于互聯網一樣,推動 Agent 生態產生爆發式發展。
![]()
上述三個關于科學理論如何啟發AI Agent設計的問題,芮勇博士都為我們指明了答案,其中控制論幫助解決任務分解與系統穩定性;認知心理學幫助設計短期與長期記憶機制;計算機網絡理論提供 Agent 訪問外部工具的基礎設施,推動生態爆發。
接下來芮勇博士繼續為AI Agent的開放性問題和未來發展提出深刻的思考和見解。
![]()
第四問:語言生成是否能達到人類水平的推理能力?
從 1943 年最早的神經元模型開始,人們逐步發展出人工神經網絡與深度學習體系。基于這一視角,芮勇博士指出一個耐人尋味的現象,人類大腦的新皮層中負責語言的區域,與負責推理的區域是分離的。但現代大模型僅通過預測下一 token的語言建模方式訓練,卻意外表現出一定程度的推理與思考能力。這就引出了第四個問題:僅依靠語言生成的訓練范式,是否可能通向類人級推理?這一路徑是否科學可行?
![]()
芮勇博士引用 MIT 的腦區激活實驗指出,人在進行語言表達、邏輯推理、社會推理時分別激活大腦中完全不同的區域。這些區塊功能高度區分,說明語言與推理在人類生理上并沒有共用的基礎機制。相比之下,大模型卻試圖依托“語言區域的模擬”(即純語言建模)去實現推理功能,這在生物學意義上顯得不合常理。因此,芮勇博士強調:我們仍無法確定這條路徑是否能走通,語言生成是否能真正導向人類級推理仍是一個未解之謎。
![]()
第五問:LLM和人類是否以同樣方式壓縮信息?
接著芮勇博士指出,在信息論框架下,一個流行觀點認為“智能本質上就是信息壓縮”。如果能以恰當方式壓縮世界的信息,智能便隨之涌現。于是芮勇博士提出第五個問題:大模型的壓縮方式是否與人類大腦的壓縮方式一致?
![]()
芮勇博士引用近期Yann LeCun的研究工作,提出有關“大模型壓縮對比人類大腦壓縮”的三條重要觀察。首先,外部分類高度相似,大模型在壓縮后形成的語義聚類與人類定義的概念類別有超過 90% 的一致性。其次,內部表征顯著不同,雖然分類類似,但大模型內部的表征結構與人類認知機制在細節層面存在巨大差異。最后,大模型壓縮效率更強但未必認知更優,大模型的壓縮在信噪比方面甚至優于人類,但這種壓縮方式可能并非最符合認知規律。
因此,芮勇博士強調。如果大模型的壓縮與人類截然不同,我們是否仍然走在通向真正智能的正確道路上?
![]()
第六問:統計學習是否實現真正的理解?
第六個問題聚焦于統計學習能否真正產生“理解”。芮勇博士指出,人類只需要極少的樣本就能形成概念(例如小孩看三只貓就能認識“貓”),而機器學習尤其是深度學習往往需要百萬級示例才能完成同樣任務。基于這種學習方式的根本差異,芮勇博士提出疑問:大模型依賴統計學習的范式,真的能達到真正的理解嗎?這一點目前仍然沒有答案。
![]()
第七問:LLM的Scaling Law能走多遠?
第七個問題圍繞依賴 Scaling Law 的AI能走多遠。芮勇博士指出,深度學習的發展歷程從 FCN、CNN、RNN、LSTM 到 Transformer,一路都依賴不斷設計更好的結構,因此形成了第一類觀點:繼續優化結構、尋找更合適的拓撲,是性能提升的關鍵。但另一類觀點認為:許多結構是因過去算力與數據不足被迫設計的“捷徑”;在數據與算力足夠大時,反而是更少結構、更自由的超大模型能在規模極致后超越復雜結構。問題的核心在于:未來智能的突破究竟來自結構工程,還是來自無結構模型在極端規模下的自我涌現?
![]()
第八問:預訓練對于快速演化是否必要?
芮勇博士的第八個問題討論經驗學習和進化。以圖靈獎得主 Richard Sutton 為代表的一派認為人類是“無預訓練”的,完全依靠 on-the-fly 學習,因此大模型依賴大規模預訓練是根本錯誤的方向。以 Andrej Karpathy 為代表的另一派則認為人類其實擁有經過數百萬年進化而積累的“DNA 預訓練”,而AI沒有這段漫長的演化,因此預訓練反而是必要的“快速演化捷徑”。由此芮勇博士總結到:預訓練在沒有演化時間的情況下可能是必須的,但遠遠不夠,持續學習仍然是不可替代的關鍵環節。
![]()
第九問:AGI是否需要新的架構?
最后,芮勇博士提出了“理論完備性”的終極發問:當下的大模型范式究竟只是需要若干關鍵突破與局部增強(如 memory、tool use、task decomposition)的“可修補體系”,還是像 Hinton 所說那樣在根本上走向瓶頸、必須被徹底重建?與 Hassabis 認為“或許只差一兩次突破”即可抵達 AGI 的樂觀態度形成鮮明對比,這個問題直指 AI 研究的根基——我們是在完善一座已成型的大廈,還是在面對一個需要重新設計的結構?芮勇博士坦言,答案目前無人知曉,這正是未來最值得探討的不確定性。
![]()
最后,芮勇博士總結到,回到這九個問題本身,它們其實構成了一個從實踐到趨勢、再到前沿思辨的完整結構。前三個問題給出了可落地的方法論,中間三個問題帶來了值得持續觀察的趨勢,而最后三個問題更是尚無定論的開放探索。也正因為未知,我們才不斷走向研究的邊界。
在這九個問題里,我們既看到 AI Agent發展的清晰路徑,也看到通往未來的巨大不確定性;而正是這些確定與未知,共同構成了當下最迷人的時代命題。
點擊查看完整講座視頻
AIR長期招聘人工智能領域優秀科研人員
點這里關注我們
關于AIR
清華大學智能產業研究院(Institute for AI Industry Research, Tsinghua University,英文簡稱AIR,THU)是面向第四次工業革命的國際化、智能化、產業化的校級研究機構。AIR的使命是利用人工智能技術賦能產業升級、推動社會進步。通過大學與企業創新雙引擎,突破人工智能核心技術,培養智能產業領軍人才,推動智能產業跨越式發展。
AIR于2020年由多媒體及人工智能領域的世界級科學家、企業家張亞勤院士創建。
智慧交通(AI+Transportation)、智慧物聯(AI+IoT)、智慧醫療(AI+Life Science)是清華大學智能產業研究院的三個重點研發方向。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.