![]()
在孩子的成長道路上,家長總是徘徊在兩個極端:是該雞娃式地安排好一切,讓孩子每天都在補習班和題海里打轉(zhuǎn),還是該徹底放養(yǎng),讓他們自由探索,哪怕代價可能是沉迷游戲、天天躺平?
其實大語言模型的“教育”問題也差不多。研究者在訓練和使用這些模型時,離不開提示詞。這就像一份人生劇本,告訴模型“你是誰?”“你要做什么?”“你能做到哪里?”但問題是,提示詞到底應該像家長一樣,抓得緊、管得細;還是該放手,讓它自己折騰?這就是生成式智能體模型*(Generative Agent-Based Model, GABM)面臨的最大困境。
在操作上,GABM本質(zhì)上是一個由提示(prompt)驅(qū)動的信息傳導網(wǎng)絡(luò),其運行機制依賴于作為元指令的提示,形成一個“提示→組件行為→系統(tǒng)輸出”的傳導鏈 。
為什么我們要在意這件事?因為GABM并不是冷冰冰的技術(shù)實驗,而是社會科學研究者的一個新工具。過去,學者們要研究人類行為,要么搞問卷調(diào)查,要么做小規(guī)模實驗,要么用一些抽象的數(shù)學模型來推演。成本高,限制多,還經(jīng)常被批評不夠真實。現(xiàn)在,GABM提供了一個虛擬版的社會實驗室:研究者能在電腦里創(chuàng)造出一群虛擬居民,給他們身份、記憶和目標,讓他們互相交流、合作、沖突,然后觀察會出現(xiàn)怎樣的社會現(xiàn)象。
聽起來是不是很像《模擬人生》?只不過研究者希望從中看到更嚴肅的問題:比如市場會不會出現(xiàn)價格聯(lián)盟;一個城市在疫情中會不會爆發(fā)恐慌;一個社會會不會形成極化輿論。
![]()
?本文編譯自Li, Z., & Wu, Q. (2025). Let It Go or Control It All? The Dilemma of Prompt Engineering in Generative Agent‐Based Models. System Dynamics Review, 41(3), e70008.
而這恰恰是麻煩的開始。研究者發(fā)現(xiàn),如果在提示詞里寫得太細,就像逼著虛擬學生每天學習八小時、參加三門補習班,那他們的行為軌跡幾乎注定,不會有任何意外。如果寫得太模糊,又可能變成放養(yǎng)的孩子,整天無所事事,或者做出一些完全不合邏輯的舉動。研究者最想看到的涌現(xiàn)現(xiàn)象,那些由簡單規(guī)則互動產(chǎn)生的、出乎意料又合乎情理的復雜行為,就這樣要么被劇本寫死,要么被混亂淹沒。
所以,GABM的提示詞設(shè)計,本質(zhì)上是一個關(guān)于“度”的問題。你既要給它足夠的框架,讓模擬結(jié)果不至于亂七八糟,又要給它足夠的空間,讓它能長出超出預期的行為。這也是為什么,Li and Wu (2025) 的論文會強調(diào),提示詞既可能是教育手段,也可能是緊箍咒。
為了破除這個困境,我們需要從這些虛擬居民是如何被創(chuàng)造出來開始。
![]()
身份(Profile):
你是誰,決定了你怎么看世界
在生成式智能體模型(GABM)里,“身份”是提示詞設(shè)計的第一步,也是最關(guān)鍵的一步。它決定了一個虛擬居民的角色和性格,相當于為一場戲挑選演員并寫下角色設(shè)定。沒有身份,智能體就是一張白紙;一旦身份被賦予,它就會帶著某種視角去理解世界、做出選擇。
舉個簡單的例子:如果你告訴一個虛擬學生,“你是大學里的一名普通本科生”,他可能每天隨機上課、聊天、刷視頻,行為帶有很大的不確定性。但如果你進一步規(guī)定,“你是一名立志考研的學霸,每天至少學習八小時,希望保持年級前5%的排名”,那么他的日常行為軌跡就幾乎被鎖定:圖書館、課堂、自習室三點一線,很少會有“意料之外”的行動。這就是身份設(shè)定的力量。
在學術(shù)研究中,身份的作用更為明顯。比如 Hua et al.(2023)在模擬國際關(guān)系時,把不同國家設(shè)定為虛擬智能體,賦予它們“歷史背景”“軍事能力”“外交政策”等詳細身份。這些身份就像國家的性格:如果一個國家被設(shè)定成“曾經(jīng)受過侵略,因此對安全極度敏感”,那么它在模擬中的行為更可能是謹慎、保守甚至強硬的。再比如Park ,et al.(2023)在模擬一個虛擬小鎮(zhèn)時,為居民寫下了詳細的職業(yè)、興趣和人際關(guān)系。結(jié)果,這些虛擬居民會根據(jù)設(shè)定的身份開展互動,形成相對穩(wěn)定的社交網(wǎng)絡(luò)和行為模式。
身份(Profile)組件在生成式智能體模型(GABM)中確立了模擬智能體的基本身份、內(nèi)在特征和行為傾向,是其所有行為建立的基礎(chǔ)。該組件是所有智能體行為的起點,它決定了智能體如何感知信息、做出決策以及對模擬環(huán)境中的刺激做出反應。身份通過提供一個情境背景和個性框架來指導信息的解讀與反應的生成 ,并為其他組件提供基礎(chǔ)身份信息,從而引導記憶的形成、決策過程和行為傾向。
從研究者的角度來看,身份設(shè)計是一把雙刃劍。一方面,詳細的身份能讓模擬更有現(xiàn)實感,更容易重現(xiàn)我們熟悉的社會現(xiàn)象。例如,如果我們要研究疫情下的防疫政策,就必須設(shè)定哪些居民是醫(yī)生、哪些是小商販、哪些是老人,否則模擬出來的結(jié)果很難映射到現(xiàn)實。另一方面,身份設(shè)定過于細致,就可能變成研究者寫好的劇本。虛擬居民的一舉一動,其實都在身份設(shè)定里被暗示甚至寫死了。此時,我們看到的并不是社會互動的自然涌現(xiàn),而是研究者設(shè)計的延伸*。
這種張力,正是過度控制的典型表現(xiàn)。過于模糊,模擬會失去方向;過于詳細,結(jié)果就會缺乏驚喜和復雜性。它和教育里的“雞娃”與“放養(yǎng)”何其相似:如果一個孩子的身份從小被設(shè)定為別人家的學霸,他幾乎沒有偏離軌道的自由;如果什么設(shè)定都沒有,孩子可能就會沉迷游戲、虛度光陰。
因此,研究者必須時刻警惕:我們賦予虛擬居民的身份,究竟是在幫助他們更真實地模擬人類,還是在替他們寫好了一出注定的戲?這不僅影響模擬結(jié)果的可信度,更關(guān)乎GABM作為科學方法的嚴肅性。
研究者通過三種主要方式對身份(Profile)組件進行過度控制,從而可能預先決定模擬結(jié)果 。(1)明確的角色和屬性定義 :研究者通過提示詞直接為智能體嵌入具體的角色、職業(yè)、人際關(guān)系或鮮明的個性標記 ;(2)受控的特質(zhì)分布和分配 :研究者會有意地將特定的個性特質(zhì)(如大五人格)分配給智能體,并在群體中系統(tǒng)地改變這些特質(zhì)的分布 。例如,精心設(shè)計具有“極端整合、好奇、友好和敏感”等特質(zhì)組合的智能體角色 ;(3)最后是人口統(tǒng)計、價值體系和信念框架的編碼 :這涉及根據(jù)特定的人口統(tǒng)計數(shù)據(jù)構(gòu)建智能體群體,或?qū)㈩A定義的價值體系、世界觀或意識形態(tài)立場直接嵌入智能體檔案中。
![]()
記憶(Memory):
你記得什么,決定了你能成為什么
如果身份回答了“你是誰”,那么記憶決定了“你會不會一以貫之”。一個智能體若沒有記憶,就像一條只有三秒注意力的金魚——轉(zhuǎn)個身就忘了之前發(fā)生的事,行為完全缺乏連續(xù)性。而一旦有了記憶,它才能在當下的決策中帶上過去的烙印,表現(xiàn)得更像一個真實的人。
在生成式智能體模型(GABM)中,記憶被分為兩類:短期記憶(short-term memory)和長期記憶(long-term memory)。短期記憶更像是一段對話記錄,幫助智能體保持上下文連續(xù)性。例如,一個虛擬居民在和朋友聊天時,如果沒有短期記憶,他可能一句話前說“我喜歡喝咖啡”,下一句話就問“什么是咖啡?”;有了短期記憶,他才能延續(xù)話題,表現(xiàn)出基本的邏輯一致。長期記憶則更像人生經(jīng)歷的積累,影響著身份和行為的穩(wěn)定性。比如,“你學過六年奧數(shù)”“你曾在疫情中失去親人”,這樣的長期記憶會深刻改變智能體的偏好和行動。
記憶(Memory)通過存儲、檢索和反思相關(guān)信息,使模擬智能體能夠維持行為一致性并隨時間發(fā)展演變。記憶系統(tǒng)通常包括用于處理即時上下文信息(如對話歷史)的短期記憶,以及用于存儲影響智能體身份和行為的持久性數(shù)據(jù)(如過往經(jīng)驗)的長期記憶。該組件的操作包括寫入新信息、基于相關(guān)性(如使用關(guān)鍵詞匹配或嵌入向量等技術(shù))檢索特定內(nèi)容,以及通過反思過往經(jīng)驗來提煉見解和抽象概念。
記憶組件通過篩選來自“身份”組件的信息來決定保留內(nèi)容,為“規(guī)劃”組件提供決策所需的上下文數(shù)據(jù),并在“行動”執(zhí)行期間作為維持行為一致性的參考,從而與其他組件緊密互動。研究者通過提示(prompt)來設(shè)計信息處理的架構(gòu),例如規(guī)定信息如何被存儲和構(gòu)建、設(shè)計帶有權(quán)重的檢索算法以模擬人類的提取機制、直接向智能體提供被框定為“相關(guān)記憶”的特定信息,甚至操縱記憶的深度和持久性。
日常類比:考試復習與生活片段
要理解記憶的重要性,我們不妨從生活里找類比。短期記憶,比如你收到的短信驗證碼,在輸入之后就已經(jīng)拋之腦后。長期記憶則是你童年時的經(jīng)歷,盡管過后不能逐句還原當時的場景,但這些記憶會伴隨你一生,直接或間接地影響你之后的決定。虛擬居民也是這樣:如果研究者只給他們短期記憶,他們可能只會在當下保持做出某種特定的行為,而缺乏人格上的延續(xù)性;而一旦給他們長期記憶,他們就會逐漸表現(xiàn)出性格和習慣。
案例:小鎮(zhèn)居民的“記憶檔案”
要理解記憶的重要性,我們不妨從生活里找類比。短期記憶,比如你收到的短信驗證碼,在輸入之后就已經(jīng)拋之腦后。長期記憶則是你童年時的經(jīng)歷,盡管過后不能逐句還原當時的場景,但這些記憶會伴隨你一生,直接或間接地影響你之后的決定。虛擬居民也是這樣:如果研究者只給他們短期記憶,他們可能只會在當下保持做出某種特定的行為,而缺乏人格上的延續(xù)性;而一旦給他們長期記憶,他們就會逐漸表現(xiàn)出性格和習慣。
案例:疫情防控模擬
另一個例子來自Williams et al.(2023)的研究。他們在疫情模擬中,讓居民根據(jù)記憶來調(diào)整行為。如果某個居民記得前幾天報紙說“20% 的人感染”,那他就可能選擇減少外出;如果他的長期記憶里寫著“曾經(jīng)因為輕信謠言買過假藥”,那他未來面對防疫信息時就會更加謹慎。這些細節(jié)讓模擬更接近人類社會的復雜性,也讓研究結(jié)果更具啟發(fā)性。
方法論困境:誰來決定你記得什么?
但問題也隨之而來:虛擬居民的記憶究竟是誰決定的?在現(xiàn)實生活中,我們無法完全選擇自己記得什么,有些片段會被忘掉,有些會深刻留痕。但在GABM中,研究者必須人為挑選哪些記憶被保留,哪些會被舍棄。比如,如果只保存“成績好”的經(jīng)歷,就可能讓一個虛擬學生表現(xiàn)得越來越自信;但如果同時保存“考試失敗”的片段,他可能會表現(xiàn)出焦慮和不安。
這意味著,研究者在篩選記憶的時候,就已經(jīng)在潛移默化地塑造模擬結(jié)果。記憶是教育的一部分,過度操控會讓智能體變得像提線木偶,看似在自由思考,實則在重復研究者希望的軌跡。反之,如果完全不干預,智能體可能會生成一些毫無意義的碎片記憶,導致行為混亂。這正是“過度控制vs自發(fā)涌現(xiàn)”的另一種體現(xiàn)。
![]()
計劃(Planning):思考決定行動
身份告訴我們“你是誰”,記憶決定了“你記得什么”。但只有到了計劃這一環(huán)節(jié),虛擬居民才真正開始“思考”該怎么做。這是生成式智能體模型(GABM)最具張力的部分:它既是研究者干預最多的地方,也是最能決定結(jié)果是否真實的地方。
在GABM中,計劃并不等同于解一道題那么簡單,而更像是一個虛擬大腦的思維方式。它需要把身份(你是誰)、記憶(你經(jīng)歷過什么)結(jié)合起來,然后轉(zhuǎn)化為一條“接下來要做什么”的邏輯路徑。正因如此,研究者在提示詞中如何設(shè)計計劃,幾乎決定了模擬結(jié)果的性質(zhì)。
計劃(Planning)旨在融入體現(xiàn)智能體獨特視角和情感反應的個性化思考過程。該組件的功能是通過綜合來自“身份”組件的特征和來自“memory”組件的內(nèi)容,來生成與情境相適應的行為意圖和戰(zhàn)略反應 。研究者通過提示(prompt)來植入決策邏輯,引導智能體根據(jù)其身份和記憶進行審議、制定策略并形成意圖 。具體的規(guī)劃方法包括“共情規(guī)劃”(empathetic planning),即智能體在行動前推斷和感知他人的行為與情感,以及“主觀規(guī)劃”(subjective planning),即決策與智能體預設(shè)的角色或身份保持一致,這兩種方法常利用思維鏈(Chain-of-Thought, CoT)或內(nèi)心獨白等技術(shù)來實現(xiàn) 。計劃組件通過汲取“身份”組件的特征來確定決策傾向,利用“記憶”組件中的過往經(jīng)驗來為決策提供信息,并最終生成指導模擬中行為輸出的行動意圖,從而與其他組件緊密互動 。
計劃的幾種方式
(1)結(jié)構(gòu)化推理:像寫標準答案一樣思考
這是研究者最常用的方法。在提示詞里,他們會要求虛擬居民分步驟推理,比如先分析利弊,再寫出結(jié)論。這種方式的好處是,結(jié)果條理清晰,很容易和既有理論對接。例如,在 Hua et al.(2023)的戰(zhàn)爭模擬中,研究者讓國家智能體必須先識別敵人和盟友,再根據(jù)列表做決策。結(jié)果是,國家的選擇幾乎都符合預設(shè)的邏輯路徑,研究者得到了可解釋性很強的結(jié)果。
但問題是,這種思維方式有點像學生寫作文時被規(guī)定了“開頭-主體-結(jié)尾”的框架。文章不會出錯,但也很難出現(xiàn)驚喜。模擬出來的社會行為,往往是研究者希望看到的,而不是社會互動自然生成的。
(2)角色驅(qū)動推理:把動機寫進劇本
另一種常見方法是直接賦予動機。例如,“作為醫(yī)生,你必須把病人的健康放在首位”;“作為商人,你要追求利潤最大化”。這種方式讓行為結(jié)果更符合身份,但同時也大大降低了行為的多樣性。
在Xie et al.(2024)的信任實驗中,研究者讓虛擬居民在做選擇時寫下內(nèi)心獨白,這些獨白被設(shè)計成符合身份的主觀信念。結(jié)果,居民的行為顯得逼真,但背后其實是研究者提前寫入了信念模板。這就像我們常說的帶著劇本上臺,表演固然自然,但自由發(fā)揮的空間幾乎沒有。
(3)逐步推理(CoT):思維留痕
近年來很流行的做法是要求虛擬居民“把思考過程寫出來”。比如,在Akata et al.(2023)的博弈實驗里,研究者讓智能體必須“先預測對手可能的行為,再決定自己的出招”。這種強制性的推理軌跡,讓行為結(jié)果更接近邏輯推理,而非憑直覺的選擇。
問題在于,人類的很多決定并不是逐步計算出來的,而是依賴直覺和經(jīng)驗。比如,你不會在超市買一瓶水時,寫下一份成本-收益-效用分析表。因此,雖然逐步推理提高了可解釋性,卻也讓行為更理性化,削弱了人性化的偶然性。
(4)預設(shè)的策略與決策標準:在有限的框架中選擇
有些研究甚至進一步把計劃限制成幾個選項,比如“合作、對抗、讓步”,或者規(guī)定智能體必須用效用函數(shù)打分,再根據(jù)分數(shù)高低來決定。
在 EconAgent(Li, Gao, et al. 2024)的經(jīng)濟學模擬中,研究者讓居民每季度進行一次反思,并根據(jù)效用函數(shù)調(diào)整消費與儲蓄。這樣一來,經(jīng)濟曲線的走勢和既有理論高度吻合,但虛擬居民看上去更像是在解選擇題,而不是在做真實生活中的模糊決策。
案例延展:不同計劃方式如何塑造世界
戰(zhàn)爭模擬(Hua et al. 2023):要求先識別敵友,再制定戰(zhàn)略,結(jié)果是所有國家?guī)缀醣厝恍纬申嚑I,戰(zhàn)爭邏輯被大大簡化。
信任實驗(Xie et al. 2024):通過內(nèi)心獨白強化身份驅(qū)動,結(jié)果居民的行為更符合身份預設(shè),但缺乏真實的信任動態(tài)。
經(jīng)濟模擬(EconAgent, Li et al. 2024):通過固定反思機制,模擬結(jié)果像是寫進劇本的經(jīng)濟學教材,而不是自然生成的復雜波動。
這些案例說明:計劃不僅僅是一個思維過程,更是研究者控制模擬的關(guān)鍵入口。
方法論困境:思維的自由還是枷鎖?
計劃環(huán)節(jié)揭示了一個根本矛盾:
如果研究者把思維方式寫得太詳細,虛擬居民就會像按照解題步驟走的學生,結(jié)果條理清晰,卻失去了復雜性。
如果研究者什么都不規(guī)定,虛擬居民可能會跑題,做出完全無關(guān)的決定,導致模擬失控。
這其實正是Li and Wu(2025)論文的核心觀點:計劃是最容易“過度控制”的地方。研究者既要避免虛擬居民變成木偶,又要防止他們陷入混亂。這種張力,與教育中的“雞娃”與“放養(yǎng)”何其相似:一邊是把人生寫進計劃書的孩子,另一邊是完全無拘無束、可能迷失方向的孩子。
因此,計劃不僅僅是技術(shù)細節(jié),更是一個方法論上的考驗。它迫使研究者不斷追問:我們看到的社會現(xiàn)象,到底是虛擬居民在互動中自然生成的,還是研究者寫好的劇本在上演*?
研究者對計劃(Planning)組件的過度控制主要體現(xiàn)在以下幾個方面:
(1)強加結(jié)構(gòu)化的推理和決策框架:研究者會設(shè)計特定的邏輯順序或分析框架,并提示智能體在做決策時必須遵循 。例如,引導智能體按預設(shè)步驟識別盟友與敵人,或?qū)Q策過程框定在一個具體的二元問題內(nèi),這使得模擬更像是對研究者預設(shè)邏輯的機械執(zhí)行,而非智能體自主產(chǎn)生的多樣化反應模式 ;
(2)嵌入特定角色的動機、策略和目標:通過提示詞為智能體灌輸特定的內(nèi)在動機、預定義的戰(zhàn)術(shù)或總體目標,以使其行為與指定角色保持一致 。例如,為智能體設(shè)定“榮譽高于生命”的強烈動機,或提供一個包含特定戰(zhàn)術(shù)(如誠實/欺騙性證據(jù))的有限策略庫,這會直接引導智能體的行為路徑,使其為了優(yōu)化預設(shè)目標而行動,從而使觀察到的社會結(jié)構(gòu)更像是深度編程的結(jié)果,而非自發(fā)的發(fā)現(xiàn);
(3)強制執(zhí)行特定的認知過程:明確提示智能體在得出結(jié)論前,必須采用并闡述某種特定的推理過程,如“鏈式思考”(Chain-of-Thought) 。研究發(fā)現(xiàn),強制使用這類推理方式會顯著改變模型的默認輸出模式和集體智能動態(tài),這意味著觀察到的行為可能是特定提示技巧的人為產(chǎn)物,而非智能體 genuinely emergent 的特征;
(4)定義明確的決策標準、閾值或效用函數(shù):為智能體指定評估選項和做出選擇時所依據(jù)的精確標準、數(shù)字閾值或數(shù)學效用函數(shù) 。例如,使用基于偏好依附和同質(zhì)性的效用函數(shù)來模擬網(wǎng)絡(luò)形成,或設(shè)定一個閾值來決定智能體何時會采納某種行為 。這種方法雖然可以精確地建模特定理論,但也使得智能體的行為變得高度可預測,并被這些形式化的規(guī)則嚴格束縛,其行為更像是在執(zhí)行被強加的模型,而不是對無約束選擇機制的洞察 。
![]()
行動(Action):
個體的行動決定世界的樣子
思考最終要落地為行動(Action)。行動環(huán)節(jié)是生成式智能體模型(GABM)中最直接、最具可觀測性的部分,因為它標志著一個虛擬居民如何真正與環(huán)境互動、與他人交往,從而推動整個模擬世界的發(fā)展。然而,正如Li and Wu (2025) 所指出的,行動往往也是研究者最容易產(chǎn)生控制欲的地方。一旦智能體完全自由行動,模擬結(jié)果就可能偏離研究目標,甚至陷入混亂;但如果研究者過度限制行動范圍,模擬的真實性和復雜性又會大打折扣。
行動的邊界:封閉與開放
在研究實踐中,行動通常被設(shè)計成封閉或開放兩類模式。封閉的行動域意味著研究者預先定義好有限的行動集合,虛擬居民只能在這些選項中進行選擇。例如Hua et al. (2023) 在設(shè)計國際關(guān)系模擬時,給每個國家智能體設(shè)定了七類固定的行動,如宣戰(zhàn)、結(jié)盟、談判等。這種做法的好處是條理清晰、便于統(tǒng)計,也更符合建模的嚴謹性,但它的問題在于缺乏人類行為的模糊性和創(chuàng)造性。現(xiàn)實中的國家在外交博弈中,往往會選擇一些不在劇本里的做法,比如通過曖昧的聲明來拖延,或者采取灰色操作進行試探,而這些微妙的策略在嚴格的行動空間里是無法出現(xiàn)的。
與之相對的是開放的行動域,研究者允許智能體自由生成自己的行為描述。例如,一個虛擬居民可能在模擬中突然提出要組織讀書會,或者臨時決定發(fā)起抗議。這樣的設(shè)計無疑更接近人類社會的復雜性,也能帶來更多的意外發(fā)現(xiàn),但它的風險同樣巨大,因為這些自由生成的行動很可能會和研究目標背道而馳,甚至讓整個模擬失去解釋力。在經(jīng)濟學模擬中,本來研究者關(guān)注的是消費和儲蓄的模式,但如果某個虛擬居民突然決定“去火星旅游”,整個系統(tǒng)就會徹底偏離主題,失去研究價值。因此,大多數(shù)研究者往往會在二者之間尋找平衡,在允許一定自由的同時,仍然維持基本的邊界。
行動的格式化與數(shù)據(jù)化
除了限定行動范圍,研究者還會在技術(shù)上對行動輸出進行嚴格的格式化,以便于后續(xù)的數(shù)據(jù)分析。最典型的例子是EconAgent(Li, Gao, et al. 2024),研究者要求虛擬居民用 JSON 格式提交自己的消費傾向和儲蓄比例。這樣做的好處是數(shù)據(jù)整齊、便于量化,模擬出來的經(jīng)濟曲線和經(jīng)濟學理論高度吻合,研究者也可以清楚地對比不同條件下的變化。但問題在于,這樣的智能體更像是在填表格或答選擇題,看似在自主決策,實則是在滿足預先寫好的參數(shù)框架。換句話說,它們的行動被削減成了數(shù)據(jù)點,而不是社會互動的自然表現(xiàn)。
這種現(xiàn)象在現(xiàn)實生活里并不陌生。它類似于考試時的選擇題,學生心中也許有更復雜的想法,但最終只能在A、B、C、D四個選項里做出選擇。虛擬居民在格式化輸出下的行動,本質(zhì)上也在被迫迎合研究者的測量方式。
案例與方法論困境
不同的行動設(shè)計會直接塑造模擬結(jié)果。Williams et al. (2023) 在疫情模擬中,讓虛擬居民的行動僅限于“是否選擇居家隔離”。這樣的設(shè)定清晰地展示了疫情傳播在不同條件下的走勢,但人類在疫情中的復雜行為都被排除在外,例如有人可能會偷偷外出;有人會臨時囤積物資;有人會因為謠言而做出極端選擇。Hua et al. (2023) 的戰(zhàn)爭模擬中,七類固定的行動讓國家的互動更像是一盤棋局,邏輯明確,但外交中的模糊地帶和情緒波動則不復存在。而在EconAgent中,格式化的經(jīng)濟決策讓模型看似完美貼合理論,卻失去了現(xiàn)實生活中消費決策那種隨意性和不確定性。
這些案例揭示了一個方法論上的兩難。過度控制的結(jié)果是模擬變成了劇本排練,虛擬居民像演員一樣在按本子走臺詞;過度自由的結(jié)果則是模擬變成了即興表演,觀眾雖然覺得有趣,但無法從中總結(jié)出穩(wěn)定的規(guī)律。這種張力和教育中的極端情況非常相似:一邊是時間安排被精確到分鐘的學生,成績穩(wěn)定但缺乏創(chuàng)造力;另一邊是完全放任自流的孩子,自由散漫卻難以形成系統(tǒng)性的學習成果。
因此,行動環(huán)節(jié)不僅是技術(shù)層面的選擇,更是方法論上的立場表態(tài)。Li and Wu (2025) 指出,GABM在行動設(shè)計上仍然缺乏成熟的標準,研究者往往需要在可控性和真實性之間反復試探。每一次設(shè)定行動的邊界,都是在回答一個根本的問題:我們希望模擬呈現(xiàn)的是一個井然有序的模型化社會,還是一個充滿不確定性和矛盾的復雜世界?答案的不同,決定了模擬最終是科學的縮影,還是幻象的投射*。
從行動組件的角度來看,研究者主要通過以下方式進行過度控制:(1)強加高度受限的行動集合:這也被稱為封閉域控制,即研究者定義一個有限且明確的離散行動列表,智能體只能從中選擇。這種做法嚴重限制了智能體的行為空間,可能導致對復雜社會互動的過度簡化,并阻礙新策略的出現(xiàn) ;(2)通過結(jié)構(gòu)化格式和規(guī)則約束行動輸出:研究者通過施加特定的格式要求或有限的參數(shù)來指導和限制自由形式的行動生成;(3)調(diào)控行動效能和互動模式:這涉及研究者定義智能體行動的影響力、范圍或強度,或明確構(gòu)建智能體之間互動的機制 。這種做法雖然能確保系統(tǒng)按預期的影響模型運行,但也可能無法揭示在更少控制的社會環(huán)境中影響力是如何自然傳播或被抵制的 。
![]()
協(xié)同與方法論困境:
從單點控制到系統(tǒng)操控
在生成式智能體模型中,身份、記憶、計劃和行動并不是相互獨立的模塊,而是一個環(huán)環(huán)相扣的整體。身份為智能體提供了角色和性格的起點,記憶為這一角色注入了延續(xù)性,計劃決定了它如何思考,而行動則是思考最終落實到世界的方式。看似是四個分開的部分,實際上任何一個環(huán)節(jié)的設(shè)計都會層層傳導,最終影響整個模擬的走向。Li and Wu (2025) 在論文中指出,這種跨環(huán)節(jié)的協(xié)同正是決定模擬結(jié)果真實性的關(guān)鍵,同時也是研究者最容易進行潛在操控的入口。
我們不妨把這種協(xié)同關(guān)系理解成教育過程中的多重作用。一個孩子的身份設(shè)定可能是未來的科學家,這決定了他會被安排去學習更多理科課程;記憶的積累讓他不斷回想起“自己擅長解決難題”的經(jīng)歷,從而形成穩(wěn)定的自信;計劃的方式讓他在遇到問題時傾向于邏輯推理,而不是情緒化反應;最后,在行動中,他會選擇申請科研項目或參與實驗,而不是隨意娛樂。四個環(huán)節(jié)像多米諾骨牌一樣,層層推動,最終讓他的整個人生軌跡被早早寫定。如果我們把這個比喻放到GABM里,就能理解為什么研究者在任何一個環(huán)節(jié)的設(shè)計,都會對整體行為施加深遠影響。
Li and Wu (2025) 在歸納了22篇相關(guān)研究,并梳理了過度控制在四個環(huán)節(jié)的不同表現(xiàn)方式。在身份層面,研究者常常通過細化角色設(shè)定來確保模擬結(jié)果貼近研究目標;在記憶層面,研究者可能會人為挑選保留或刪除的記憶,從而影響智能體的連續(xù)性;在計劃層面,研究者會規(guī)定思維方式或決策標準,以保證邏輯合理;而在行動層面,研究者則往往通過限制選項或格式化輸出,來使數(shù)據(jù)更便于統(tǒng)計。每一環(huán)節(jié)看似是局部的微調(diào),但當這些操控疊加在一起,整個模擬系統(tǒng)就不再是一個自由生長的社會,而更像是一臺精密但僵硬的機器。
以 Park et al. (2023) 的虛擬小鎮(zhèn)為例,身份設(shè)定為居民提供了基本的社會角色,記憶系統(tǒng)讓他們能夠在互動中保持一致性,計劃機制決定了他們?nèi)绾螌κ录龀龇磻袆涌臻g則限制了他們的行為范圍。四個環(huán)節(jié)相互配合,使得小鎮(zhèn)居民的互動呈現(xiàn)出某種逼真感。然而,這種逼真到底是自然涌現(xiàn)的,還是研究者通過每一環(huán)節(jié)的控制累積出來的結(jié)果?Li and Wu (2025) 的擔憂正在于此:過度的跨環(huán)節(jié)操控,會讓模擬結(jié)果變成幻象,而不是現(xiàn)實的鏡像。
這種跨環(huán)節(jié)協(xié)同還帶來另一個方法論困境,那就是邊界模糊性。在實際研究中,很難清晰界定某個社會現(xiàn)象究竟來自于身份的設(shè)定、記憶的保留,還是計劃的邏輯。比如在 Hua et al. (2023) 的戰(zhàn)爭模擬里,一個國家最終選擇結(jié)盟,究竟是因為它的身份被設(shè)定成“安全焦慮型”,還是因為研究者只保留了它“受威脅”的記憶,亦或是因為計劃環(huán)節(jié)規(guī)定了“必須先判斷敵友再行動”?
表面上看,這是模擬中一個自然的戰(zhàn)略決策,實際上卻可能是三重操控的疊加結(jié)果。這種情況在教育里也常見:一個學生在考試中取得好成績,我們很難判斷這是因為他的“身份”是學霸,他的“記憶”里有充足的練習經(jīng)驗,他的“計劃”方式是邏輯條理清晰,還是因為他的“行動”被考試制度限定成了選擇題。多個環(huán)節(jié)的耦合,讓因果關(guān)系難以拆解。
Williams et al. (2023) 的疫情模擬同樣揭示了這種困境。他們讓虛擬居民的記憶中不斷更新感染人數(shù),在計劃環(huán)節(jié)要求他們根據(jù)風險水平做出理性判斷,最后在行動環(huán)節(jié)規(guī)定他們只能選擇“居家隔離”或“不隔離”。最終呈現(xiàn)出來的社會現(xiàn)象似乎非常符合人類的理性防疫邏輯,但仔細追問會發(fā)現(xiàn),這種理性其實是研究者通過多環(huán)節(jié)控制拼湊出來的。如果在身份中設(shè)定一些居民是懷疑主義者,在記憶中保留“曾經(jīng)上當受騙”的經(jīng)歷,在計劃中允許情緒化判斷,在行動中開放更多模糊的行為,結(jié)果可能會完全不同。由此可見,所謂的理性社會更多是設(shè)計者的幻象,而不是模型的自發(fā)涌現(xiàn)。
EconAgent(Li, Gao, et al. 2024)的例子則展示了另一種協(xié)同模式。研究者通過身份設(shè)定把智能體區(qū)分為不同收入群體,通過記憶系統(tǒng)積累他們的消費習慣,再通過計劃機制要求他們每季度反思一次經(jīng)濟形勢,最后讓他們在行動中提交JSON格式的消費和儲蓄比例。整個流程環(huán)環(huán)相扣,結(jié)果是一條符合宏觀經(jīng)濟學理論的曲線。然而問題在于,這樣的經(jīng)濟行為究竟有多少部分是真實涌現(xiàn)的?從身份到行動的層層操控,讓這些居民更像是理論模型的執(zhí)行器,而不是自主互動的社會成員。
Li and Wu (2025) 因此提出了一個尖銳的問題:我們在GABM中看到的社會現(xiàn)象,到底是智能體自由互動的結(jié)果,還是研究者的設(shè)計產(chǎn)物?當協(xié)同效應被過度操控時,模擬結(jié)果雖然整齊、美觀、易于解釋,卻失去了最寶貴的復雜性和不確定性。而如果研究者完全放開控制,結(jié)果可能會混亂無序,甚至無法得出可用的結(jié)論。就像教育一樣,過度設(shè)計的孩子可能成為“完美的產(chǎn)品”,卻缺乏獨立思考的靈魂;完全放養(yǎng)的孩子則可能隨波逐流,難以形成穩(wěn)定的成長路徑。
因此,協(xié)同不僅是技術(shù)層面的挑戰(zhàn),更是方法論上的試金石。它迫使我們不斷追問:我們究竟是要構(gòu)建一個“逼真”的模擬世界,還是要尋找一個能真正解釋社會復雜性的實驗場?如果選擇前者,我們得到的可能是一個可控卻空洞的幻象;如果選擇后者,我們必須容忍混亂與不確定。真正的科學價值,或許正是在這種混亂中孕育出來的。
![]()
控制與涌現(xiàn)之間的學術(shù)與人性困境
回顧前文,我們一路走過了身份、記憶、計劃和行動四個環(huán)節(jié),看到它們?nèi)绾沃饘盈B加、相互作用,最終塑造出生成式智能體模型(GABM)中的模擬社會。我們也看到,這些環(huán)節(jié)從來都不是孤立的,而是協(xié)同影響的結(jié)果。身份為虛擬居民定下角色和性格,記憶讓他們的行為具有延續(xù)性,計劃為他們提供思維方式,而行動則是思維最終落實到世界的表現(xiàn)。四個環(huán)節(jié)環(huán)環(huán)相扣,看似只是研究者在技術(shù)上的提示詞設(shè)計,但實際上,這背后潛藏的是一個關(guān)于“控制”與“涌現(xiàn)”的根本困境*。
研究者一方面希望通過使用抽象、簡潔的“描述性提示詞”來激活大語言模型的內(nèi)在知識,從而 促使智能體的自主性并產(chǎn)生真實的涌現(xiàn)行為 。然而,這種方法存在低內(nèi)部效度和行為不一致的風險,因為模型對抽象概念的解讀可能與研究者的意圖有偏差,且其言行可能不一 。
為了克服這種不確定性,研究者傾向于使用“指令性提示詞”,通過直接命令或行為建議來精確引導智能體,以獲得更高的控制力和可預測性 。但這又帶來了“過度控制”的風險,即模擬結(jié)果可能更多地反映了研究者嵌入在提示詞中的預設(shè)和偏見,而非智能體互動中自發(fā)產(chǎn)生的社會動態(tài) 。
面對這種困境,研究者出現(xiàn)了“方法論倒退”或者路徑依賴的傾向,滑向了兩個業(yè)已成熟的方向:一個方向是回歸到傳統(tǒng)ABM(代理人基建模)的范式,即通過引入大量的數(shù)值參數(shù)化來定義智能體屬性和互動規(guī)則,但這犧牲了LLM在模擬社會場景方面的優(yōu)勢 ;另一個方向則是將本應是涌現(xiàn)式的多智能體互動,轉(zhuǎn)變?yōu)楦愃朴凇皞€體LLM測試”的場景,即通過極度詳細的行為規(guī)則和預設(shè)的互動路徑,讓多智能體模擬在功能上變得與直接向單個LLM輸入一個完整情景沒有區(qū)別 。
Li and Wu (2025) 的論文之所以重要,正是因為它提醒我們:當研究者在身份中加入過多細節(jié),在記憶中人為篩選片段,在計劃中規(guī)定思維方式,在行動中限制選擇空間時,整個模擬世界可能就變成了一場“幻象”。所謂的“復雜社會行為”,可能只是研究者的設(shè)計產(chǎn)物。換句話說,我們看到的并不是真正的涌現(xiàn),而是披著復雜外衣的控制結(jié)果。這就好比教育中雞娃的邏輯:孩子的高分和名校錄取看似是他們成長的結(jié)果,但實際上是父母和學校把一切安排好了,孩子只是照著劇本演繹。
然而,完全放棄控制也并不可取。如果研究者在四個環(huán)節(jié)都放手,虛擬居民可能會展現(xiàn)出毫無邏輯的混亂行為,模擬結(jié)果變得無法解釋,也無法和現(xiàn)實世界產(chǎn)生對照。這種情況下,研究者雖然保留了涌現(xiàn)的自由,但失去了科學研究所需要的秩序和可驗證性。這就像教育中的放養(yǎng),孩子或許在自由中找到了個性,但也可能在缺乏指導中迷失方向,失去了系統(tǒng)性的成長路徑。
正因如此,GABM的真正價值,并不在于讓虛擬居民無限逼近真實,而在于為社會科學提供一種新的實驗場。它讓我們有機會在虛擬環(huán)境里探索社會互動的復雜性,而不是在現(xiàn)實中冒著巨大風險進行試驗。比如,在疫情中我們無法隨意操縱真實人口的隔離政策,但我們可以在GABM中模擬不同決策路徑的后果;在國際關(guān)系中,我們無法實驗性地引導國家進入戰(zhàn)爭,但可以通過虛擬智能體推演潛在的結(jié)果。這種替代性實驗的價值,是任何傳統(tǒng)方法都無法比擬的。
因此,問題的關(guān)鍵并不是要在控制和涌現(xiàn)之間做出非此即彼的選擇,而是要承認這兩者之間的張力始終存在,并且學會在其中找到平衡。研究者需要反思:什么樣的控制是必要的邊界,什么樣的放手是對復雜性的尊重。身份可以提供基本的社會定位,但不能寫死個體的全部性格;記憶可以保證行為的一致性,但也要保留偶然與遺忘的可能;計劃可以提供思維框架,但不應變成研究者寫好的解題步驟;行動可以設(shè)置合理的范圍,但也要允許灰色地帶和模糊行為的出現(xiàn)。換句話說,研究者必須學會有限的控制,而不是全面的掌控。
這不僅僅是一個技術(shù)問題,更是一個方法論的問題。社會科學的魅力,正在于它研究的對象是復雜、多變、充滿不確定性的社會。而 GABM的出現(xiàn),給了我們一個近乎魔法般的工具,讓我們在虛擬世界中重建社會互動的場景。可是,如果我們在使用這個工具的過程中,把社會的復雜性簡化成劇本化的過程,我們最終得到的就不是科學,而是幻覺。真正的挑戰(zhàn)在于:如何在保持科學嚴謹性的同時,仍然保留社會復雜性的涌現(xiàn)?
換個角度來看,這個問題其實也折射出現(xiàn)實社會的另一層隱喻。我們對孩子的教育、對組織的管理、對政策的設(shè)計,都面臨著同樣的難題:要不要嚴格控制,要不要放手讓其自由發(fā)展?控制能帶來秩序,但也可能扼殺創(chuàng)造力;放手能帶來自由,但也可能導致失序。教育中的“雞娃”和“躺平”,政策中的“強監(jiān)管”和“放寬束縛”,企業(yè)中的“精細化管理”和“創(chuàng)新文化”,無一不是這種矛盾的現(xiàn)實版本。GABM不只是學術(shù)研究中的工具,它也讓我們以另一種方式,重新思考人類社會中控制與自由的關(guān)系。
結(jié)論并不是要告訴我們答案,而是要讓我們意識到問題的存在。也許,GABM最終給我們的啟發(fā)并不是找到一種完美的提示詞設(shè)計方式,而是提醒我們,在追求科學的同時,不要忘記保留復雜性的尊嚴。就像教育的目的不只是培養(yǎng)出一個聽話的學生,而是讓孩子成為一個獨立而豐富的人,社會科學的目的也不只是制造出一個可控的模型,而是讓我們更深刻地理解人類社會的多樣性與不可預測性。
在未來,GABM或許會成為社會科學研究不可或缺的工具,但它能否真正幫助我們理解世界,取決于研究者是否愿意面對這種困境。如果研究者一味追求整齊劃一的結(jié)果,它可能會變成一臺制造幻象的機器;如果研究者敢于容忍混亂與不確定,它或許能揭示出社會互動中最真實、最復雜、最人性的那一面。而這,也許才是GABM最值得我們期待的價值所在。
附:作者推薦閱讀的22篇前沿GABM文章
1. Akata, E., Sarrade, C., Dockner, A., & Brandstetter, J. (2023). Playing repeated games with large language models. arXiv preprint arXiv:2305.16867.
故事梗概:本文研究了大型語言模型(LLMs)在重復博弈場景中的行為,特別關(guān)注它們的合作與協(xié)調(diào)能力。研究人員在囚徒困境和性別戰(zhàn)等多種雙人博弈中測試了GPT-3、GPT-3.5和GPT-4的表現(xiàn)。研究發(fā)現(xiàn),雖然LLMs在獎勵自利行為的博弈(如囚徒困境)中表現(xiàn)良好,但在協(xié)調(diào)博弈中卻遇到困難。在囚徒困境中,GPT-4表現(xiàn)出不可原諒的行為,在對手單次背叛后便總是選擇背叛。在性別戰(zhàn)中,GPT-4未能采納簡單的交替策略來改善協(xié)調(diào)。文章還展示了如何通過提供其他玩家信息或要求模型在決策前預測對手行動來改變LLM的行為。
2. Cai, J., Hua, Y., Shameli, A., & Zhang, S. (2024). Language evolution for evading social media regulation via LLM-based multi-agent simulation. arXiv preprint arXiv:2405.02858.
故事梗概:本文提出了一個使用大型語言模型(LLMs)的多智能體模擬框架,旨在探索在受監(jiān)管的社交媒體環(huán)境中語言的演變。它研究了用戶如何調(diào)整其溝通策略以繞過內(nèi)容審查,同時仍能有效傳遞信息。該研究在多種場景中部署了由LLM驅(qū)動的智能體——從抽象的數(shù)字猜測游戲到模擬的非法寵物交易和關(guān)于核廢水的討論。
3. Chuang, Y. S., Suresh, S., Harlalka, N., Goyal, A., Hawkins, R., Yang, S., ... & Rogers, T. T. (2023). The wisdom of partisan crowds: Comparing collective intelligence in humans and llm-based agents. arXiv preprint arXiv:2311.09665.
故事梗概:本文探討了大型語言模型(LLM)智能體在社交環(huán)境中是否表現(xiàn)出類似人類的黨派行為。該研究復制了2019年一項人類研究的實驗,在該實驗中,民主黨人和共和黨人被要求估計涉及政治敏感話題的事實信息,然后在看到他人估計后修正自己的答案。研究人員發(fā)現(xiàn),被提示扮演黨派角色的LLM智能體表現(xiàn)出與人類相似的偏見,并且像人類一樣,通過群體審議提高了準確性(即“黨派人群的智慧”效應)。文章還探討了不同的提示策略如何影響這種行為,發(fā)現(xiàn)詳細的“人設(shè)”會增加黨派偏見,而思維鏈推理則會降低向準確性趨同的效果。
4. Dai, G., Zhang, W., Li, J., Yang, S., Rao, S., Caetano, A., & Sra, M. (2024). Artificial leviathan: Exploring social evolution of llm agents through the lens of hobbesian social contract theory. arXiv preprint arXiv:2406.14373.
故事梗概:本文探討了具有生存本能的LLM智能體如何在資源有限的環(huán)境中發(fā)展出社會結(jié)構(gòu)。這些智能體可以耕種、交易、互相搶劫或捐贈資源。模擬顯示,它們的社會從最初充滿頻繁沖突的“自然狀態(tài)”演變?yōu)橐粋€有單一主權(quán)智能體的結(jié)構(gòu)化“共同體”,這反映了托馬斯·霍布斯的社會契約理論。各種實驗檢驗了記憶深度、智力和人口規(guī)模等因素如何影響這一社會演化過程。
5. De Curtò, J., & De Zarzà, I. (2025). LLM-Driven Social Influence for Cooperative Behavior in Multi-Agent Systems. IEEE Access.
故事梗概:該論文開發(fā)了一個理論框架,其中LLMs生成有說服力的內(nèi)容,引導智能體在沒有直接政策干預的情況下采取如“回歸鄉(xiāng)村”等合作行為。該研究將博弈論與網(wǎng)絡(luò)動力學相結(jié)合,展示了社會影響如何通過智能體網(wǎng)絡(luò)傳播,即使智能體保持不活躍狀態(tài),也能在受LLM生成的敘事影響下,創(chuàng)造出自我維持的合作行為。
6. Ghaffarzadegan, N., Majumdar, A., Williams, R., & Hosseinichimeh, N. (2024). Generative agent‐based modeling: an introduction and tutorial. System Dynamics Review, 40(1), e1761
故事梗概:本文介紹了生成式智能體建模,它將基于智能體的建模與大型語言模型相結(jié)合,以表征社會系統(tǒng)中的人類行為。一個案例研究展示了辦公室職員每天在藍色和綠色襯衫之間做選擇,其決策由LLM提供信息,而非預定義規(guī)則。該模型揭示了社會規(guī)范如何通過同伴壓力、脫穎而出的愿望以及權(quán)威人物的影響等多種反饋機制而涌現(xiàn)。
7. Hao, Y., & Xie, D. (2025). A Multi-LLM-Agent-Based Framework for Economic and Public Policy Analysis. arXiv:2502.16879v1.
故事梗概:這項研究使用不同的大型語言模型(LLMs)作為具有不同能力的經(jīng)濟智能體。它檢驗了五個LLMs如何做出消費-儲蓄決策,并引入了一個框架,其中每個LLM代表一個不同的教育和收入群體。這種多LLM方法捕捉了經(jīng)濟環(huán)境和推理能力兩方面的異質(zhì)性。該框架通過一個關(guān)于利息收入稅的案例研究得到驗證,展示了不同人群部分如何應對稅收政策的變化。
8. Hua, W., Fan, L., Li, L., Mei, K., Ji, J., Ge, Y., ... & Zhang, Y. (2023). War and peace (waragent): Large language model-based multi-agent simulation of world wars. arXiv preprint arXiv:2311.17227.
故事梗概:本文介紹了WarAgent,一個基于LLM的多智能體系統(tǒng),用于模擬如第一次和第二次世界大戰(zhàn)以及中國戰(zhàn)國時期等歷史沖突。它創(chuàng)建了代表國家的AI智能體,這些智能體根據(jù)其歷史背景進行互動、結(jié)盟和決策。該研究旨在檢驗這些模擬在多大程度上反映了真實歷史,哪些觸發(fā)因素最常導致戰(zhàn)爭,以及在特定條件下重大沖突是否不可避免。
9. Jin, X., Wang, Z., Du, Y., Fang, M., Zhang, H., & Wang, J. (2024). Learning to discuss strategically: A case study on one night ultimate werewolf. Advances in Neural Information Processing Systems, 37, 77060-77097.
故事梗概:本文介紹了一項旨在增強AI智能體在“一夜終極狼人”游戲中進行策略性討論能力的研究。它將該游戲構(gòu)建為一個多階段廣義貝葉斯博弈,并提供了理論分析,揭示了討論在決定玩家結(jié)果中的關(guān)鍵作用。研究表明,玩家在均衡狀態(tài)下的收益取決于通過討論影響的信念。基于此分析,文章引入了一個由強化學習指導的語言智能體框架,該框架包含一個通過強化學習訓練的討論策略,該策略根據(jù)智能體的觀察和信念選擇適當?shù)挠懻搼?zhàn)術(shù)(誠實或欺騙)。
10. Lan, Y., Hu, Z., Wang, L., Wang, Y., Ye, D., Zhao, P., .. & Wang, H. (2023). Llm-based agent society investigation: Collaboration and confrontation in avalon gameplay. arXiv preprint arXiv:2310.14985.
故事梗概:本文使用“阿瓦隆”游戲作為試驗平臺,探索了基于LLM的智能體的社會行為。研究人員為LLM智能體開發(fā)了一個游戲框架,實現(xiàn)了記憶、分析、規(guī)劃、行動和響應生成等模塊,并具備經(jīng)驗學習能力。與以往主要關(guān)注積極行為的研究不同,本研究同時考察了協(xié)作和對抗兩個方面。該框架允許智能體參與復雜的社會互動,包括團隊合作、領(lǐng)導、說服、偽裝和對抗。
11. Li, A., Chen, H., Namkoong, H., & Peng, T. (2023). LLM generated persona is a promise with a catch. Columbia University. arXiv:2503.1652v1.
故事梗概:通過對跨多個模型生成的一百萬個“人設(shè)”進行系統(tǒng)性實驗,該研究表明,隨著LLM生成的內(nèi)容越來越多地被納入“人設(shè)”,模擬結(jié)果與真實世界結(jié)果的偏差也越來越大。這一點在政治模擬中尤為明顯,LLM生成的“人設(shè)”顯示出系統(tǒng)性的左傾偏見,最終導致模擬的選舉結(jié)果預測民主黨在美國所有州獲勝。這一現(xiàn)象不僅限于政治領(lǐng)域,還延伸到消費者偏好、教育價值觀和娛樂選擇等方面。
12. Li, J., Hsieh, A., Li, Y., Cai, T., You, H., Zhang, Y., & Wang, Y. (2024). Agent hospital: A simulacrum of hospital with evolvable medical agents. arXiv preprint arXiv:2405.02957.
故事梗概:本文介紹了“智能體醫(yī)院”,一個虛擬的醫(yī)院環(huán)境,其中所有患者、護士和醫(yī)生都是由大型語言模型(LLMs)驅(qū)動的自主智能體。該環(huán)境模擬了從發(fā)病、診斷到康復的完整疾病治療周期。醫(yī)生智能體通過治療患者智能體和閱讀醫(yī)學書籍可以實現(xiàn)進化,獲得可轉(zhuǎn)移到現(xiàn)實世界醫(yī)療問題的專業(yè)知識。研究人員引入了基于模擬的進化智能體學習(SEAL),它包括兩個組成部分:模擬環(huán)境構(gòu)建(建造虛擬醫(yī)院)和智能體進化(使醫(yī)生智能體能夠從經(jīng)驗中學習)。
13. Li, N., Gao, C., Li, M., Li, Y., & Liao, Q. (2023). Econagent: large language model-empowered agents for simulating macroeconomic activities. arxiv preprint arxiv:2310.10436.
故事梗概:EconAgent利用大型語言模型的推理能力,通過異質(zhì)性智能體模擬宏觀經(jīng)濟活動,這些智能體在應對復雜市場動態(tài)的同時,做出類似人類的工作和消費決策。
14. Liu, Y., Chen, X., Zhang, X., Gao, X., Zhang, J., & Yan, R. (2024). From skepticism to acceptance: Simulating the attitude dynamics toward fake news. arXiv preprint arXiv:2403.09498.
故事梗概:本文提出了一個使用基于LLM的智能體來模擬虛假新聞傳播的框架。研究人員創(chuàng)建了一個由具有不同個性、雙重記憶系統(tǒng)(短期和長期)以及推理能力的智能體組成的網(wǎng)絡(luò),以模擬虛假新聞如何通過社交互動傳播。該模擬在微觀(個人信念變化)和宏觀(人群感染率)兩個層面進行操作。
15. Papachristou, M., & Yuan, Y. (2024). Network formation and dynamics among multi-LLMs. arXiv preprint arXiv:2402.10659.
故事梗概:這項研究探討了像GPT、Claude和Llama這樣的大型語言模型(LLMs)在作為智能體互動時如何形成社交網(wǎng)絡(luò)。該研究測試了LLMs是否展示了人類網(wǎng)絡(luò)形成的關(guān)鍵原則,包括優(yōu)先連接(連接到受歡迎的節(jié)點)、三元閉包(與朋友的朋友建立關(guān)系)、同質(zhì)性(與相似的人連接)、社區(qū)結(jié)構(gòu)和小世界屬性。
16. Park, J. S., O'Brien, J., Cai, C. J., Morris, M. R., Liang, P., & Bernstein, M. S. (2023). Generative agents: Interactive simulacra of human behavior. In Proceedings of the 36th annual acm symposium on user interface software and technology (pp. 1-22).
故事梗概:生成式智能體架構(gòu)將大型語言模型與記憶流、反思能力和規(guī)劃機制相結(jié)合,以創(chuàng)建可信的自主虛擬角色。在一個類似《模擬人生》的沙盒環(huán)境中,這些智能體維持連貫的日常生活、建立關(guān)系、分享信息并協(xié)調(diào)活動,展示了個體行為的連貫性和涌現(xiàn)的社會動態(tài),而無需明確編程。
17. Wang, C., Liu, Z., Yang, D., & Chen, X. (2024). Decoding echo chambers: Llm-powered simulations revealing polarization in social networks. arXiv preprint arXiv:2409.19338.
故事梗概:本文介紹了一個基于LLM的模擬框架,用于研究社交網(wǎng)絡(luò)中的回音室和極化現(xiàn)象。該研究創(chuàng)建了三種不同的網(wǎng)絡(luò)結(jié)構(gòu)(小世界、無標度和隨機圖)來模擬社交媒體互動。該框架將個體表示為具有個性化特征的LLM智能體,他們根據(jù)推薦算法進行互動,并通過推理更新自己的觀點。研究將這種基于語言的方法與傳統(tǒng)的數(shù)值模型(BCM和FJ模型)進行了比較,并展示了其框架如何有效復制極化現(xiàn)象。研究人員還提出了兩種緩解策略——主動和被動助推——以幫助減少回音室效應。
18. Williams, R., Hosseinichimeh, N., Majumdar, A., & Ghaffarzadegan, N. (2023). Epidemic modeling with generative agents. arXiv preprint arXiv:2307.04986.
故事梗概:本文提出了一種新的流行病建模方法,利用生成式AI來模擬疾病爆發(fā)期間的人類行為。它將基于智能體的模型與大型語言模型相連接,允許虛擬個體根據(jù)其個性、健康狀況和對疾病流行情況的了解做出自主決策。該模型展示了現(xiàn)實行為,如生病時自我隔離和在高感染期自我隔離,產(chǎn)生了與實際大流行病浪潮和地方病階段相似的模式。
19. Wu, Z., Peng, R., Zheng, S., Liu, Q., Han, X., Kwon, B. I., ... & Xiao, C. (2024). Shall we team up: Exploring spontaneous cooperation of competing llm agents. arXiv preprint arXiv:2402.12327.
故事梗概:本文探討了LLM智能體是否能在沒有明確指令的競爭場景中發(fā)展出無意識的合作。研究人員通過三個案例研究對此進行調(diào)查:凱恩斯選美競賽(猜數(shù)字游戲)、伯特蘭競爭(公司間的價格競爭)和緊急疏散(智能體從房間逃生)。他們精心設(shè)計提示,以避免指導性描述或暴露關(guān)鍵詞,從而讓智能體通過情境和互動自然地調(diào)整策略。實驗表明,即使在最初的競爭環(huán)境中,LLM智能體也能通過溝通和從過去的互動中學習,逐漸從競爭行為轉(zhuǎn)向合作行為。
20. Xue, Z., Jin, M., Wang, B., Zhu, S., Mei, K., Tang, H., ... & Zhang, Y. (2024). What if llms have different world views: Simulating alien civilizations with llm-based agents. arXiv preprint arXiv:2402.13184.
故事梗概:這項研究引入了“CosmoAgent”,一個使用大型語言模型(LLMs)來模擬人類與外星文明之間互動的框架。研究人員開發(fā)了一個數(shù)學模型來量化文明發(fā)展水平,并使用狀態(tài)轉(zhuǎn)移矩陣來評估其發(fā)展軌跡。該研究探討了具有不同世界觀(和平主義、軍國主義、孤立主義)的文明在信息不對稱的條件下如何互動,特別是在文明之間存在通信延遲的情況下。該研究旨在為具有不同價值體系的實體之間潛在的跨文明動態(tài)和預防沖突的策略提供見解。
21. Zhang, X., Lin, J., Mou, X., Yang, S., Liu, X., Sun, L., ... & Wei, Z. (2025). SocioVerse: A World Model for Social Simulation Powered by LLM Agents and A Pool of 10 Million Real-World Users. arXiv preprint arXiv:2504.10157.
故事梗概:SocioVerse是一個使用基于LLM的智能體進行社會模擬的框架,旨在解決模擬環(huán)境與真實環(huán)境之間的對齊挑戰(zhàn)。該系統(tǒng)包含四個主要部分:社會環(huán)境(提供真實世界背景)、用戶引擎(從一千萬真實用戶池中創(chuàng)建逼真的用戶畫像)、情景引擎(構(gòu)建各種互動格式)和行為引擎(生成智能體響應)。該框架通過三個不同的模擬展示了其能力:總統(tǒng)選舉預測、突發(fā)新聞響應分析和國家經(jīng)濟調(diào)查建模。
22. Zhang, Z., Lian, J., Ma, C., Qu, Y., Luo, Y., Wang, L., ... & Wen, J. R. (2024). TrendSim: Simulating Trending Topics in Social Media Under Poisoning Attacks with LLM-based Multi-agent System. arXiv preprint arXiv:2412.12196.
故事梗概:本文介紹了TrendSim,一個基于LLM的多智能體系統(tǒng),用于模擬投毒攻擊如何影響社交媒體平臺上的熱門話題。該系統(tǒng)創(chuàng)建了一個具有時間感知互動和集中化信息傳播的逼真模擬環(huán)境,以模擬熱門話題。它使用具有感知、記憶和行動模塊的類人智能體來模仿真實用戶,并開發(fā)了基于原型的攻擊者,生成不同類型的投毒評論。
![]()
Akata, E., Sarrade, C., Dockner, A., & Brandstetter, J. (2023). Playing Repeated Games With Large Language Models. Preprint, arXiv:2305.16867.
Hua, W., Fan, L., Li, L., et al. (2023). War and Peace (Waragent): Large Language Model-Based Multi-Agent Simulation of World Wars. Preprint, arXiv:2311.17227.
Li, N., Gao, C., Li, M., Li, Y., & Liao, Q. (2024). Econagent: Large Language Model-Empowered Agents for Simulating Macroeconomic Activities. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics(Vol. 1, pp. 15523–15536).
Li, Z., & Wu, Q. (2025). Let It Go or Control It All? The Dilemma of Prompt Engineering in Generative Agent‐Based Models. System Dynamics Review, 41(3), e70008.
Park, J. S., O’Brien, J., Cai, C. J., Morris, M. R., Liang, P., & Bernstein, M. S. (2023). Generative Agents: Interactive Simulacra of Human Behavior. In Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology(pp. 1–22). ACM.
Williams, R., Hosseinichimeh, N., Majumdar, A., & Ghaffarzadegan, N. (2023). Epidemic Modeling With Generative Agents. Preprint, arXiv:2307.04986.
Xie, C., Chen, C., Jia, F., et al. (2024). Can Large Language Model Agents Simulate Human Trust Behaviors?Preprint, arXiv:2402.04559.
![]()
![]()
![]()
![]()
![]()
![]()
![]()
![]()
關(guān)于追問nextquestion
天橋腦科學研究院旗下科學媒體,旨在以科學追問為紐帶,深入探究人工智能與人類智能相互融合與促進,不斷探索科學的邊界。歡迎評論區(qū)留言,或后臺留言“社群”即可加入社群與我們互動。您也可以在后臺提問,我們將基于追問知識庫為你做出智能回復哦~
關(guān)于天橋腦科學研究院
天橋腦科學研究院(Tianqiao and Chrissy Chen Institute)是由陳天橋、雒芊芊夫婦出資10億美元創(chuàng)建的世界最大私人腦科學研究機構(gòu)之一,圍繞全球化、跨學科和青年科學家三大重點,支持腦科學研究,造福人類。
Chen Institute與華山醫(yī)院、上海市精神衛(wèi)生中心設(shè)立了應用神經(jīng)技術(shù)前沿實驗室、人工智能與精神健康前沿實驗室;與加州理工學院合作成立了加州理工天橋神經(jīng)科學研究院。
Chen Institute建成了支持腦科學和人工智能領(lǐng)域研究的生態(tài)系統(tǒng),項目遍布歐美、亞洲和大洋洲,包括、、、科研型臨床醫(yī)生獎勵計劃、、、視頻媒體大圓鏡科普等。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.