<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      為什么大模型“殺不死”心理學(xué)?

      0
      分享至


      追問(wèn)快讀:GPT熱潮時(shí),我們發(fā)布過(guò)一文。潮水退去,現(xiàn)在是反擊的時(shí)候了。

      自2022年底以來(lái),ChatGPT如一股澎湃的春潮,席卷了全球,人們對(duì)其潛在的應(yīng)用場(chǎng)景無(wú)不心生向往。商界人士、學(xué)者乃至日常生活中的普通人,都在思索同一個(gè)問(wèn)題:自己的工作未來(lái)會(huì)如何被AI塑造?

      隨著時(shí)間流逝,很多構(gòu)想逐漸落地,人類似乎已經(jīng)習(xí)慣于AI在許多工作場(chǎng)景幫助甚至替代我們的實(shí)際工作。早期人們對(duì)GPT的恐懼逐漸消散,反而變得過(guò)度依賴GPT,甚至忽略了可能的局限性與風(fēng)險(xiǎn)。這種大肆依賴GPT并忽視其風(fēng)險(xiǎn)的情況,我們稱之為“GPT學(xué)”(GPTology)。

      心理學(xué)的發(fā)展一直緊緊跟隨科技的創(chuàng)新,社會(huì)學(xué)家與行為科學(xué)家總是依賴盡可能多的技術(shù)來(lái)收集豐富的數(shù)據(jù)類型,從神經(jīng)影像技術(shù)、在線調(diào)查平臺(tái)到眼動(dòng)追蹤技術(shù)的開(kāi)發(fā)等,都助力心理學(xué)取得了關(guān)鍵性的突破。數(shù)字革命和大數(shù)據(jù)的興起推動(dòng)了計(jì)算社會(huì)科學(xué)等新學(xué)科的形成。正如其他領(lǐng)域(醫(yī)學(xué)[1]、政治[2])一樣,能夠以驚人的微妙性和復(fù)雜性理解、生成和翻譯人類語(yǔ)言的大語(yǔ)言模型(LLM),對(duì)心理學(xué)也產(chǎn)生了深遠(yuǎn)的影響。

      在心理學(xué)領(lǐng)域,大語(yǔ)言模型有兩類主流應(yīng)用模式:一方面,通過(guò)研究大語(yǔ)言模型本身的機(jī)制,可能對(duì)人類認(rèn)知的研究提供新的見(jiàn)解;另一方面,這些模型在文本分析和生成方面的能力,使得它成為了分析文本數(shù)據(jù)的強(qiáng)大工具,如它們能將個(gè)人的書(shū)面或口頭表達(dá)等文本數(shù)據(jù),轉(zhuǎn)化為可分析的數(shù)據(jù)形式,從而協(xié)助心理健康專業(yè)人員評(píng)估和理解個(gè)體的心理狀態(tài)。最近,使用大語(yǔ)言模型促進(jìn)心理學(xué)研究的成果大量涌現(xiàn),ChatGPT在社會(huì)與行為科學(xué)領(lǐng)域的應(yīng)用,如仇恨言論分類、情感分析等,已顯示出其初步成果和廣闊的發(fā)展前景。

      然而,我們應(yīng)該放任現(xiàn)在“GPT學(xué)”的勢(shì)頭在科研領(lǐng)域肆虐嗎?事實(shí)上所有科技創(chuàng)新的融合過(guò)程總是充滿動(dòng)蕩的,放任某種技術(shù)的應(yīng)用與對(duì)其依賴過(guò)深,都可能會(huì)導(dǎo)致意想不到的后果。回望心理學(xué)的發(fā)展歷程,當(dāng)功能性磁共振成像(fMRI)技術(shù)初露鋒芒時(shí),便有研究者濫用此技術(shù),導(dǎo)致了一些荒謬卻在統(tǒng)計(jì)學(xué)上顯著的神經(jīng)關(guān)聯(lián)現(xiàn)象——譬如,研究人員對(duì)一條已經(jīng)死亡的大西洋鮭魚(yú)進(jìn)行了fMRI掃描,結(jié)果顯示該魚(yú)在實(shí)驗(yàn)期間表現(xiàn)出顯著的腦活動(dòng);還有研究表明,由于統(tǒng)計(jì)誤用,fMRI研究中發(fā)現(xiàn)虛假相關(guān)性的可能性極高。這些研究已經(jīng)進(jìn)入心理學(xué)的教科書(shū),警示所有心理學(xué)學(xué)生與研究人員在面對(duì)新技術(shù)時(shí)應(yīng)保持警惕。


      ?Abdurahman, Suhaib, et al. "Perils and opportunities in using large language models in psychological research." PNAS nexus 3.7 (2024): pgae245.

      可以說(shuō),我們已經(jīng)進(jìn)入了與大語(yǔ)言模型相處的“冷靜期”,除了思考大語(yǔ)言模型可以做什么,我們更需要反思是否以及為何要使用它。近日PNAS Nexus的綜述論文便探討了大語(yǔ)言模型在心理學(xué)研究中的應(yīng)用,及其為研究人類行為學(xué)帶來(lái)的新機(jī)遇。

      文章承認(rèn)LLMs在提升心理學(xué)方面的潛在效用,但同時(shí)也強(qiáng)調(diào)了對(duì)其未經(jīng)審慎應(yīng)用的警惕。目前這些模型在心理學(xué)研究中可能引起的統(tǒng)計(jì)上顯著但意義不明確的相關(guān)性,是研究者必須避免的。作者提醒到,面對(duì)近幾十年來(lái)該領(lǐng)域遇到的類似挑戰(zhàn)(如可信度革命),研究人員應(yīng)謹(jǐn)慎對(duì)待LLMs的應(yīng)用。該文還提出了在未來(lái)如何更批判性和謹(jǐn)慎性地利用這些模型以推進(jìn)心理學(xué)研究的方向。

      大語(yǔ)言模型可以替代人類被試嗎?

      提到大語(yǔ)言模型,人們最直觀的感受便是其高度“類人”的輸出能力。Webb等人考察了ChatGPT的類比推理能力[3],發(fā)現(xiàn)它已涌現(xiàn)出了零樣本推理能力,能夠在沒(méi)有明確訓(xùn)練的情況下解決廣泛的類比推理問(wèn)題。一些人認(rèn)為,如果像ChatGPT這樣的LLM確實(shí)能夠?qū)π睦韺W(xué)中的常見(jiàn)測(cè)量產(chǎn)生類似人類的響應(yīng)(例如對(duì)行動(dòng)的判斷、對(duì)價(jià)值的認(rèn)可、對(duì)社會(huì)問(wèn)題的看法),那么它們?cè)谖磥?lái)可能會(huì)取代人類受試者群體。

      針對(duì)這個(gè)問(wèn)題,Dillion等人進(jìn)行了專門(mén)的研究[4]:首先,通過(guò)比較人類與語(yǔ)言模型(GPT-3.5)在道德判斷上的相關(guān)性,他們肯定了語(yǔ)言模型可以復(fù)制一些人類判斷的觀點(diǎn);但他們也提出了解釋語(yǔ)言模型輸出的挑戰(zhàn)。從原理上說(shuō),LLM的“思維”建立在人類的自然表達(dá)之上,但實(shí)際能代表的人群有限,并且有過(guò)于簡(jiǎn)化人類復(fù)雜行為思想的風(fēng)險(xiǎn)。這是一種警示,因?yàn)檫@種對(duì)AI系統(tǒng)擬人化的傾向可能會(huì)誤導(dǎo)我們,讓我們期望那些基于根本不同原理運(yùn)行的系統(tǒng)表現(xiàn)出類人表現(xiàn)。


      從目前的研究來(lái)看,使用LLM模擬人類被試至少有三大問(wèn)題。

      首先,認(rèn)知過(guò)程的跨文化差異是心理學(xué)研究中極為重要的一環(huán),但很多證據(jù)表明,目前流行的大語(yǔ)言模型無(wú)法模擬出這樣的差異。像GPT這樣的模型主要基于WEIRD(西方、受過(guò)教育的、工業(yè)化的、富裕的、民主的)人群的文本數(shù)據(jù)訓(xùn)練。這種以英語(yǔ)為中心的數(shù)據(jù)處理延續(xù)了心理學(xué)的英語(yǔ)中心主義,與對(duì)語(yǔ)言多樣性的期待背道而馳。語(yǔ)言模型也因此難以準(zhǔn)確反映大眾群體的多樣性。例如,ChatGPT顯示出偏向男性視角和敘事的性別偏見(jiàn),偏向美國(guó)視角或一般多數(shù)人群的文化偏見(jiàn),以及偏向自由主義、環(huán)保和左翼自由意志主義觀點(diǎn)的政治偏見(jiàn)。這些偏見(jiàn)還延伸到個(gè)性、道德和刻板印象。

      總的來(lái)說(shuō),由于模型輸出高度反映WEIRD人群心理,當(dāng)人類樣本不那么WEIRD時(shí),AI與人類之間的高度相關(guān)性無(wú)法重現(xiàn)。在心理學(xué)研究中,過(guò)度依賴WEIRD被試(例如北美的大學(xué)生)的現(xiàn)象一度引發(fā)了討論,用LLM的輸出替代人類參與者將是一個(gè)倒退,會(huì)使得心理學(xué)研究變得更加狹隘,普適性更差。


      ?將 ChatGPT與按政治觀點(diǎn)分組的人類對(duì)“大五人格”的反應(yīng)進(jìn)行比較。注:圖中顯示了人類和ChatGPT在大五人格結(jié)構(gòu)和不同人口統(tǒng)計(jì)數(shù)據(jù)中的響應(yīng)分布。圖中顯示,ChatGPT 在宜人性、盡責(zé)性方面給出了顯著更高的響應(yīng),而在開(kāi)放性和神經(jīng)質(zhì)方面給出了顯著較低的響應(yīng)。重要的是,與所有人口統(tǒng)計(jì)群體相比,ChatGPT在所有個(gè)性維度上顯示出顯著較小的差異。

      其次,大語(yǔ)言模型似乎存在“正確答案”偏好,也就是說(shuō)LLM在回答心理學(xué)調(diào)查的問(wèn)題時(shí)變化幅度較小——即使這些問(wèn)題涉及的主題(例如道德判斷)并沒(méi)有實(shí)際的正確答案——而人類對(duì)這些問(wèn)題的回答往往具有多樣性。當(dāng)要求LLM多次回答同一個(gè)問(wèn)題,并測(cè)量其回答的差異時(shí),我們會(huì)發(fā)現(xiàn)大語(yǔ)言模型的回答無(wú)法像人類一樣產(chǎn)生思想上顯著的差異。這依舊與生成式語(yǔ)言模型背后的原理分不開(kāi),它們通過(guò)自回歸的方式計(jì)算下一個(gè)可能出現(xiàn)的單詞的概率分布來(lái)生成輸出序列。從概念上講,反復(fù)向LLM提問(wèn)類似于反復(fù)向同一個(gè)參與者提問(wèn),而不是向不同的參與者提問(wèn)。

      然而,心理學(xué)家通常感興趣的是研究不同參與者之間的差異。這警告我們當(dāng)想用大語(yǔ)言模型模擬人類被試時(shí),不能簡(jiǎn)單地用大語(yǔ)言模型模擬群體平均值,或用它模擬個(gè)體在不同任務(wù)中的反應(yīng);應(yīng)當(dāng)開(kāi)發(fā)出合適的方法真實(shí)再現(xiàn)人類樣本復(fù)雜性。此外,訓(xùn)練大語(yǔ)言模型的數(shù)據(jù)可能已經(jīng)包含許多心理學(xué)實(shí)驗(yàn)中使用的項(xiàng)目和任務(wù),導(dǎo)致模型在接受測(cè)試時(shí)依賴記憶而不是推理,又進(jìn)一步加劇了上述問(wèn)題。為了獲得對(duì)LLM類人行為的無(wú)偏評(píng)估,研究人員需要確保他們的任務(wù)不屬于模型的訓(xùn)練數(shù)據(jù),或調(diào)整模型以避免影響實(shí)驗(yàn)結(jié)果,比如通過(guò)“去學(xué)習(xí)”等方法。

      最后,GPT是否真的形成與人類類似的道德體系也是值得懷疑的。通過(guò)向LLM提問(wèn),建立它內(nèi)在的邏輯關(guān)系網(wǎng)絡(luò)(nomological network),觀察不同道德領(lǐng)域之間的相關(guān)性,發(fā)現(xiàn)這兩個(gè)指標(biāo)都與基于人類得到的結(jié)果大不相同。


      ?ChatGPT 與人類道德判斷。注:a)人類道德判斷(淺藍(lán)色)和GPT(淺紅色)在六個(gè)道德領(lǐng)域的分布。虛線代表平均值。b) 人類道德價(jià)值觀之間的相互關(guān)系(=3902)和 ChatGPT 問(wèn)答(=1000?)。c) 基于來(lái)自 19 個(gè)國(guó)家 (30) 的不同人類樣本和 1000 個(gè) GPT 問(wèn)答的道德價(jià)值觀之間的部分相關(guān)網(wǎng)絡(luò)。藍(lán)色邊緣表示正偏相關(guān),紅色邊緣表示負(fù)偏相關(guān)。

      總結(jié)來(lái)說(shuō),LLM會(huì)忽略人群的多樣性,無(wú)法表現(xiàn)出顯著性差異,無(wú)法復(fù)現(xiàn)邏輯關(guān)系網(wǎng)絡(luò)——這些不足告訴我們,LLM不應(yīng)該取代對(duì)智人(Homo sapiens)的研究,但這并不意味著心理學(xué)研究要完全摒棄LLM的使用。一方面,將傳統(tǒng)上用于人類的心理學(xué)測(cè)量用于AI的確有趣,但是對(duì)其結(jié)果的解讀應(yīng)當(dāng)更加謹(jǐn)慎;另一方面,將LLM作為人類的代理模型模擬人類行為時(shí),其中間層參數(shù)可以為我們提供探索人類認(rèn)知行為的潛在角度,但這一過(guò)程應(yīng)該在嚴(yán)格定義了環(huán)境、代理、互動(dòng)及結(jié)果的前提下進(jìn)行的。

      由于LLM的“黑箱”特征,以及前文提到的輸出經(jīng)常與人類真實(shí)行為不一樣的現(xiàn)狀,這種期盼還很難成真。但我們可以期待,未來(lái)也許可以開(kāi)發(fā)出更穩(wěn)健的程序,使得在心理學(xué)研究中的LLM模擬人類行為變得更加可行。

      大語(yǔ)言模型是文本分析的萬(wàn)金油嗎?

      除了其仿人的特質(zhì),LLM最大的特點(diǎn)便是其強(qiáng)大的語(yǔ)言處理能力,然而將自然語(yǔ)言處理方法用于心理學(xué)研究并不是新生之物,想要理解為什么LLM的應(yīng)用引起當(dāng)下如此大的爭(zhēng)議,我們需要了解它在應(yīng)用上與傳統(tǒng)的自然語(yǔ)言處理方法有什么不同。

      使用預(yù)訓(xùn)練語(yǔ)言模型的自然語(yǔ)言處理(NLP)方法,可以按照是否涉及參數(shù)更新分為兩類。涉及參數(shù)更新意味著將預(yù)訓(xùn)練的語(yǔ)言模型在特定任務(wù)的數(shù)據(jù)集上進(jìn)行進(jìn)一步訓(xùn)練。相比之下,零樣本學(xué)習(xí)(zero-shot learning)、單樣本學(xué)習(xí)(one-shot learning)和少樣本學(xué)習(xí)(few-shot learning)則不需要進(jìn)行梯度更新,它們直接利用預(yù)訓(xùn)練模型的能力,從有限的或沒(méi)有任務(wù)特定數(shù)據(jù)中進(jìn)行泛化,借助模型的已有知識(shí)和理解來(lái)完成任務(wù)。

      LLM能力的跨時(shí)代飛躍——例如它能夠在無(wú)需特定任務(wù)調(diào)整的情況下處理多種任務(wù),用戶友好的設(shè)計(jì)也減少了對(duì)復(fù)雜編碼的需求——使得最近越來(lái)越多研究將其零樣本能力*用于心理學(xué)文本分析,包括情感分析、攻擊性語(yǔ)言識(shí)別、思維方式或情感檢測(cè)等多種方面。

      *LLM零樣本能力是指模型在沒(méi)有接受過(guò)特定任務(wù)的訓(xùn)練或優(yōu)化的情況下,直接利用其預(yù)訓(xùn)練時(shí)獲得的知識(shí)來(lái)理解和執(zhí)行新的任務(wù)。例如,大語(yǔ)言模型能在沒(méi)有針對(duì)性訓(xùn)練數(shù)據(jù)的支持下,通過(guò)理解文本內(nèi)容和上下文,識(shí)別文本是積極的、消極的還是中性的。

      然而,隨著應(yīng)用的深入,越來(lái)越多的聲音開(kāi)始指出LLM的局限性。首先,LLMs在面對(duì)微小的提示變化時(shí)可能會(huì)產(chǎn)生不一致的輸出,并且在匯總多次重復(fù)對(duì)不同提示的輸出時(shí),LLM有時(shí)也無(wú)法達(dá)到科學(xué)可靠性的標(biāo)準(zhǔn)。其次,Kocoń等人[5]發(fā)現(xiàn),LLMs在處理復(fù)雜、主觀性任務(wù)(如情感識(shí)別)時(shí)可能會(huì)遇到困難。最后,反觀傳統(tǒng)的微調(diào)模型,LLMs零樣本應(yīng)用的便利性與模型微調(diào)之間的差異可能并不像通常認(rèn)為的那樣顯著。

      我們要知道,針對(duì)各種任務(wù)微調(diào)過(guò)的小型語(yǔ)言模型也不斷在發(fā)展,如今越來(lái)越多的模型變得公開(kāi)可用;同時(shí)也有越來(lái)越多高質(zhì)量和專業(yè)化的數(shù)據(jù)集可供研究人員用于微調(diào)語(yǔ)言模型。盡管LLMs的零樣本應(yīng)用可能提供了即時(shí)的便利性,但最便捷的選擇往往并不是最有效的,研究者應(yīng)在被便利性吸引時(shí)保持必要的謹(jǐn)慎。

      為了更直觀地觀察ChatGPT在文本處理方面的能力,研究者們?cè)O(shè)置了三種水平的模型:零樣本、少樣本和微調(diào),來(lái)分別提取在線文本中的道德價(jià)值觀。這是一個(gè)艱巨的任務(wù),因?yàn)榧词故墙?jīng)過(guò)培訓(xùn)的人類標(biāo)注者也常常意見(jiàn)不一。語(yǔ)言中道德價(jià)值觀的表達(dá)通常極度隱晦,而由于長(zhǎng)度限制,在線帖子往往包含很少的背景信息。研究者提供了2983個(gè)包含道德或非道德語(yǔ)言的社交媒體帖子給ChatGPT,并要求它判斷帖子是否使用了任何特定類型的道德語(yǔ)言。然后將其與一個(gè)在單獨(dú)的社交媒體帖子子集中微調(diào)的小型BERT模型進(jìn)行了比較,以人類評(píng)價(jià)者的判定作為評(píng)判標(biāo)準(zhǔn)。

      結(jié)果發(fā)現(xiàn),微調(diào)后的BERT模型表現(xiàn)遠(yuǎn)勝于零樣本設(shè)置下的ChatGPT,BERT達(dá)到了0.48的F1分?jǐn)?shù),而ChatGPT只有0.22,即使是基于LIWC的方法也在F1分?jǐn)?shù)上超過(guò)了ChatGPT(零樣本),達(dá)到了0.27。ChatGPT在預(yù)測(cè)道德情感方面表現(xiàn)得極其極端,而B(niǎo)ERT幾乎在所有情況下與經(jīng)過(guò)培訓(xùn)的人類標(biāo)注者的差異并不顯著。

      盡管LIWC是一個(gè)規(guī)模更小、復(fù)雜度更低且成本更低的模型,但在偏離經(jīng)過(guò)訓(xùn)練的人類標(biāo)注者方面的可能性和極端程度顯著低于ChatGPT。如預(yù)期的那樣,在實(shí)驗(yàn)中,少樣本學(xué)習(xí)和微調(diào)均提升了ChatGPT的表現(xiàn)。我們得出兩個(gè)結(jié)論:首先,LLM所宣稱的跨上下文和靈活性優(yōu)勢(shì)可能并不總是成立;其次,雖然LLM“即插即用”很是便利,但有時(shí)可能會(huì)徹底失敗,而適當(dāng)?shù)奈⒄{(diào)可以緩解這些問(wèn)題。


      ?Jean-Michel Bihorel

      除了文本標(biāo)注中的不一致性、解釋復(fù)雜概念(如隱性仇恨言論)的不足,以及在專業(yè)或敏感領(lǐng)域可能缺乏深度這幾個(gè)方面外,缺乏可解釋性也是LLM飽受詬病之處。LLMs作為強(qiáng)大的語(yǔ)言分析工具,其廣泛的功能來(lái)自于龐大的參數(shù)集、訓(xùn)練數(shù)據(jù)和訓(xùn)練過(guò)程,然而這種靈活性和性能的提升是以降低可解釋性和可重復(fù)性為代價(jià)的。LLM所謂的更強(qiáng)預(yù)測(cè)能力,是心理學(xué)文本分析研究者傾向于使用基于神經(jīng)網(wǎng)絡(luò)的模型的重要原因。但如果無(wú)法顯著超越自上而下的方法的話,那么后者在可解釋性上的優(yōu)勢(shì)可能促使心理學(xué)家及其他社會(huì)科學(xué)家轉(zhuǎn)而使用更傳統(tǒng)的模型。

      綜合來(lái)看,在許多應(yīng)用場(chǎng)景中,較小的(經(jīng)過(guò)微調(diào)的)模型可以比當(dāng)前的大型(生成式)語(yǔ)言模型更強(qiáng)大且更少偏差,尤其當(dāng)大語(yǔ)言模型處于零樣本和少樣本設(shè)置中時(shí)。比如,在探索焦慮癥患者在線支持論壇的語(yǔ)言時(shí),使用較小的、專門(mén)化的語(yǔ)言模型的研究人員可能能夠發(fā)現(xiàn)與研究領(lǐng)域直接相關(guān)的微妙細(xì)節(jié)和特定的語(yǔ)言模式(例如,擔(dān)憂、不確定性的耐受性)。這種有針對(duì)性的方法可以深入了解焦慮癥患者的經(jīng)歷,揭示他們獨(dú)特的挑戰(zhàn)和潛在的干預(yù)措施。通過(guò)利用專門(mén)化的語(yǔ)言模型或像CCR、LIWC這樣的自上而下的方法,研究人員可以在廣度和深度之間取得平衡,從而能夠更精細(xì)地探索文本數(shù)據(jù)。

      盡管如此,LLMs作為文本分析工具,在微調(diào)數(shù)據(jù)稀缺的情況下——例如新興概念或研究不足的群體時(shí)——其零樣本能力可能仍然可以提供有價(jià)值的表現(xiàn),使研究人員能夠探討一些緊迫的研究課題。在這些情況下,采用少樣本提示(few-shot prompting)的方法可能既有效又高效,因?yàn)樗鼈冎恍枰倭烤哂写硇缘氖纠纯蛇M(jìn)行。

      另外,有研究表明LLMs可以從理論驅(qū)動(dòng)的方法中受益,基于這個(gè)發(fā)現(xiàn),開(kāi)發(fā)能夠結(jié)合這兩種方法優(yōu)勢(shì)的技術(shù),是未來(lái)研究的一個(gè)有前景的方向。隨著大型語(yǔ)言模型技術(shù)的快速進(jìn)展,解決其性能和偏差問(wèn)題只是時(shí)間問(wèn)題,預(yù)計(jì)這些挑戰(zhàn)將在不遠(yuǎn)的將來(lái)得到有效緩解。

      不可忽略的可重復(fù)性

      可重復(fù)性指的是使用相同的數(shù)據(jù)和方法可以復(fù)制和驗(yàn)證結(jié)果的能力。然而,LLM的黑箱特性使得相關(guān)研究結(jié)果難以再現(xiàn)。對(duì)依賴LLM生成的數(shù)據(jù)或分析的研究來(lái)說(shuō),這一限制構(gòu)成了實(shí)現(xiàn)再現(xiàn)性的重大障礙。

      例如,LLM經(jīng)過(guò)更新,其偏好可能會(huì)發(fā)生變化,這可能會(huì)影響先前已建立的“最佳實(shí)例”和“去偏差策略“的有效性。目前,ChatGPT及其他閉源模型并不提供它們的舊版本,這限制了研究人員使用特定時(shí)間點(diǎn)的模型來(lái)復(fù)現(xiàn)研究結(jié)果的能力。例如,“gpt3.5-January-2023”版本一旦更新,先前的參數(shù)和生成的輸出也可能隨之改變,這對(duì)科研的嚴(yán)謹(jǐn)性構(gòu)成挑戰(zhàn)。重要的是,新版本并不保證在所有任務(wù)上的性能都會(huì)相同或更好。例如,GPT-3.5和GPT-4被報(bào)道在各種文本分析任務(wù)上存在不一致的結(jié)果——GPT-4有時(shí)表現(xiàn)得比GPT-3.5更差[6]——這進(jìn)一步加深了人們對(duì)模型的非透明變化的擔(dān)憂。

      除了從科學(xué)的開(kāi)放性(open science)角度來(lái)看LLM的黑箱性質(zhì),研究人員更在意的其實(shí)是“知其然,知其所以然”的科研精神——在獲得高質(zhì)量、有信息量的語(yǔ)義表示時(shí),我們更應(yīng)該關(guān)注的是用于生成這些輸出的算法,而不是輸出結(jié)果本身。在過(guò)去,計(jì)算模型的主要優(yōu)勢(shì)之一在于它們?cè)试S我們“窺探內(nèi)部”,某些心理過(guò)程難以被測(cè)試但可以通過(guò)模型進(jìn)行推斷。因此,使用不提供此級(jí)別訪問(wèn)權(quán)限的專有LLMs,可能會(huì)阻礙心理學(xué)和其他領(lǐng)域研究者從計(jì)算科學(xué)的最新進(jìn)展中獲益。


      ?Stuart McReath

      總結(jié)

      新一代對(duì)大眾開(kāi)發(fā)的在線服務(wù)型LLM(如ChatGPT、Gemini、Claude)為許多研究人員提供了一個(gè)既強(qiáng)大又易于使用的工具。然而,隨著這些工具的普及和易用性的增加,研究人員有責(zé)任保持對(duì)這些模型能力與局限性的清醒認(rèn)識(shí)。尤其是在某些任務(wù)上,由于LLM的出色表現(xiàn)和高度互動(dòng)性,可能會(huì)讓人們誤以為它們始終是研究對(duì)象或自動(dòng)化文本分析助手的最佳選擇。這些誤解可能會(huì)簡(jiǎn)化人們對(duì)這些復(fù)雜工具的理解,并作出不明智的決定。例如為了方便或因?yàn)槿狈φJ(rèn)識(shí)而避免必要的微調(diào),從而未能充分利用其全部能力,最終得到相對(duì)較差的效果,或者忽視了與透明度和再現(xiàn)性相關(guān)的獨(dú)特挑戰(zhàn)。

      我們還需要認(rèn)識(shí)到,許多歸因于LLM的優(yōu)勢(shì)在其他模型中也存在。例如,BERT或開(kāi)源的LLM可以通過(guò)API訪問(wèn),為無(wú)法自我托管這些技術(shù)的研究人員提供了一個(gè)方便且低成本的選擇。這使得它們?cè)跓o(wú)需大量編碼或技術(shù)專業(yè)知識(shí)的情況下也能被廣泛使用。此外,OpenAI還提供了嵌入模型,如“text-embedding-ada-3”,可以像BERT一樣用于下游任務(wù)。

      歸根結(jié)底,任何計(jì)算工具的負(fù)責(zé)任使用都需要我們?nèi)胬斫馄淠芰Γ⑸髦乜紤]該工具是否為當(dāng)前任務(wù)最適合的方法。這種平衡的做法能夠確保技術(shù)進(jìn)步在研究中得到有效和負(fù)責(zé)任的利用。

      [1] SINGHAL K, AZIZI S, TU T, et al. Large language models encode clinical knowledge [J]. Nature, 2023, 620(7972): 172-80.

      [2] MOTOKI F, PINHO NETO V, RODRIGUES V. More human than human: measuring ChatGPT political bias [J]. Public Choice, 2024, 198(1): 3-23.

      [3] WEBB T, HOLYOAK K J, LU H. Emergent analogical reasoning in large language models [J]. Nat Hum Behav, 2023, 7(9): 1526-41.

      [4] DILLION D, TANDON N, GU Y, et al. Can AI language models replace human participants? [J]. Trends Cogn Sci, 2023, 27(7): 597-600.

      [5] KOCO? J, CICHECKI I, KASZYCA O, et al. ChatGPT: Jack of all trades, master of none [J]. Information Fusion, 2023, 99: 101861.

      [6] RATHJE S, MIREA D-M, SUCHOLUTSKY I, et al. GPT is an effective tool for multilingual psychological text analysis [Z]. PsyArXiv. 2023.10.31234/osf.io/sekf5






      關(guān)于追問(wèn)nextquestion

      天橋腦科學(xué)研究院旗下科學(xué)媒體,旨在以科學(xué)追問(wèn)為紐帶,深入探究人工智能與人類智能相互融合與促進(jìn),不斷探索科學(xué)的邊界。如果您有進(jìn)一步想要討論的內(nèi)容,歡迎評(píng)論區(qū)留言,或添加小助手微信questionlab,加入社群與我們互動(dòng)。

      關(guān)于天橋腦科學(xué)研究院

      天橋腦科學(xué)研究院(Tianqiao and Chrissy Chen Institute, TCCl)是由陳天橋、雒芊芊夫婦出資10億美元?jiǎng)?chuàng)建的世界最大私人腦科學(xué)研究機(jī)構(gòu)之一,圍繞全球化、跨學(xué)科和青年科學(xué)家三大重點(diǎn),支持腦科學(xué)研究,造福人類。TCCI與華山醫(yī)院、上海市精神衛(wèi)生中心設(shè)立了應(yīng)用神經(jīng)技術(shù)前沿實(shí)驗(yàn)室、人工智能與精神健康前沿實(shí)驗(yàn)室;與加州理工學(xué)院合作成立了TCCI加州理工神經(jīng)科學(xué)研究院。TCCI建成了支持腦科學(xué)和人工智能領(lǐng)域研究的生態(tài)系統(tǒng),項(xiàng)目遍布?xì)W美、亞洲和大洋洲,包括、、、科研型臨床醫(yī)生獎(jiǎng)勵(lì)計(jì)劃、、中文媒體追問(wèn)、大圓鏡科普等。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      72萬(wàn)個(gè)充電樁,年入40億,常州夫婦邊賺錢(qián)邊收割,如今要上市了

      72萬(wàn)個(gè)充電樁,年入40億,常州夫婦邊賺錢(qián)邊收割,如今要上市了

      毒sir財(cái)經(jīng)
      2026-02-22 10:38:14
      貝加爾湖溺亡事故幸存者被救細(xì)節(jié)披露:生死三分鐘,冰縫絕境逃生

      貝加爾湖溺亡事故幸存者被救細(xì)節(jié)披露:生死三分鐘,冰縫絕境逃生

      奇思妙想生活家
      2026-02-22 13:09:12
      克格勃的悲哀:偷到的西方技術(shù),卻是壓垮蘇聯(lián)的最后一根稻草

      克格勃的悲哀:偷到的西方技術(shù),卻是壓垮蘇聯(lián)的最后一根稻草

      呂醿極限手工
      2026-02-21 07:47:57
      美國(guó)一富豪被冷凍50年,原定2017年蘇醒,解凍時(shí)工作人員緊急叫停

      美國(guó)一富豪被冷凍50年,原定2017年蘇醒,解凍時(shí)工作人員緊急叫停

      蜉蝣說(shuō)
      2025-12-01 11:20:58
      哈佛大學(xué):被父母用心關(guān)注的孩子,其大腦發(fā)育速度比同齡人快30%

      哈佛大學(xué):被父母用心關(guān)注的孩子,其大腦發(fā)育速度比同齡人快30%

      追尋文史
      2026-02-21 22:24:30
      金風(fēng)科技這回沒(méi)人能攔住了

      金風(fēng)科技這回沒(méi)人能攔住了

      蔚然先聲
      2026-02-22 08:31:55
      美專家罕見(jiàn)達(dá)成一致:一旦臺(tái)灣回歸中國(guó),美國(guó)可能就剩1條路可走

      美專家罕見(jiàn)達(dá)成一致:一旦臺(tái)灣回歸中國(guó),美國(guó)可能就剩1條路可走

      我是盲流
      2026-02-22 06:10:12
      貝加爾湖遇難中國(guó)游客身份全部確認(rèn):七條生命,一個(gè)破碎的春節(jié)

      貝加爾湖遇難中國(guó)游客身份全部確認(rèn):七條生命,一個(gè)破碎的春節(jié)

      青木說(shuō)
      2026-02-22 09:02:50
      奧運(yùn)冠軍,拉開(kāi)拉鏈,Nike贏麻了

      奧運(yùn)冠軍,拉開(kāi)拉鏈,Nike贏麻了

      設(shè)計(jì)癖
      2026-02-21 21:33:49
      罪有應(yīng)得!官方徹查后,閆學(xué)晶再迎噩耗,她最擔(dān)心的事還是發(fā)生了

      罪有應(yīng)得!官方徹查后,閆學(xué)晶再迎噩耗,她最擔(dān)心的事還是發(fā)生了

      來(lái)科點(diǎn)譜
      2026-01-23 11:08:02
      WTT新加坡大滿貫:國(guó)乒2人出局,日本主力5連勝,晚間賽程

      WTT新加坡大滿貫:國(guó)乒2人出局,日本主力5連勝,晚間賽程

      獨(dú)舞獨(dú)舞
      2026-02-22 18:03:02
      “跳水”大降價(jià),又一豪車(chē)品牌扛不住了!

      “跳水”大降價(jià),又一豪車(chē)品牌扛不住了!

      蔣東文
      2026-01-16 20:51:15
      新春走基層·一線直擊|打卡北京隆福寺:一籃年貨 喜樂(lè)相伴

      新春走基層·一線直擊|打卡北京隆福寺:一籃年貨 喜樂(lè)相伴

      新華社
      2026-02-20 22:19:21
      6名精英女性在加州致命雪崩中遇難:她們因孩子結(jié)緣,裝備齊全

      6名精英女性在加州致命雪崩中遇難:她們因孩子結(jié)緣,裝備齊全

      極目新聞
      2026-02-21 19:27:21
      連追4球!西蒙尼率隊(duì)逆襲,1億巨星再次啞火:14輪0進(jìn)球

      連追4球!西蒙尼率隊(duì)逆襲,1億巨星再次啞火:14輪0進(jìn)球

      足球狗說(shuō)
      2026-02-22 06:28:58
      牛鬼蛇神現(xiàn)原形!王濛放狠話敢簽生死狀不到48小時(shí),擔(dān)心的事發(fā)生

      牛鬼蛇神現(xiàn)原形!王濛放狠話敢簽生死狀不到48小時(shí),擔(dān)心的事發(fā)生

      林子說(shuō)事
      2026-02-21 23:24:51
      人大調(diào)研報(bào)告:教師將過(guò)剩633萬(wàn)!今年報(bào)志愿,師范專業(yè)還能報(bào)嗎

      人大調(diào)研報(bào)告:教師將過(guò)剩633萬(wàn)!今年報(bào)志愿,師范專業(yè)還能報(bào)嗎

      狐貍先森講升學(xué)規(guī)劃
      2026-02-20 11:50:44
      常寬:與前妻離婚18年,退出歌壇12年無(wú)音信,如今滿頭白發(fā)認(rèn)不出

      常寬:與前妻離婚18年,退出歌壇12年無(wú)音信,如今滿頭白發(fā)認(rèn)不出

      白面書(shū)誏
      2026-02-21 22:33:36
      旅客下車(chē)接電話將900克金飾遺落在動(dòng)車(chē)上,價(jià)值約135萬(wàn)元,乘務(wù)組:在行李架上,黑色手提袋里有金條、金手鏈、金項(xiàng)鏈等

      旅客下車(chē)接電話將900克金飾遺落在動(dòng)車(chē)上,價(jià)值約135萬(wàn)元,乘務(wù)組:在行李架上,黑色手提袋里有金條、金手鏈、金項(xiàng)鏈等

      封面新聞
      2026-02-21 18:27:11
      孩子越大,越要告訴他這五句人生真相:比成績(jī)更重要的,是活好這一生

      孩子越大,越要告訴他這五句人生真相:比成績(jī)更重要的,是活好這一生

      青蘋(píng)果sht
      2026-02-20 05:52:21
      2026-02-22 18:56:49
      追問(wèn)Nextquestion incentive-icons
      追問(wèn)Nextquestion
      科研就是不斷探索問(wèn)題的邊界
      665文章數(shù) 33關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發(fā)射超過(guò)10000顆衛(wèi)星

      頭條要聞

      7名中國(guó)游客遺體從貝加爾湖被打撈出 俄羅斯外長(zhǎng)致哀

      頭條要聞

      7名中國(guó)游客遺體從貝加爾湖被打撈出 俄羅斯外長(zhǎng)致哀

      體育要聞

      75673人見(jiàn)證!邁阿密0-3:梅西孫興慜過(guò)招

      娛樂(lè)要聞

      裴世矩養(yǎng)侄為刃 看懂兩次放行裴行儼!

      財(cái)經(jīng)要聞

      特朗普新加征關(guān)稅稅率從10%提升至15%

      汽車(chē)要聞

      續(xù)航1810km!smart精靈#6 EHD超級(jí)電混2026年上市

      態(tài)度原創(chuàng)

      教育
      藝術(shù)
      時(shí)尚
      房產(chǎn)
      游戲

      教育要聞

      2026高考400-500分,報(bào)這4所大學(xué)!畢業(yè)就業(yè)不比211差!

      藝術(shù)要聞

      慈禧墓盜出的草書(shū),這才是正宗的古人筆法!

      50歲女性過(guò)冬穿搭:有大衣和羽絨服就夠了,簡(jiǎn)約從容才是優(yōu)雅

      房產(chǎn)要聞

      窗前即地標(biāo)!獨(dú)占三亞灣C位 自貿(mào)港總裁行宮亮相

      部分地區(qū)已提前收到《寶可夢(mèng):火紅·葉綠》兌換碼

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版