PsyBrain 腦心前沿 | 公眾號 PSY-Brain_Frontier
一鍵關(guān)注,點(diǎn)亮星標(biāo) ??
不錯(cuò)過每日前沿資訊
認(rèn)知神經(jīng)科學(xué)前沿文獻(xiàn)分享
![]()
基本信息
Title:Addressing low statistical power in computational modelling studies in psychology and neuroscience
發(fā)表時(shí)間:2025.11.17
Journal:Nature Human Behaviour
影響因子:16.0
獲取原文:
添加小助手:PSY-Brain-Frontier即可獲取PDF版本
![]()
![]()
研究背景
計(jì)算建模(Computational Modelling)已成為認(rèn)知神經(jīng)科學(xué)、心理學(xué)和腦科學(xué)領(lǐng)域揭示行為與神經(jīng)數(shù)據(jù)背后隱藏機(jī)制的核心工具。通過構(gòu)建復(fù)雜的數(shù)學(xué)模型來模擬認(rèn)知過程,研究人員得以檢驗(yàn)關(guān)于人類心智功能和其障礙的理論假設(shè)。在這一研究范式中,貝葉斯模型選擇(Bayesian Model Selection, BMS) 扮演著關(guān)鍵的推斷角色,用于評估一組競爭性理論模型中,哪一個(gè)能以最優(yōu)方式解釋觀察到的數(shù)據(jù)。BMS因其強(qiáng)大的推斷能力,被廣泛視為替代經(jīng)典零假設(shè)檢驗(yàn)的有力工具。
![]()
注:圖片由AI生成
然而,盡管計(jì)算建模的影響力日益增長,該領(lǐng)域卻面臨一個(gè)被長期低估的系統(tǒng)性挑戰(zhàn):模型選擇的統(tǒng)計(jì)功效 (Statistical Power) 不足。低功效不僅會大大降低檢測真實(shí)效應(yīng)(Type II 錯(cuò)誤)的概率,更嚴(yán)重的是,當(dāng)?shù)凸πУ难芯康贸觥帮@著”結(jié)果時(shí),其發(fā)現(xiàn)的真實(shí)效應(yīng)很可能被夸大(即“贏者詛咒”效應(yīng)或 Type I 錯(cuò)誤增加)。這一危機(jī)的根源在于研究人員普遍未能充分認(rèn)識到,確定足夠的樣本量 (N)并非唯一的考量因素,模型選擇的功效還受到候選模型空間的大小 (K)的嚴(yán)峻約束。
本研究通過建立新的功效分析框架,首次系統(tǒng)性地量化了這一關(guān)鍵制約:當(dāng)模型空間擴(kuò)大時(shí),即納入更多的競爭性解釋模型時(shí),即使存在一個(gè)真實(shí)的最佳模型,其相對于次佳模型的相對優(yōu)勢(Effect Size)也會自然減小。這意味著,隨著競爭性模型的增多,研究必須投入遠(yuǎn)超傳統(tǒng)預(yù)期的更大樣本量才能可靠地區(qū)分它們。這種關(guān)系類似于在一個(gè)選擇有限(K 小)的國家和另一個(gè)擁有幾十種美食(K 大)的國家中確定“最愛”:后者需要大得多的樣本量才能做出自信的判斷。因此,計(jì)算建模領(lǐng)域迫切需要一種方法論上的反思與校準(zhǔn),以確保推斷的可靠性。
![]()
研究核心總結(jié)
本研究基于一項(xiàng)針對隨機(jī)效應(yīng)貝葉斯模型選擇(Random Effects Bayesian Model Selection,RE-BMS)開發(fā)的通用功效分析框架 ,揭示了當(dāng)前領(lǐng)域中普遍存在的統(tǒng)計(jì)缺陷,并提出了規(guī)范化的解決方案。
統(tǒng)計(jì)功效的定量法則與領(lǐng)域現(xiàn)狀警示
該框架通過模擬分析清晰地證實(shí)并量化了模型選擇統(tǒng)計(jì)功效的“雙重依賴”:統(tǒng)計(jì)功效與樣本量 (N) 呈正相關(guān)關(guān)系,但與候選模型空間大小 (K) 呈顯著的負(fù)相關(guān)關(guān)系。這一定量關(guān)系要求研究人員在設(shè)計(jì)實(shí)驗(yàn)時(shí),必須同時(shí)考慮 N 和 K 的平衡。
遺憾的是,利用此框架對發(fā)表在頂尖期刊(包括《自然-人類行為》、《自然》和《科學(xué)》)的52項(xiàng)人類計(jì)算建模研究進(jìn)行的文獻(xiàn)回顧顯示,領(lǐng)域內(nèi)的功效不足問題非常普遍且系統(tǒng)性。分析結(jié)果表明,在模型選擇環(huán)節(jié),高達(dá)79%(52項(xiàng)研究中的41項(xiàng)) 的研究統(tǒng)計(jì)功效低于公認(rèn)的80%標(biāo)準(zhǔn)。這一驚人的數(shù)字表明,即使是發(fā)表在最高平臺上的前沿研究,也普遍低估了區(qū)分復(fù)雜競爭模型所需的樣本規(guī)模,面臨模型誤選的高風(fēng)險(xiǎn)。
![]()
Fig. 1 | Power as a function of sample size and size of model space.
嚴(yán)厲批判:固定效應(yīng)模型選擇的統(tǒng)計(jì)災(zāi)難
文獻(xiàn)回顧同時(shí)發(fā)現(xiàn),該領(lǐng)域仍有相當(dāng)一部分研究(46%)依賴于固定效應(yīng)模型選擇(Fixed Effects Model Selection,FEMS) 。FEMS的基本假設(shè)是群體中的所有個(gè)體都遵循同一個(gè)單一模型 ,這忽略了人類群體中固有的、有意義的個(gè)體間異質(zhì)性(Between-Subject Variability),在現(xiàn)代神經(jīng)科學(xué)和心理學(xué)中被認(rèn)為是不可信的 。
更令人擔(dān)憂的是,F(xiàn)EMS在實(shí)踐中存在災(zāi)難性的統(tǒng)計(jì)問題,這些問題使其推斷結(jié)果極不可靠:
極高假陽性率: 在零假設(shè)情景(即模型之間無真實(shí)差異)下,F(xiàn)EMS在 97% 的模擬中錯(cuò)誤地宣布了一個(gè)獲勝模型 。這意味著使用FEMS,研究者幾乎總會“發(fā)現(xiàn)”一個(gè)贏家,即使這個(gè)發(fā)現(xiàn)完全是隨機(jī)噪聲的產(chǎn)物,嚴(yán)重?fù)p害了推斷的特異性 。
對異常值的極端敏感性: FEMS通過簡單地累加所有個(gè)體的對數(shù)證據(jù),使其對單個(gè)極端異常值具有不成比例的敏感性 。模擬分析顯示,在50個(gè)受試者中,僅一個(gè)極端異常值(強(qiáng)烈支持模型 1)就足以在77%的模擬中推翻真實(shí)模型(Model 2)的推斷結(jié)果 。這種對少數(shù)個(gè)體數(shù)據(jù)點(diǎn)的過度依賴,使FEMS的發(fā)現(xiàn)容易受到“贏者詛咒”的影響,夸大復(fù)雜模型的優(yōu)勢 。
鑒于這些無法彌補(bǔ)的統(tǒng)計(jì)缺陷,研究強(qiáng)烈建議該領(lǐng)域必須摒棄FEMS,轉(zhuǎn)向統(tǒng)計(jì)假設(shè)更現(xiàn)實(shí)、對異常值敏感性更低的隨機(jī)效應(yīng)模型選擇(RE-BMS)。
![]()
Fig. 2 | Narrative review of the literature.
規(guī)范化推斷與實(shí)踐方向
RE-BMS 允許量化群體中的模型異質(zhì)性,并使用超越概率(exceedance probability, XP) 作為關(guān)鍵指標(biāo),它量化了某一模型比所有其他模型更有可能的置信度。
本研究的一個(gè)重要方法論貢獻(xiàn)是,針對RE-BMS推斷缺乏統(tǒng)一閾值的問題,該功效框架首次通過零假設(shè)模擬,校準(zhǔn)了一個(gè)嚴(yán)格的決策閾值,從而將Type I錯(cuò)誤率控制在5%,與經(jīng)典假設(shè)檢驗(yàn)對標(biāo)。這為超越概率提供了原則性的顯著性標(biāo)準(zhǔn),提高了該指標(biāo)的規(guī)范性。
![]()
Fig. 3 | Fixed effects model selection is highly sensitive to modest outliers.
研究總結(jié)呼吁,研究人員在設(shè)計(jì)計(jì)算建模研究時(shí),應(yīng)主動利用新的功效分析框架,平衡樣本量 N 和模型空間 K。在樣本獲取受限時(shí),縮小模型空間至最相關(guān)的理論競爭者,是提高統(tǒng)計(jì)功效、確保研究結(jié)果可復(fù)現(xiàn)性和可靠性的關(guān)鍵策略。
前沿交流|歡迎加入認(rèn)知神經(jīng)科學(xué)前沿交流群!
![]()
Abstract
Computational modelling is a powerful tool for uncovering hidden processes in observed data, yet it faces underappreciated challenges. Among these, determining appropriate sample sizes for computational studies remains a critical but overlooked issue, particularly for model selection analyses. Here we introduce a power analysis framework for Bayesian model selection, a method widely used to choose the best model among alternatives. Our framework reveals that while power increases with sample size, it decreases as more models are considered. Using this framework, we empirically demonstrate that psychology and human neuroscience studies often suffer from low statistical power in model selection. A total of 41 of 52 studies reviewed had less than 80% probability of correctly identifying the true model. The field also heavily relies on fixed effects model selection, which we demonstrate has serious statistical issues, including high false positive rates and pronounced sensitivity to outliers.
![]()
核心圖表、方法細(xì)節(jié)、統(tǒng)計(jì)結(jié)果與討論見原文及其拓展數(shù)據(jù)。
分享人:飯哥
審核:PsyBrain 腦心前沿編輯部
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.