![]()
公眾號規(guī)則是部分推送,您只有設(shè)了星標(biāo)??,才能及時(shí)接收最新推送
“過擬合”的人生
1/5
一個(gè)精心編織的“謊言”
如果你給一位量化基金經(jīng)理看一條近乎完美的凈值曲線——回撤極小、收益極高、波動(dòng)規(guī)律得像心跳。他大概率不會感到興奮,而是會冷冷地問一句:“你確定策略沒有過擬合嗎?”
量化研究和所有的研究一樣,都是試圖從海量的歷史價(jià)格數(shù)據(jù)中尋找規(guī)律,但這個(gè)規(guī)律不是為了解釋過去,而是希望預(yù)測未來。
所謂“過擬合”,通俗來說就是,你的模型表現(xiàn)得太好了,以至于它除了能解釋過去,對未來一無所知。
為什么在投資的世界里,解釋過去和預(yù)測未來會發(fā)生矛盾呢?
下面的三張圖展現(xiàn)了“過擬合”發(fā)生的原因:
![]()
左圖屬于“欠擬合”,它只發(fā)現(xiàn)了藍(lán)點(diǎn)大概在左邊,橙點(diǎn)大概在右邊,但界線太過簡單;
中間的圖屬于“完美模型”,它用簡單的曲線描繪了藍(lán)點(diǎn)和橙點(diǎn)的界線,只有少數(shù)點(diǎn)不符合模型,可以視為“噪聲”,這樣的模型就擁有了泛化能力,所謂“泛化”,就是個(gè)別經(jīng)驗(yàn)可以推到更多的應(yīng)用場景。
右圖就是“過擬合”,它不但試圖描繪了藍(lán)點(diǎn)和橙點(diǎn)的界線,甚至把幾個(gè)明顯是“噪聲”的點(diǎn)也納入模型,因此顯得非常復(fù)雜。
可以想象,這個(gè)模型盡管在訓(xùn)練數(shù)據(jù)上表現(xiàn)優(yōu)秀,一旦進(jìn)入實(shí)盤環(huán)境,面對從未見過的、隨機(jī)分布的未來數(shù)據(jù),它們就會迅速失效。
“過擬合”產(chǎn)生的原因在于,你太想找一個(gè)完美的策略了,比如夏普比率大于2、最大回撤小于5%等。而金融市場是一個(gè)信噪比極低的環(huán)境,大部分的價(jià)格波動(dòng)其實(shí)是無意義的隨機(jī)噪聲。如果你追求極致的績效指標(biāo),你的算法就會不由自主地去迎合這些噪聲,把噪聲當(dāng)成信號來建模時(shí),得到的策略其實(shí)只是恰好契合了某段特定歷史樣本的產(chǎn)物。
就像右圖一樣,“過擬合”的策略,往往不斷增加各種過濾條件,比如“只在周二買入”、“MACD金叉且當(dāng)天北京有雨”,等等,而一個(gè)擁有20個(gè)參數(shù)的策略,遠(yuǎn)比只有2個(gè)參數(shù)的策略更容易在歷史數(shù)據(jù)中“拼湊”出一條漂亮的凈值曲線,也更容易出現(xiàn)“過擬合”。
舉個(gè)例子,如果用電腦分析過去的彩票開獎(jiǎng)結(jié)果,只要堆的參數(shù)足夠多,一定可以找到一個(gè)公式,完美解釋過去所有中獎(jiǎng)號碼的排列規(guī)律,但下一次開獎(jiǎng)后,它就崩了,你還要再加參數(shù)。
過擬合的本質(zhì),是用過于復(fù)雜的模型去解釋一個(gè)充滿隨機(jī)性的世界。
有趣的是,這種原本存在于高性能服務(wù)器里的“計(jì)算陷阱”,其實(shí)每天都在我們的大腦中上演。某種程度上,我們許多根深蒂固的人生觀,本質(zhì)上都是一場關(guān)于人生的“過擬合”。
2/5
經(jīng)驗(yàn)主義就是過擬合
人類大腦有約860億個(gè)神經(jīng)元,有足夠的“容量”去記住每一個(gè)創(chuàng)傷、每一次成功、每一個(gè)情緒強(qiáng)烈的瞬間,并將它們編碼成未來決策的權(quán)重。這是進(jìn)化賦予的生存優(yōu)勢,但也帶來了“過擬合”的風(fēng)險(xiǎn)。
只不過,量化策略的“過擬合”是精確的巧合,而人腦的“過擬合”往往是粗陋的偏見。
想象一個(gè)人連續(xù)兩次遇到“看起來很熱情但后來被坑了”的合作伙伴,可能會產(chǎn)生兩種認(rèn)知模型:
正確的認(rèn)知模型:我需要在合作前做更充分的背景調(diào)查,并分階段投入資源。
過擬合的認(rèn)知模型:所有熱情的人都不值得信任。以后只要對方表現(xiàn)出熱情,我就自動(dòng)疏遠(yuǎn)。
后者就是在用兩段歷史數(shù)據(jù)擬合出了一個(gè)過于具體且失去泛化能力的決策規(guī)則。未來既可能幫他避開“熱情的騙子”,也可能讓他錯(cuò)過那些真誠熱情的優(yōu)秀合作伙伴。
一個(gè)人的一生,真正具有統(tǒng)計(jì)學(xué)意義的、足以改變命運(yùn)軌跡的“獨(dú)立重大事件”,可能不過幾十次:
你選擇哪所大學(xué)、選擇哪份職業(yè);
你選擇和誰結(jié)婚、在哪個(gè)城市定居;
你在某個(gè)關(guān)鍵年份的一次大宗投資,或者在某次危機(jī)中的一次轉(zhuǎn)身。
用區(qū)區(qū)幾十個(gè)樣本去擬合一個(gè)維度近乎無窮大、復(fù)雜程度遠(yuǎn)超金融市場的現(xiàn)實(shí)世界,在數(shù)學(xué)邏輯上,過擬合幾乎是必然的。
就像上一章的那三張圖,大部分人不會滿足于中間的那個(gè)模型,而是試圖用右邊的“過擬合”的模型去解釋過去,指導(dǎo)未來。
還有數(shù)據(jù)反饋的問題,在量化策略中,我們經(jīng)常用收益率來強(qiáng)化模型;而在人類認(rèn)知中,痛苦和快樂就是最強(qiáng)烈的反饋信號。一次劇烈疼痛形成的“權(quán)重更新”,可能遠(yuǎn)超一次溫和反饋的幾百倍,這就好比在回測中某一次極端行情被賦予了過高的權(quán)重。
當(dāng)一個(gè)人通過“努力+運(yùn)氣”在某件事上獲得了成功,他的大腦會迅速總結(jié)出一套極其復(fù)雜的邏輯。他會把當(dāng)天的氣溫、自己的言談舉止、甚至當(dāng)時(shí)信奉的一句格言,全部歸納為成功的核心要素。他堅(jiān)信自己掌握了世界的密碼,卻不知道那可能只是命運(yùn)在隨機(jī)噪聲中投下的一束光。
![]()
上述“過擬合”現(xiàn)象,我們通常稱之為“經(jīng)驗(yàn)主義”,用有限的歷史樣本,擬合出一個(gè)過于復(fù)雜的決策模型,從而犧牲了在未知情境中的泛化能力。
更麻煩的是,雖然人腦也有“過擬合”的問題,卻不像量化策略那樣有科學(xué)的糾正機(jī)制。
3/5
人生沒有測試集
為了防止“過擬合”,量化有一系列科學(xué)手段來檢測,比如將數(shù)據(jù)分為訓(xùn)練集和測試集,用訓(xùn)練集構(gòu)建邏輯,用測試集檢驗(yàn)邏輯,或者用歷史數(shù)據(jù)訓(xùn)練、用新數(shù)據(jù)驗(yàn)證。
但人生永遠(yuǎn)在實(shí)戰(zhàn),沒有訓(xùn)練集也沒有測試集,人生無法兩次踏進(jìn)同一條河,無法像量化軟件那樣克隆一個(gè)自己,去平行宇宙里測試你的經(jīng)驗(yàn)是否依然奏效。
更重要的是,人類還有心理防御機(jī)制,讓我們極難意識到,那些我們引以為傲的人生經(jīng)驗(yàn),可能只是對過去某段特殊時(shí)期的“過擬合”而已。
比如確認(rèn)偏誤,人類一旦形成某個(gè)信念,大腦會主動(dòng)尋找支持它的證據(jù),忽略反駁它的案例。這相當(dāng)于在實(shí)盤中給一個(gè)已經(jīng)“過擬合”的模型添加更多參數(shù),讓它擬合新數(shù)據(jù),但也越來越偏離真相。
比如歸因偏差,當(dāng)決策成功時(shí),歸因于自己的判斷力;當(dāng)決策失敗時(shí),歸因于運(yùn)氣或外部因素。這種不對稱的反饋機(jī)制,讓人難以像量化交易員那樣冷靜地評估自己的策略。
但認(rèn)知到這一點(diǎn),人類也可以建立自己的糾錯(cuò)機(jī)制。
4/5
經(jīng)驗(yàn)的隔離
量化交易員為了防范過擬合,要求在策略開發(fā)過程中,必須留出一段“盲測數(shù)據(jù)”,在策略邏輯完全定型、參數(shù)完全鎖定之前,絕對不準(zhǔn)看它一眼。只有當(dāng)一切塵埃落定,才用這段從未被“偷看過”的數(shù)據(jù)進(jìn)行終極檢驗(yàn)。
人類其實(shí)也可以借鑒這種思維方式。
當(dāng)你形成一個(gè)堅(jiān)定的認(rèn)知(模型)時(shí),不要急于將其作為真理。嘗試在內(nèi)心建立一個(gè)“隔離區(qū)”,在做出重要人生決策之前,你可以打開這個(gè)“隔離區(qū)”,包括::
尋找那些與你過去經(jīng)驗(yàn)完全不同的新領(lǐng)域
尋找那些被你刻意忽略的“反面證據(jù)”
找一個(gè)自己過去沒有考慮過的視角
讀一本相反立場的書
請教一個(gè)背景完全不同的人
然后問問自己,我學(xué)到的這個(gè)經(jīng)驗(yàn),到底是基于事件中可重復(fù)的邏輯,還是僅僅基于當(dāng)時(shí)某個(gè)偶然的細(xì)節(jié)?如果換一批人、換一個(gè)時(shí)間,同樣的邏輯還能成立嗎?
對于任何讓自己印象深刻的教訓(xùn),都要刻意提醒自己:“這件事可能只是個(gè)例,不宜下太強(qiáng)的結(jié)論”。
還要建立概率思維,把自己的看法視為概率分布而非固定值,新信息來了,就要更新后驗(yàn)概率,而不是推翻一切或固守一切。
5/5
大道至簡
莊子說:吾生也有涯,而知也無涯,以有涯隨無涯,殆已。
人,應(yīng)該如何用有限的經(jīng)驗(yàn)(測試數(shù)據(jù)),去應(yīng)對無限的可能性(未來世界)?
在量化投資中,有一個(gè)著名的概念叫“維數(shù)災(zāi)難”,模型每增加一個(gè)參數(shù),其解釋能力看似增強(qiáng),但其穩(wěn)定性和生命力卻呈指數(shù)級下降。大部分成功的量化策略,其邏輯不相關(guān)的核心因子一般不超過5個(gè)。
經(jīng)驗(yàn)豐富的交易員更傾向于使用基于基本經(jīng)濟(jì)邏輯或市場微觀結(jié)構(gòu)的簡潔策略。比如,“均值回歸”邏輯是基于人類恐慌與貪婪的心理本質(zhì),這種邏輯不僅在100年前有效,在100年后大概率依然有效。
越是簡單的邏輯,越能跨越不同的周期,因?yàn)樗茏プ∈挛锏谋举|(zhì),而不是去描摹噪聲的形狀。
巴菲特的投資理念也是非常簡單的——好公司+復(fù)利,而且?guī)缀醪蛔儯唵畏€(wěn)定到讓很多人覺得巴菲特也不過如此。
人生也是如此。
一個(gè)高度復(fù)雜的成功路徑,依賴于特定的人脈、特定的政策、特定的行業(yè)紅利,極易在環(huán)境突變時(shí)崩塌。而那些基于常識、基于底層邏輯(如誠實(shí)、復(fù)利、終身學(xué)習(xí)、風(fēng)險(xiǎn)控制)的“簡單策略”,雖然在短期內(nèi)看起來沒有那些復(fù)雜模式收益驚人,但它們擁有更強(qiáng)的韌性,能夠帶你穿越人生的多個(gè)周期。
這就是古人總結(jié)的“大道至簡”的現(xiàn)代科學(xué)解釋,西方哲學(xué)中的“奧卡姆剃刀原則”,也是這個(gè)意思。
不要試圖去解析所有的失敗,也不要試圖去擬合每一次成功,要承認(rèn)隨機(jī)性的存在,時(shí)刻對自己的經(jīng)驗(yàn)保持懷疑,并永遠(yuǎn)保持人生策略的簡潔性。
——鋼大的財(cái)富新思維圈子——
近兩年全球股市上漲、商品通脹、黃金暴漲、航運(yùn)暴漲,資本轉(zhuǎn)移……,既是機(jī)會,也是風(fēng)險(xiǎn),需要時(shí)刻關(guān)注全球宏觀經(jīng)濟(jì)的變化,建議訂閱我的“鋼大的財(cái)富新思維圈子”,這是一個(gè)以全球宏觀分析與資產(chǎn)配置方案為特色的圈子,每天更新全球各大類資產(chǎn)觀點(diǎn),定期更新全球資產(chǎn)配置方案。
新圈子主要提供以下五大類內(nèi)容:
1、全球宏觀每日解讀
2、更新資產(chǎn)配置方案
3、社群與精選問答
4、不定期內(nèi)部直播
5、資訊、培訓(xùn)和金融產(chǎn)品
文章比較長了,更具體的介紹,可以看次條文章:
歡迎關(guān)注本公眾號
我還有另一個(gè)專業(yè)分享投資方法的公眾號,也是周更
近一年必看文章
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.