網易首頁 > 網易號 > 正文申請入駐

華爾街徹夜難眠！Gemini 3屠榜金融「最難考試」，AI砸了「金飯碗」？

2025-12-15 18:02:48　來源: 新智元

北京舉報

分享至

新智元報道

編輯：KingHZ

【新智元導讀】被譽為「黃金職業通行證」的人類知識堡壘，CFA考試悄然陷落。最新的推理模型不僅輕松通過了CFA三級考試，還創造了幾乎滿分的成績。

AI一分鐘，人類十年功！

一覺醒來，AI推理模型已橫掃特許金融分析師CFA考試。

要拿下享譽全球的CFA（特許金融分析師）證書，對于人類考生來說，這通常意味著數年的煎熬和至少1000小時的苦讀。

但AI這次取得的成績有點讓人「破防」了：推理模型不僅輕松通過了三級考試，還創造了幾乎滿分的成績。

具體而言，在一級考試中，Gemini 3.0 Pro創下97.6%的歷史最高紀錄。

二級考試中，GPT-5以94.3%的成績領先。

在三級考試中，Gemini 2.5 Pro在選擇題部分取得86.4%的最高分，而Gemini 3.0 Pro在問答題部分達到92.0%的優異成績。

那些想去華爾街工作的畢業生，可能睡不著了。

金融界「最難考試」被AI通關

特許金融分析師（Chartered Financial Analyst，CFA）認證被公認為金融領域難度最大的資格認證之一。

全部三級考試，需要逐級通過，涵蓋從基礎知識到應用分析、直至復雜投資組合構建的進階能力。

在2023年，當時最強的AI模型只能解答部分CFA試題，表現參差不齊。

當時的研究證實AI能搞定CFA一級和二級考試，但當時它們在三級考試面前卻碰了壁，因為搞不定那些復雜的論述題（essay questions）。

鏈接：https://aclanthology.org/2024.emnlp-industry.80/

到了今年7月，AI已經能在幾分鐘之內通過最難的CFA考試：

來自紐約大學斯特恩商學院（NYU Stern）與AI財富管理平臺GoodFin的研究人員想探究：AI是否已經具備了處理「專業金融決策所需的、高風險的分析推理」能力？

研究團隊對23個大語言模型進行了「大閱兵」，測試它們處理CFA三級模擬試題中選擇題和論述題的能力。

要知道，CFA三級考試的核心可是最考驗功力的投資組合管理和財富規劃。

CFA三級考試主題和權重

結果顯示，o4-mini、Gemini 2.5 Pro和Claude Opus等前沿推理模型，在運用「思維鏈」（chain-of-thought）提示詞技術后，均成功通關。

鏈接：https://arxiv.org/pdf/2507.02954

「我認為毫無疑問，這項技術將在未來徹底重塑整個行業。」GoodFin的創始人兼CEO Anna Joo Fee如是說。

本月9日，最新研究表明，當前這代推理模型不僅全部通過了三級考試，某些科目甚至接近滿分。

預印本鏈接;https://arxiv.org/abs/2512.08270

標題：Reasoning Models Ace the CFA Exams

AI的新成績讓人破防

來自哥倫比亞大學、倫斯勒理工學院和北卡羅來納大學的研究團隊，使用包含980道考題的題庫對6款推理模型進行測試。

他們編制了一套涵蓋CFA（特許金融分析師）全部三個等級的模擬試題，共計980道題目。

一級試題集（Level I Set）：包含三套試卷，總計540道多選題（Multiple Choice Questions, MCQs），每套180題。
二級試題集（Level II Set）：包含兩套試卷，總計176道選擇題（每套88題），每套試卷由22個「案例題組」（item sets）組成，每個題組包含4個問題。
三級試題集（Level III Set）：包含三套試卷，總計264道題目（每套88題）；每套試卷采用混合形式，包含11個案例題組（共44道選擇題）和11個論述型案例分析（constructed-response case studies，共44道論述題/CRQs）。

盡管正式CFA考試中論述題的具體數量和分值權重會有所變化，但這些模擬試題遵循了標準且具有代表性的結構。

（注：案例文本以藍色標注，問題以紅色呈現，選項以綠色顯示，所有示例均為示意性內容而非真實考題）

一級考試選擇題示例：聚焦道德與職業行為準則，通過利益沖突情境考查考生對合規判斷的掌握。
二級考試選擇題：圍繞股權投資實務，測試對IPO牽頭行核心職責的理解與辨析能力。
三級考試論述題示例：設定財務報告分析情境，要求結合通脹環境變化，判斷并說明外幣報表折算方法的適用性。
三級考試選擇題示例：涉及私募市場估值，需計算債券市值，并綜合評估違約風險與清償順位對投資價值的影響。
三級考試論述題示例：探討資產配置理論，比較兩種資本資產定價模型（CAPM）的應用前提與估計精度，論證其適用差異。

結果顯示：Gemini 3.0 Pro、Gemini 2.5 Pro、GPT-5、Grok 4、Claude Opus 4.1和DeepSeek-V3.1均依據既定標準通過了所有級別考核，部分成績甚至接近滿分。

Gemini與GPT-5雙雄領跑

在一級考試（基礎多選題）中，Gemini 3.0 Pro以97.6%的驚人準確率創下歷史新高。GPT-5緊隨其后，斬獲96.1%，Gemini 2.5 Pro也拿到了95.7%的高分。即便是測試中表現「墊底」的DeepSeek-V3.1，準確率也高達90.9%。

來到側重應用與分析（案例研究）的二級考試，GPT-5反超奪魁，準確率達94.3%。Gemini 3.0 Pro和Gemini 2.5 Pro分別以93.2%和92.6%緊隨其后。

研究人員驚嘆道，這些模型在此階段的表現「近乎完美」。不過，「道德規范」（Ethics）板塊依然是AI的軟肋。數據顯示，即便最強模型，在二級考試的道德類題目中也有17%到21%的相對錯誤率。

到了最復雜的三級考試（包含選擇題與開放式問答），Gemini 2.5 Pro在選擇題部分拔得頭籌，準確率為86.4%。但在更考驗生成能力的「論述題」環節，Gemini 3.0 Pro展現了統治力，得分率高達92.0%，相比前代模型的82.8%有了質的飛躍。

為了對開放式問答環節進行評分，研究團隊使用了o4-mini模型來實現自動化批改。

研究人員坦言，這種做法可能會引入測量誤差，并產生某種「篇幅偏見」（verbosity bias），即回答越長，得分往往越高。因此，這些測試結果只能視為基于模型的估算值。

通過標準沿用了過往合格標準：

一級考試要求單科不低于 60%，總分不低于 70%；

二級考試要求單科不低于 50%，總分不低于 60%；

三級考試則要求在選擇題和論述題兩部分中，平均得分率至少達到 63%。

研究人員指出，測試結果表明「推理模型的專業能力已超越初級至中級金融分析師的要求，未來甚至可能達到資深分析師的水準」。

如果說此前的大語言模型已經掌握了一級和二級考試中那些「既定的規范化知識」（codified knowledge），那么最新一代模型正在習得三級考試所必需的復雜「綜合研判能力」（synthesis skills）。

當然，慣常的局限性依然存在。基準測試，尤其是選擇題形式，只能作為評估模型能力和潛在經濟價值的參考，猶如管中窺豹。

盡管如此，短短兩年間從「不及格」到「近乎滿分」的巨大飛躍，足以凸顯 AI 在專業領域的進化速度之快。

AI通關CFA了，然后呢？

當機器能輕松考下你引以為傲的證書，能代寫你的報告，能處理你的數據，甚至很快在分析能力上都能把你甩在身后時，你該怎么辦？

媒體行業創業者兼出版人Matthias Bastian認為，會考試 ≠ 能干活：

考場得意，不代表職場如意。通過考試并不意味著模型能勝任金融分析師的日常瑣碎工作（daily grind），比如與客戶面談、評估復雜的市場情緒，以及在信息不全的情況下做出關鍵決策。
研究還特別提到，模型在「道德倫理」類題目上依然最吃力，因為這類問題往往需要深度的情境理解和價值判斷。畢竟，考試考察的是孤立的知識點，而非在復雜多變的現實世界中靈活運用知識的能力。
此外，研究人員也無法完全排除「數據污染」的可能性。雖然測試使用的是最新的付費受版權保護材料，但相關考題可能早已通過公共數據集中的改寫或變體內容，滲透進了模型的訓練數據中。這意味著，模型可能僅僅是「背過」了答案，而非真正通過邏輯推理得出了結果。

特許金融分析師、高盛全球投資研究部數據戰略團隊負責人Ingrid Tierens博士，在AI通過CFA認證考試之際，撰文表示，AI還不能替代分析師。

她認為，AI通關CFA是意料之中的勝利，畢竟在金融領域之外的考試中，AI已經拿下了頂級超級，比如奧數競賽等。

CFA考試正是AI最擅長的領域：面對界定清晰的知識體系、海量的同質化訓練數據，以及全球統一、歷久不變的標準化考試形式，AI理應表現出色。

其次，正如馬克·吐溫那句名言：「歷史不會重演，但往往驚人地相似。」

AI的進步與金融業的歷史軌跡如出一轍，同時也提醒我們，這種進步往往不是線性的，而是爆發式的。從紙筆到計算器，再到電腦、Excel表格、Python編程，金融業一直在擁抱技術變革。

在「價值投資之父」Benjamin Graham身上，這一歷史視角得到了完美體現。

他還是CFA資格認證背后的核心推動者

早在1963年，當計算機剛剛踏入投資界之時，Graham就在《金融分析師期刊》（Financial Analysts Journal）上發表了題為《金融分析的未來》的文章，對行業前景樂觀至極。

AI已經勢不可擋，關鍵在于如何「用好它」：在能創造價值的環節，在合理的安全邊界（guardrails）內，充分發揮AI的威力，這將成為核心優勢。把那些消在繁瑣分析上的時間省下來，花更多時間讓思考更具戰略高度、解決更復雜的問題以及客戶溝通更有深度。

最后，想靠AI「上位」徹底取代投資專家？短期內門兒都沒有。

想要拿下入行的敲門磚，你得證明自己能在瞬息萬變的市場中靈活運用知識，能進行批判性思考，能創新——這可比死記硬背通過CFA。

卓越的投資業績，往往來自于捕捉那些被市場忽視的「離群點」和隱秘信息，遠非考試可覆蓋。

最后，重溫一下Benjamin Graham在1963年那篇文章中的結語，至今讀來依然振聾發聵：

無論世事如何變遷，有一點我深信不疑：未來的金融分析之路，將和過去一樣，通往成功的路徑絕不止一條。

參考資料：

https://the-decoder.com/reasoning-models-now-ace-all-three-cfa-exam-levels/

https://blogs.cfainstitute.org/investor/2025/10/20/ai-can-pass-the-cfa-exam-but-it-cannot-replace-analysts/

https://www.cnbc.com/2025/09/24/ai-cfa-exam-pass-minutes-study.html

秒追ASI

?點贊、轉發、在看一鍵三連?

點亮星標，鎖定新智元極速推送！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.