網易首頁 > 網易號 > 正文申請入駐

當 AI 下場炒 A 股，「推理」成了新的直覺

2025-10-27 17:57:40　來源: AI科技評論

廣東舉報

分享至

RETuning：像金融分析師一樣的模型，正在出現。

作者丨鄭佳美

編輯丨馬曉寧

幾天前，一場名為“AI Trading Battle”的實驗在海外社交媒體上火了。主辦方給六個主流大模型（包括 ChatGPT、Gemini、Claude 等）每人一萬美元的虛擬資金，讓它們自由進行加密貨幣交易。結果讓人大跌眼鏡：截至今天，DeepSeek V3.1 實現了超過 126% 的驚人盈利率，而GPT 5 和 Gemini 2.5 Pro 跌破 5,000 美元，虧損率超過 50%。

這場“AI 交易秀”原本旨在展示智能的金融潛力，卻反而揭示了一個更深層的問題：當面對復雜而動態的金融環境時，語言模型知不知道他們“為什么下單”呢？

而由香港科技大學、美國羅格斯大學和南開大學聯合研究團隊發表的最新論文，則是關于這類問題給出了一個答案。

他們提出了一種名為RETuning的方法，讓大語言模型在做出預測前，先搜集證據、分析邏輯、反思推理，再得出結論。換句話說，模型不再是“憑直覺判斷”，而是學會了“有理有據地思考”。

研究團隊基于覆蓋中國 A 股市場的大規模數據集，對這一方法進行了系統驗證。結果表明，RETuning 不僅顯著提升了預測準確率，還讓模型的推理過程更清晰、更可信，為金融領域的人工智能研究帶來了新的方向。

從準確率到平衡性的顯著提升

在這項研究中，作者利用中國 A 股市場的大規模股票走勢預測數據集，對他們提出的RETuning（反思式證據調優）方法進行了系統驗證，結果表明這種方法確實顯著提升了大語言模型在金融預測任務中的表現。

首先，從總體效果來看，RETuning 模型（如 DeepSeek_R1_14B_SFT_GRPO）在三分類任務：預測股票“上漲、持平、下跌”中取得了明顯優勢。與主流的基礎模型相比（包括 ChatGPT、LLaMA3-8B、Mistral 等），RETuning 的 F1 分數平均高出 10% 到 20%，說明它不僅能更準確地區分股票走勢方向，還能在不同類別之間保持更平衡的預測效果。這種提升在金融任務中非常罕見，因為股票數據噪聲大、隨機性強，能有雙位數的提升已經算是非常顯著的成果。

其次，作者特別測試了模型在時間外數據（Out-of-Distribution）上的表現，也就是讓模型預測它沒見過的股票或未來日期的走勢。結果顯示，RETuning 模型在這種“未來數據”上的表現依然穩定，沒有明顯掉線，說明它具備一定的泛化能力，能適應不同時間段和不同公司的情況，而不僅僅是“記住了訓練集”。

在推理階段的實驗中，RETuning 還展示了另一個有趣的現象：作者嘗試通過“多次思考”來提升預測質量。具體做法是讓模型在同一問題上生成多次不同的推理過程（即多次采樣），最后再通過多數投票確定最終答案。結果發現，當生成次數在 8 到 16 次之間時，預測準確率會顯著提升；但如果次數太多（超過 32 次），效果反而會下降。換句話說，模型多想幾次確實有助于它更慎重地決策，但思考太多則會帶來冗余和噪聲，說明推理時擴展存在一個最佳區間。

此外，RETuning 在可解釋性方面也有明顯進步。與傳統的提示式方法（Prompt-Only）不同，RETuning 模型會主動構建一套完整的分析邏輯。它會先從輸入信息中整理出支持“上漲”的證據和支持“下跌”的證據，分別進行分析，然后再綜合判斷，得出最終預測。也就是說，它不僅給出結果，還會告訴你“為什么這么想”。

在人類專家評估中，這種反思式推理輸出被認為更有條理、更符合分析師邏輯。相比之下，傳統模型往往只輸出模糊結論或含糊理由，而 RETuning 的回答更接近人類投資分析報告的寫法：會明確說明影響因素、權衡證據并形成理性的判斷。研究人員指出，這種變化不僅提升了模型的可信度，也讓 LLM 更適合用于需要解釋性和推理深度的金融場景。

最后，RETuning 模型在多個指標上都優于其他對照模型（如只用提示的模型、僅監督微調的模型、或使用普通強化學習的模型），說明它結合了監督微調、規則化強化學習與推理時擴展三種思路的優勢，是一種綜合改進方案，而不是單一技巧。

不僅是結果，更是過程

顯著的性能提升外，是十分系統的實驗過程。RETuning 的實驗過程涵蓋了從數據構建到模型訓練、再到驗證評估的完整流程。

首先，研究團隊自己構建了一個叫Fin-2024的大規模數據集，用來模擬真實的中國 A 股市場。這個數據集非常龐大，包含 5000 多只股票、20 多萬個樣本。每條樣本都整合了來自多個渠道的信息，比如新聞報道、分析師評論、公司財報、量化指標、宏觀經濟數據，還有類似股票的走勢。然后研究者根據實際的漲跌幅給樣本打上標簽（漲、跌或持平），平均每條數據的文本長度能達到 3 萬多個詞，讓模型能處理非常長的金融文本。

在此基礎上，研究團隊采用了三個階段的訓練流程。

第一步是監督微調（SFT），這一階段的目標是讓模型學會“怎么分析”。它不直接預測，而是先建立分析邏輯：先提出分析原則，再整理出支持和反對的證據，最后得出結論。這里模型使用 DeepSeek 系列作為基礎（7B、14B、32B 參數量的版本都有），通過 LoRA 微調來節省顯存。

第二步是基于規則的強化學習（Rule-based RL），這一步是讓模型變得“更聰明”。研究者設計了一個有三項評分的獎勵機制：格式正確、預測準確、邏輯一致。模型每次生成結果后，都會根據這三項標準被“打分”，然后通過 GRPO 算法（類似 RLHF 但更穩定）不斷調整策略。

為了避免模型在太容易或太難的樣本上浪費時間，他們還引入了課程學習（Curriculum Learning）。具體做法是：先讓模型對每個樣本預測 8 次，根據預測正確的次數判斷難度，只保留“中等難度”的樣本訓練，并且按照從簡單到復雜的順序訓練，逐步提高模型的推理能力。

最后一步是推理時擴展（Inference-Time Scaling）。這就像是讓模型在做決定前多思考幾次。它會針對同一個問題生成多種不同的推理路徑（比如 8 次、16 次），然后通過多數投票選出最終預測。實驗發現，這種“多想幾次再決定”的策略，確實能顯著提高預測的穩定性和準確率。

整個訓練過程在 32 張 NVIDIA H100 GPU 上完成，SFT 階段用了 Xtuner + DeepSpeed 框架，強化學習階段則由 verl 實現 GRPO。訓練數據是 2024 年 1 月到 11 月的市場數據，測試在 2024 年 12 月的樣本上完成，還額外用了 2025 年 6 月的數據來測試模型在未來數據上的泛化能力。最終，RETuning 的表現遠超其他模型，比如 ChatGPT、LLaMA3 和 Mistral，不僅預測更準，還能解釋“為什么這么判斷”。

仍有挑戰，但方向明確

綜上實驗可以看出，RETuning 不光提升了模型的預測準確率，同時也帶來了較為深層的意義。

首先，它讓大語言模型在金融預測中變得更可解釋了。RETuning 引入了“反思式證據推理”，讓模型不只是給出結果，而是能先找證據、再分析、最后下判斷，讓整個推理過程變得清晰、可信。

其次，研究還驗證了推理時擴展這一新思路的可行性。簡單來說，就是讓模型在回答前多想幾次再決定。實驗發現，適度增加思考次數能顯著提高準確率，但思考太多反而會帶來計算開銷大、收益遞減的問題。

另外，RETuning 團隊還構建了一個覆蓋 5000 多只股票的大型 A 股數據集，為金融類大模型的訓練提供了寶貴資源，也為未來在投資情緒分析、經濟新聞理解等方向打下了基礎。

當然，這項研究也有一些局限性。模型的表現依然會受到市場噪聲和非理性波動的影響，暫時還不適合直接用于實盤交易，而訓練和推理階段的算力消耗都比較高，尤其是在強化學習和多輪采樣階段。目前的實驗也只驗證了 A 股市場，未來還需要在不同市場和時間段上進一步測試。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.