網易首頁 > 網易號 > 正文申請入駐

老板直聘實驗室突破：3B小模型實現推理編程智能體全能

2026-02-26 19:26:58　來源: 科技行者

北京舉報

分享至

當人工智能模型越來越龐大的時候，有沒有想過一個只有30億參數的小模型也能做到大模型才能做的事情？老板直聘旗下的南北閣大語言模型實驗室最近發布了一項令人矚目的研究成果，他們成功打造了一個名為Nanbeige4.1-3B的小型通用語言模型。這項研究發表于2026年2月，論文編號為arXiv:2602.13367v1，有興趣深入了解的讀者可以通過該編號查詢完整論文。

這個模型就像一把瑞士軍刀，雖然體積小巧，但功能齊全。它能夠同時勝任復雜推理、代碼生成和智能體任務，而這在以往通常需要幾十倍大小的模型才能實現。更令人驚喜的是，它不僅能處理常見的問答任務，還能進行長達600輪的工具調用，持續解決復雜問題，這種能力即使在大型模型中也極為罕見。

研究團隊面臨的核心挑戰就像在一個小箱子里裝下整套工具箱的所有功能。傳統的小模型往往只擅長某一個領域，比如有的擅長數學推理，有的擅長寫代碼，但很少有模型能在如此有限的參數規模下同時掌握多種技能。這就好比讓一個人既要是數學家，又要是程序員，還要是個能干的助手，而且還不能占用太多"存儲空間"。

為了解決這個問題，研究團隊設計了一套精巧的訓練方法。他們將訓練過程分成幾個階段，就像培養一個全能型人才一樣，先讓模型掌握基礎技能，然后逐步強化各個專業領域的能力。在推理能力方面，他們結合了點式和對式獎勵建模，確保模型既能獨立給出高質量回答，也能在比較中表現出色。在代碼生成方面，他們不僅要求代碼功能正確，還特別注重算法效率，讓模型學會寫出既能工作又跑得快的代碼。

最有趣的是他們對智能體能力的訓練方法。研究團隊通過復雜的數據合成技術構建訓練數據，并在訓練過程中加入了回合級別的監督信號。這就像教一個助手不僅要完成單個任務，還要學會制定長期計劃并持續執行。通過這種方法，Nanbeige4.1-3B能夠可靠地執行多達600輪的工具調用，這意味著它能夠處理非常復雜的多步驟問題。

實驗結果顯示，這個小模型的表現令人驚嘆。在多項基準測試中，它不僅顯著超越了同等規模的其他模型，如Nanbeige4-3B-2511和Qwen3-4B，甚至在某些任務上的表現超過了參數量是其十倍的大型模型，如Qwen3-30B-A3B。這就像一個輕量級拳手在擂臺上擊敗了重量級選手，證明了小模型同樣可以擁有強大的綜合能力。

一、訓練秘籍：讓小模型身兼數職的精妙設計

要讓一個小模型同時掌握多種技能，就像要在一個小廚房里同時準備中餐、西餐和日料一樣challenging。研究團隊采用了一套巧妙的分階段訓練策略，確保模型在有限的參數空間內實現最大化的能力整合。

在通用能力的培養階段，研究團隊首先對基礎訓練數據進行了精心調配。他們增加了代碼相關數據的比例，同時引入了更多具有挑戰性的數學和通用領域問題。這種調整就像給學生換了一套更有難度的教材，目的是鼓勵更深層次的推理能力發展，提高在困難基準測試上的表現。

更值得關注的是，他們將上下文長度從之前的兩階段課程（32k到64k）擴展到三階段，最終達到256k tokens。在最后的256k階段，他們采用了專門設計的數據混合方案，包含代碼（27%）、深度搜索（26%）、STEM科目（23%）、工具使用（13%）和通用領域（10%）。這種精確的配比確保了模型在長文本處理和復雜推理場景中的強大表現。

研究團隊還進一步優化了解決方案精煉和思維鏈重構框架。他們擴大了解決方案精煉循環中的迭代次數，允許更強的批判-修訂循環產生更高質量的最終解決方案。同時，他們訓練了一個更強大的思維鏈重構模型，能夠從精煉答案生成更清晰、更忠實的推理軌跡。

在強化學習階段，研究團隊采用了點式和對式相結合的獎勵建模方法。點式強化學習階段主要解決了模型輸出中的格式錯誤和冗余推理問題。他們訓練了一個通用獎勵模型來評估回滾響應，這個模型自然地抑制了過度冗余、重復和低可讀性的答案。通過GRPO算法，他們對每個提示采樣8個回滾，使用通用獎勵模型為每個響應評分作為訓練信號。

對式強化學習階段則進一步利用了強弱模型比較中的偏好信息。研究團隊在涵蓋代碼生成和對話的配對比較數據上訓練了對式獎勵模型，生成響應對時采用強模型和弱模型，然后應用清單過濾策略得到可靠的勝負標簽。為了減輕位置偏差，他們還添加了交換一致性正則化器，定義為響應對的預測獎勵差異與交換對的負獎勵差異之間的均方誤差。

二、深度搜索：讓AI成為超級偵探

在人工智能領域，深度搜索能力就像是給AI配備了一雙"火眼金睛"和一顆"偵探大腦"。這種能力讓模型能夠在海量信息中抽絲剝繭，通過多輪工具交互來解決復雜的搜索導向任務。研究團隊為了讓Nanbeige4.1-3B具備這種超級偵探般的能力，設計了一套完整的數據構建和訓練流程。

數據構建過程就像建造一個巨大的案例庫。研究團隊首先從維基百科構建實體關系圖譜，然后進行時間感知的頭實體選擇。他們提取過去六個月內更新過的信息實體，確保合成問答數據的時效性和復雜性。接著，他們構建實體關系圖并執行條件隨機游走，提取預定義長度的關系路徑。這些鏈條連同詳細的時間上下文一起被輸入到強大的大語言模型中，用于合成復雜的問題。

軌跡合成和回合級判斷是整個過程的核心環節。研究團隊采用多智能體框架來處理生成的查詢，采樣多樣化的推理路徑集合。這些軌跡隨后被映射到統一智能體視角的多輪工具調用序列中。為了進一步保證合成數據的質量，他們實施了嚴格的回合級判斷機制，使用評判模型基于邏輯合理性、工具調用準確性和信息獲取三個維度評估交互的每個步驟。任何不滿足這些標準的回合都不會參與模型訓練或為模型提供負獎勵，這種細粒度的過濾確保最終軌跡為監督微調和偏好對齊提供高保真信號。

為了驗證這套方法的有效性，研究團隊進行了初步實驗。他們使用Nanbeige4-3B-2511作為基礎模型，專門在通過所述方法生成的合成多跳問答和搜索軌跡上進行訓練，有意排除其他開源數據。實驗結果令人振奮，在xBench-DeepSearch-2505基準上，模型性能從33.0大幅提升到76.0，充分證明了他們的數據合成管道能夠有效賦予模型強大的多跳推理和長上下文搜索能力。

這種訓練方法的巧妙之處在于，它不是簡單地讓模型記住大量的問答對，而是教會模型如何像真正的偵探一樣思考和行動。模型學會了如何分解復雜問題，如何選擇合適的工具，如何從獲得的信息中提取關鍵線索，以及如何將這些線索串聯起來得出最終答案。這種能力的培養使得Nanbeige4.1-3B能夠在面對復雜的多步搜索任務時，表現得如同經驗豐富的專業調研員。

三、編程高手的養成：從正確到高效的進化

讓AI寫代碼就像培養一個程序員，不僅要會寫，還要寫得好、寫得快。研究團隊在提升Nanbeige4.1-3B的編程能力時，采用了一套漸進式的訓練策略，從基礎的功能正確性逐步提升到算法效率的優化。

研究團隊首先構建了一個統一的判斷系統，這個系統就像一位嚴格的代碼審查員，能夠從多個角度評估代碼質量。這個系統結合了多語言沙箱執行環境和專門的指導判斷模型，前者用于基于執行的正確性檢查，后者專門用于時間復雜度比較。這個指導模型經過專門訓練，能夠在強化學習環境中快速進行復雜度評估，通過將模型生成解決方案的預測時間復雜度與參考最優界限進行在線比較，提供高效的反饋。

在數據構建階段，研究團隊采用了兩套互補的策略。對于監督微調數據構建，他們使用判斷系統從兩個關鍵方面評估解決方案質量：通過在沙箱中執行程序進行功能正確性檢查，以及通過結合執行信號和基于模型的復雜度分析進行時間復雜度評估。在數據生成過程中，他們為每個問題采樣多個候選解決方案，然后通過判斷系統驗證這些候選方案，保留那些被判定為時間最優（或在最佳復雜度類別中）的解決方案。

對于強化學習數據構建，每個樣本包含問題陳述、測試用例、時間復雜度最優解決方案以及相應的最優復雜度標簽。最優解決方案和復雜度是通過提示多個強大的大語言模型獲得的，然后使用強大的大語言模型將候選方案合成為單一最佳解決方案，這些作為獎勵塑形和難度控制的監督信號。

訓練過程采用了巧妙的兩階段策略。從通用強化學習檢查點開始，研究團隊進一步進行了兩個階段的代碼強化學習。在第一階段，他們使用通過率獎勵優化解決方案正確性，通過率獎勵定義為每個問題通過的測試用例比例。在第二階段，當策略能夠可靠地解決問題后，他們通過引入僅在所有測試用例通過時才激活的時間復雜度獎勵來鼓勵更高質量的解決方案，否則獎勵退化為僅基于正確性的信號。

這種門控時間復雜度獎勵設計特別巧妙。具體來說，判斷系統通過比較模型輸出與參考最優復雜度并檢查生成的解決方案是否與參考最優解決方案匹配來提供在線反饋。只有當解決方案完全正確時，時間復雜度獎勵才會被激活，這確保了模型在追求效率的同時不會犧牲正確性。

在整個兩階段代碼強化學習過程中，研究團隊觀察到了一致的改進。在第一階段，正確性獎勵急劇增加，反映了產生有效和正確解決方案方面的快速收益。在第二階段，正確性獎勵的改進更為溫和，而門控時間獎勵大幅上升，表明策略確實在已經實現正確性的基礎上優化時間復雜度。這種漸進式的能力提升確保了模型不僅能寫出能跑的代碼，更能寫出跑得好的代碼。

四、實戰驗證：小模型的大能量

為了驗證Nanbeige4.1-3B的真實實力，研究團隊設計了一套全方位的評估體系，涵蓋了從基礎推理到復雜智能體任務的各個維度。這些測試就像給這個AI小鋼炮進行全面體檢，結果令人印象深刻。

在通用任務評估中，研究團隊從五個主要類別對模型進行了測試。在代碼生成方面，他們使用了LiveCodeBench-V5、LiveCodeBench-V6以及LiveCodeBench-Pro等基準，評估代碼生成能力和基于執行的正確性。在數學推理方面，測試包括IMO-Answer-Bench、HMMT以及AIME-2026-I等競賽級別的問題求解任務。科學推理則通過GPQA和HLE等基準來測量多步科學推理和領域知識整合能力。

在對齊性測試中，研究團隊使用Arena-Hard-V2和Multi-Challenge來評估偏好建模的魯棒性和在對抗性或挑戰性提示下的響應質量。工具使用能力則通過BFCL和Tau2-Bench進行評估，這些基準測試函數調用可靠性和多步工具使用能力。

評估結果顯示，Nanbeige4.1-3B在所有被評估的領域中都大幅超越了同等規模的模型。更令人驚喜的是，盡管只有30億參數，它在大多數基準測試中都始終超越了300億到320億參數級別的模型，包括Qwen3-30B-A3B-2507和Qwen3-32B，特別是在代碼、對齊和工具使用任務上。在基于執行的編碼基準如LiveCodeBench-V6和LiveCodeBench-Pro-Medium上，Nanbeige4.1-3B取得了較大的絕對優勢。

深度搜索任務的評估更是展現了這個小模型的驚人潛力。研究團隊將其與多個類別的現有模型進行了對比，包括配備工具的通用基礎模型、專門的搜索智能體模型，以及超過1000億參數的大規模開源基礎模型。結果顯示，Nanbeige4.1-3B相比基線Nanbeige4-3B-2511實現了顯著的性能飛躍，并且在所有基準測試中明顯超越了其他小型工具型基礎模型。

最引人注目的是，Nanbeige4.1-3B在幾乎所有評估基準上都達到了最先進的結果，包括GAIA（69.90）、xBench-DeepSearch-05（75.00）和SEAL-0（41.44）。這些分數不僅超越了小型模型類別中的直接競爭對手，甚至與許多更大規模的研究智能體和大型工具型基礎模型的性能相當或超越。

為了進一步驗證模型的實際應用能力，研究團隊還在真實世界的算法挑戰中對其進行了測試。他們將Nanbeige4.1-3B應用于最近的LeetCode周賽問題，在標準競技編程設置下解決比賽問題。生成的解決方案直接提交到官方LeetCode平臺，性能通過最終接受率衡量。結果顯示，Nanbeige4.1-3B成功解決了20個問題中的17個，達到85.0%的總體通過率。在虛擬參與模式下，模型在第487周賽中獲得第1名，在第488周賽中獲得第3名。

五、技術創新的核心密碼

Nanbeige4.1-3B之所以能在如此緊湊的參數規模下實現多項能力的完美融合，關鍵在于研究團隊對訓練策略的精心設計和創新性突破。整個訓練過程就像精心編排的交響樂，每個階段都有其獨特的作用和價值。

整個訓練流程從Nanbeige4-3B-Base開始，經過結構化的后訓練管道，結合大規模監督微調和級聯強化學習。研究團隊首先進行了擴展的監督微調，將最大上下文長度從64K增加到256K，這種更長的上下文窗口對于支持長期推理和多輪深度搜索規劃至關重要。

在強化學習階段，研究團隊采用了分階段優化策略。通用強化學習通過點式強化學習和對式強化學習依次執行，以增強獨立響應質量和比較偏好對齊。代碼強化學習分兩個階段進行：正確性階段最大化執行通過率，然后是門控時間復雜度階段，僅在實現完全正確性時激活效率獎勵。最后，他們應用輕量級智能體強化學習階段來加強工具使用和搜索行為。

這種統一訓練方案的巧妙之處在于，它讓Nanbeige4.1-3B能夠在嚴格的容量約束下保持強大的領域特定性能，同時成為一個平衡良好的通用模型。每個訓練階段都經過精心設計，確保不會因為優化某一方面的能力而損害其他方面的表現。

數據混合策略也體現了研究團隊的深層思考。他們在整個訓練過程中采用了仔細的監督微調數據混合和多階段強化學習，以保持這些領域之間的平衡。這種平衡的實現需要對不同類型數據的特性有深刻理解，同時還要考慮到模型容量的限制和各種能力之間可能存在的相互影響。

更值得關注的是，研究團隊還特別關注了長期規劃和多步驟執行能力的培養。他們通過Wiki圖譜隨機游走構建高質量訓練數據，并在交互層面和完整軌跡層面定義獎勵，讓模型能夠在數百個步驟的規劃和執行過程中獲得適當的信用分配。這種設計使得Nanbeige4.1-3B具備了在通用小語言模型中極為罕見的深度搜索和長期智能體行為能力。

六、實際應用價值和未來展望

Nanbeige4.1-3B的成功不僅僅是技術上的突破，更為人工智能的實際應用開辟了新的可能性。這種小而全的模型設計理念，為資源受限環境下的AI部署提供了全新的解決方案。

從實用角度來看，這種緊湊型的全能模型特別適合那些需要在邊緣設備或資源有限環境中部署AI系統的場景。傳統的大型模型雖然功能強大，但往往需要昂貴的硬件支持和大量的能耗，這限制了它們的應用范圍。而Nanbeige4.1-3B這樣的小型全能模型，能夠在保持高性能的同時大大降低部署成本和硬件要求。

在代碼生成和軟件開發輔助方面，這個模型展現出的不僅是編寫正確代碼的能力，更重要的是對算法效率的優化意識。這種特性使其特別適合于需要高效算法解決方案的開發環境，能夠幫助程序員不僅寫出功能正確的代碼，還能寫出性能優異的代碼。

深度搜索能力的突破則為信息檢索和知識工作領域帶來了新的工具。傳統的搜索工具往往只能進行淺層的信息匹配，而具備深度搜索能力的AI助手能夠進行多輪推理，從不同角度分析問題，整合多個信息源，最終提供更加全面和深入的答案。這種能力在研究、咨詢、新聞調查等需要深度信息挖掘的工作中具有重要價值。

研究團隊已經將Nanbeige4.1-3B開源，這為AI研究社區提供了一個重要的參考案例，證明了在嚴格的容量約束下聯合訓練推理、編程和長期行為的可行性。這種開放的態度不僅有助于推動整個領域的發展，也為其他研究者提供了學習和改進的機會。

展望未來，研究團隊計劃進一步推動緊湊模型在復雜編程和研究智能體場景中的邊界。他們希望通過讓任務能夠用更短的輸出和更少的工具調用來解決，從而提高推理效率。同時，他們也在探索架構創新，以進一步增強緊湊通用模型的潛力。

這種對小型全能模型的深入研究，代表了AI發展的一個重要方向。在追求更大、更強模型的同時，如何在有限的資源下實現最大化的能力，如何讓AI技術更加普及和易于部署，這些問題的答案將直接影響AI技術的實際應用范圍和社會影響力。Nanbeige4.1-3B的成功為這些問題提供了一個很好的答案樣本。

說到底，Nanbeige4.1-3B的意義遠超其技術成就本身。它向我們展示了一種新的思路：不是所有的AI應用都需要超大規模的模型，通過巧妙的設計和精心的訓練，小模型同樣可以擁有強大而全面的能力。這種理念不僅有助于降低AI技術的使用門檻，也為AI技術在更廣泛領域的應用鋪平了道路。歸根結底，真正有價值的技術創新不僅要追求性能的極致，更要考慮實際應用的可行性和普及性。Nanbeige4.1-3B在這兩個方面都做出了很好的示范，為AI技術的民主化和普及化貢獻了重要力量。研究團隊開源這個模型的舉動，更是體現了對技術共享和共同進步的理想追求。有興趣深入了解技術細節的讀者，可以通過論文編號arXiv:2602.13367v1查詢完整的研究報告。

Q&A

Q1：Nanbeige4.1-3B相比其他小模型有什么特別之處？

A：Nanbeige4.1-3B最大的特點是在只有30億參數的情況下，同時具備推理、編程和智能體三大能力，這在小模型中極為罕見。它不僅能寫代碼、做數學題，還能執行長達600輪的復雜工具調用，甚至在某些任務上超越了參數量十倍的大模型。

Q2：這個模型能處理多復雜的編程任務？

A：Nanbeige4.1-3B在編程方面不僅能寫出功能正確的代碼，還特別注重算法效率。在真實的LeetCode周賽中，它成功解決了85%的問題，并在兩次比賽中分別獲得第1名和第3名的成績，證明了其處理競技編程級別問題的能力。

Q3：普通用戶如何使用Nanbeige4.1-3B？

A：研究團隊已經將Nanbeige4.1-3B完全開源，用戶可以在HuggingFace平臺上下載模型。由于它只有30億參數，相比大模型對硬件要求更低，更適合在資源有限的環境中部署，這大大降低了使用AI技術的門檻。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.