網易首頁 > 網易號 > 正文申請入駐

加州大學洛杉磯分校提出NAMO優化器

2026-02-24 21:11:02　來源: 至頂AI實驗室

北京舉報

分享至

這項由加州大學洛杉磯分校數學系研究團隊完成的研究發表于2026年2月，論文編號為arXiv:2602.17080v2。研究團隊在深度學習優化領域取得了重要突破，開發出了名為NAMO和NAMO-D的新型優化算法。

訓練人工智能模型就像調試一臺復雜的收音機。你需要不斷調整各種旋鈕和參數，才能收到清晰的信號。在這個過程中，有時會遇到強烈的干擾和噪聲，讓調試變得異常困難。傳統的優化方法就像只有幾個基礎旋鈕的老式收音機，而研究團隊提出的NAMO系列優化器則像是配備了智能信號處理系統的現代數字收音機，能夠自動識別和過濾噪聲，同時保持信號的清晰度。

在人工智能訓練過程中，算法需要處理大量的數據噪聲，這些噪聲就像收音機中的雜音一樣，會干擾模型的學習效果。長期以來，研究者們一直在尋找既能有效處理噪聲，又能保持訓練效率的優化方法。目前最流行的Adam優化器雖然具有自適應特性，但在處理某些類型的矩陣結構數據時表現不夠理想。而最近出現的Muon優化器雖然在處理矩陣結構方面有所突破，但對噪聲的適應能力還有改進空間。

研究團隊意識到，現有的優化器就像兩個各有特長但也各有短板的工具。Adam優化器擅長適應噪聲變化，就像一個敏感的音量調節器，能根據環境噪聲自動調整音量大小。而Muon優化器則擅長處理矩陣結構，就像一個專業的信號方向調節器，能夠精確控制信號的傳播方向。研究團隊的創新之處在于，他們成功地將這兩種能力結合起來，創造出了既能智能調節音量又能精確控制方向的綜合調節系統。

一、核心創新：智能信號處理系統的設計

NAMO優化器的設計理念可以用現代汽車的駕駛輔助系統來理解。傳統的優化器就像手動擋汽車，司機需要根據路況手動調節各種參數。而NAMO就像配備了智能駕駛系統的汽車，能夠自動感知路況變化并做出相應調整。

具體來說，NAMO的工作原理包含兩個關鍵組件。第一個組件是"方向保持器"，它繼承了Muon優化器的優勢，能夠保持更新方向的數學正交性。這就像汽車的方向盤控制系統，確保車輛始終朝著正確的方向行駛，不會因為路面顛簸而偏離軌道。第二個組件是"速度調節器"，它借鑒了Adam優化器的自適應特性，能夠根據當前的訓練環境動態調整學習速度。這就像汽車的巡航控制系統，在平坦路段加速行駛，在復雜路段減速慢行。

研究團隊還開發了NAMO的增強版本NAMO-D，這個版本就像為每個車輪都配備了獨立的懸掛系統。普通版的NAMO使用統一的速度調節策略，就像四個車輪使用同樣的懸掛設置。而NAMO-D則為每個"神經元"都配備了獨立的調節機制，就像每個車輪都有自己專門的懸掛系統，能夠更精細地適應各種路況變化。

在技術實現上，NAMO通過一個巧妙的數學技巧實現了這種雙重調節功能。研究團隊發現，可以將矩陣的正交化操作（保持方向）與基于范數的自適應縮放（調節速度）有機結合起來。這種結合方式不僅保持了原有優勢，還產生了協同效應，使得整體性能超過了兩種方法簡單相加的效果。

NAMO-D的設計更加精妙，它采用了所謂的"對角矩陣右乘"技術。用通俗的話說，就是為每一列神經元參數都配備了專門的調節器。這些調節器不是獨立工作的，而是在保持整體協調的前提下，各自負責自己那一部分的優化調節。為了防止某些調節器過于激進而破壞整體平衡，研究團隊還設計了一套"夾緊"機制，就像給每個調節器都設置了安全閾值，確保所有調節器的工作都在合理范圍內。

二、理論保證：為什么這套系統真的有效

任何新的優化方法都需要嚴格的理論證明來支撐其有效性，就像新藥上市前需要經過嚴格的臨床試驗一樣。研究團隊為NAMO和NAMO-D提供了完整的理論分析，證明了這些方法在各種條件下都能保持良好的收斂性能。

在確定性環境下，也就是沒有數據噪聲干擾的理想情況下，兩種算法都能達到最優的收斂速度。這就像在平坦無風的高速公路上駕駛，車輛能夠以最優的速度穩定前行。具體來說，算法的收斂速度達到了理論上的最優界限，即O(T^(-1/2))，這意味著隨著訓練步數T的增加，算法找到最優解的速度會以根號倒數的形式提升。

更重要的是，在隨機環境下，也就是存在數據噪聲的實際訓練場景中，NAMO和NAMO-D展現出了優異的噪聲適應能力。研究團隊證明，這兩種算法的收斂保證能夠自動適應隨機梯度的噪聲水平。當訓練數據的噪聲較小時，算法接近確定性情況下的最優性能。當噪聲較大時，算法會自動調慢收斂速度，確保訓練的穩定性。

這種自適應特性的理論表達是O(T^(-1/4) + √(σ)b^(-1/4)T^(-1/8))，其中σ代表噪聲強度，b代表批次大小。這個公式告訴我們一個重要的實踐指導原則：當我們增加訓練批次的大小時，算法能夠更好地抵抗噪聲干擾，從而獲得更好的收斂性能。當批次大小足夠大時，噪聲項會被顯著抑制，算法的收斂速度接近理論最優值O(T^(-1/4))。

理論分析還揭示了NAMO-D中夾緊機制的重要性。通過數學推導，研究團隊證明了適當的夾緊參數設置能夠平衡兩個相互競爭的目標：維持良好的更新方向條件數和充分利用細粒度的噪聲適應能力。這種平衡就像調節收音機時需要在信號清晰度和音量大小之間找到最佳平衡點一樣。

三、實驗驗證：在GPT-2訓練中的出色表現

理論再完美，也需要實際驗證來證明其價值。研究團隊選擇了GPT-2語言模型作為測試平臺，這是一個廣泛使用的基準模型，能夠很好地驗證優化器的實際效果。

實驗設計就像一場公平的賽車比賽。研究團隊讓NAMO、NAMO-D與目前最流行的AdamW優化器以及最新的Muon優化器在相同的條件下競賽。所有優化器都使用相同的數據集（包含約90億個訓練詞匯的OpenWebText數據集）、相同的模型架構、相同的硬件環境（4塊NVIDIA H100 GPU）。

實驗包含了兩個不同規模的模型：小型版本（1.24億參數）和中型版本（3.55億參數）。這種設置就像測試汽車在城市道路和高速公路兩種不同場景下的性能表現。

在小型模型的訓練中，NAMO和NAMO-D都展現出了比傳統方法更好的性能。具體來說，在經過50,000步訓練后，NAMO的訓練損失降至2.9272，驗證損失為3.0351，而AdamW的相應數值分別為3.0456和3.0643，Muon的數值為3.0265和3.0435。這些數字表明，NAMO在訓練效率和泛化能力方面都有顯著提升。

更有趣的是，NAMO-D的表現甚至超過了NAMO，其訓練損失進一步降至2.9167，驗證損失為3.0246。這驗證了研究團隊的預期：更精細的神經元級別適應能力確實能夠帶來額外的性能提升。

在中型模型的實驗中，優勢變得更加明顯。經過10,000步訓練后，NAMO的訓練損失為2.9359，驗證損失為2.9516，而AdamW的相應數值為2.9760和2.9914。NAMO-D的表現依然是最佳的，訓練損失為2.9351，驗證損失為2.9507。

研究團隊還進行了學習率敏感性分析，這就像測試汽車在不同速度設置下的穩定性。結果顯示，NAMO和NAMO-D在更寬的學習率范圍內都能保持穩定的性能，這意味著它們對超參數設置的要求更加寬松，使用起來更加方便。

特別值得注意的是，NAMO-D中的夾緊參數c發揮了重要作用。在小型模型中，最佳的c值為0.1，而在中型模型中，最佳c值為0.9。這種差異表明，不同規模的模型需要不同程度的調節約束，這為實際應用提供了重要的指導原則。

四、技術細節：算法的精妙設計

深入了解NAMO系列算法的技術細節，就像拆解一臺精密儀器，看看其內部是如何巧妙運作的。

NAMO的核心創新在于將兩種看似不兼容的技術巧妙融合。第一種技術是矩陣正交化，這個過程可以比作給信號"校正方向"。在數學上，給定一個矩陣M，研究團隊通過奇異值分解得到M = UΣV^T，然后取其正交因子UV^T作為更新方向。這個正交因子具有特殊的幾何性質，它保持了原始矩陣的主要方向信息，同時去除了可能導致訓練不穩定的冗余成分。

第二種技術是自適應縮放，這個過程就像給信號"調節音量"。NAMO維護兩個統計量：動量的偏差校正估計和梯度平方范數的偏差校正估計。通過這兩個統計量的比值，算法能夠估計當前的"信噪比"，并據此調節更新步長。當噪聲較大時，這個比值較小，算法會自動減小步長以保持穩定性。當信號較強時，算法會相應增大步長以加快收斂。

NAMO-D的設計更加精巧，它不是簡單地為整個矩陣使用統一的縮放因子，而是為每一列參數都計算獨立的縮放因子。這就像為一個管弦樂隊中的每種樂器都配備專門的音量控制器，而不是使用統一的總音量控制。具體來說，對于矩陣的第j列，算法會計算該列的范數，并基于該列對應的二階矩估計來確定縮放因子。

為了防止某些縮放因子過于極端，NAMO-D引入了夾緊機制。這個機制的工作原理是：首先計算所有縮放因子的平均值，然后將每個縮放因子限制在[c*平均值, 平均值/c]的范圍內，其中c是一個介于0和1之間的超參數。這種設計確保了所有縮放因子都在合理范圍內，避免了某些方向的更新過于激進而破壞整體平衡。

算法的計算復雜度控制得非常好。NAMO相比于基礎的Muon優化器，額外的計算開銷幾乎可以忽略不計，只增加了O(mn)的計算量，其中m和n分別是矩陣的行數和列數。NAMO-D的額外開銷也很少，主要是計算列范數和維護列級別的統計量。更重要的是，兩種算法都不需要額外的內存開銷，這對于大規模模型訓練來說是一個重要優勢。

在實際實現中，研究團隊還考慮了數值穩定性問題。他們使用了Newton-Schulz迭代來近似計算矩陣正交化，這是一種數值穩定且計算高效的方法。同時，他們在分母中添加了小的正則化項ε來避免除零錯誤，并且這個正則化項會隨著訓練進行動態調整。

五、實際應用價值：對AI訓練的深遠影響

NAMO系列優化器的意義遠遠超出了學術研究的范疇，它們為實際的人工智能模型訓練帶來了切實的改進。

從訓練效率的角度來看，NAMO系列優化器能夠幫助研究者和工程師更快地訓練出高質量的模型。在GPT-2的實驗中，NAMO-D相比AdamW在訓練損失上平均改進了約3-4%，這個數字看似不大，但在大規模模型訓練中，這種改進可能意味著節省數周的計算時間和大量的電力成本。

從實用性的角度來看，NAMO系列優化器對超參數的敏感性較低，這對實際應用來說是一個重要優勢。傳統的優化器往往需要精心調節學習率、動量系數等參數，這個過程既耗時又需要經驗。而NAMO系列優化器在更寬的參數范圍內都能保持良好性能，這降低了使用門檻，讓更多的研究者和開發者能夠受益。

從擴展性的角度來看，NAMO的設計原理可以應用到各種不同類型的神經網絡架構中。無論是用于圖像識別的卷積神經網絡，還是用于自然語言處理的Transformer模型，只要涉及矩陣參數的優化，都可以考慮使用NAMO系列優化器。研究團隊在論文中提到，他們正在探索將這些技術擴展到更大規模的語言模型訓練中。

對于工業界而言，NAMO系列優化器提供了一種"即插即用"的解決方案。由于它們與現有的訓練框架兼容，公司和研究機構可以相對容易地將現有的訓練流程升級到新的優化器，而不需要大幅度改變現有的基礎設施。

研究團隊還開源了NAMO的完整實現代碼，這進一步降低了采用門檻。開源代碼包含了詳細的文檔和使用示例，使得其他研究者可以快速上手并在自己的項目中使用這些技術。

從長遠來看，NAMO系列優化器代表了優化算法發展的一個新方向：不是簡單地追求單一方面的改進，而是通過巧妙地結合現有技術的優勢來實現整體性能的提升。這種思路可能會啟發更多類似的研究工作，推動整個深度學習優化領域的發展。

研究團隊在論文中也誠實地指出了當前工作的局限性。比如，他們主要在語言模型上進行了驗證，還需要在更多類型的任務上測試算法的泛化能力。此外，對于超大規模模型（比如參數量達到千億級別的模型），NAMO系列優化器的表現還需要進一步驗證。

展望未來，研究團隊計劃開發更加輕量級的NAMO-D變體，進一步降低計算開銷。他們還計劃深入研究夾緊參數c的自動調節機制，使得NAMO-D能夠在訓練過程中自動找到最佳的平衡點，進一步提升易用性。

說到底，NAMO系列優化器的成功展示了科研中"站在巨人肩膀上"的價值。研究團隊并沒有完全重新發明輪子，而是聰明地識別出了現有技術的互補性，并找到了將它們有效結合的方法。這種研究思路不僅產生了實用的技術成果，也為其他研究者提供了寶貴的方法論啟示。對于那些對深度學習優化技術感興趣的讀者，可以通過論文編號arXiv:2602.17080v2查找完整的技術細節。這項工作不僅推進了學術研究，更重要的是為實際的AI應用提供了更好的工具，這正是優秀科研工作應有的價值體現。

Q&A

Q1：NAMO優化器相比AdamW和Muon有什么優勢？

A：NAMO優化器結合了AdamW的噪聲適應能力和Muon的矩陣結構處理優勢。在GPT-2訓練中，NAMO的訓練損失比AdamW改進了約3-4%，同時對學習率等超參數的敏感性更低，使用更方便，幾乎不增加額外的計算和內存開銷。

Q2：NAMO-D的夾緊機制是怎么工作的？

A：NAMO-D為每列神經元參數配備獨立的調節器，但為防止某些調節器過于激進，設置了夾緊機制。系統會計算所有縮放因子的平均值，然后將每個縮放因子限制在合理范圍內，就像給每個音量調節器都設置安全閾值，確保整體平衡。

Q3：普通開發者能使用NAMO優化器嗎？

A：可以的。研究團隊已經開源了完整的NAMO實現代碼，包含詳細文檔和使用示例。由于NAMO與現有訓練框架兼容，開發者可以相對容易地將現有訓練流程升級到新優化器，不需要大幅改變現有基礎設施。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.