<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      巴勒斯坦Brains Build Research團隊的模塊化AI突破

      0
      分享至


      這項由巴勒斯坦Brains Build Research團隊主導的研究發表于2026年4月,論文編號為arXiv:2604.01152v1,提出了一種名為"Brainstacks"的革命性架構。有興趣深入了解的讀者可以通過該編號查詢完整論文。

      目前的大語言模型就像一個巨大的圖書館,所有的書籍都混在一起,想要添加新書就必須重新整理整個圖書館。當你想讓AI既能寫代碼又能回答醫學問題時,通常需要把所有訓練數據混合在一起重新訓練,這不僅耗時費力,還容易讓模型"忘記"之前學會的技能。

      研究團隊開發的Brainstacks系統徹底改變了這種局面。它就像建造一棟智能公寓樓,每個專業技能都住在獨立的房間里,需要的時候可以靈活調用不同房間的專家來協作解決問題。更神奇的是,當需要新技能時,只需要添加新房間,而不會影響其他房間里的專家。

      這項研究最令人震驚的發現是:醫學問題的最佳解決方案竟然不是調用醫學專家,而是讓聊天專家和數學專家聯手合作,成功率達到97%。這完全顛覆了人們對AI學習的理解,原來AI學習的不是具體知識,而是可以跨領域使用的思維能力。

      一、模塊化AI的誕生:從單體巨獸到靈活積木

      傳統的AI訓練就像烘焙一個巨大的蛋糕,所有原料必須一次性混合烘烤。一旦想要改變口味,就必須重新制作整個蛋糕。這種方式存在三個致命問題:首先,添加新技能需要從頭開始訓練,就像重新烘焙整個蛋糕一樣耗時耗力;其次,無法單獨移除或更新某項技能,就像無法從烘焙好的蛋糕中單獨取出某種原料;最后,模型會對所有輸入使用全部技能,就像用治療心臟病的藥物來治療感冒一樣不合適。

      Brainstacks的解決方案就像開設一家專業餐廳,每個廚師都專精某種菜系,并且可以根據顧客需求靈活組合不同廚師來制作菜品。這個系統的核心是"冷凍的MoE-LoRA堆棧",聽起來很復雜,但本質就像冷凍保存專業廚師的技能。每當訓練完成一個領域的技能后,就將其"冷凍"保存,確保這些技能永遠不會退化或遺忘。

      這種架構有五個關鍵組件協同工作。首先是MoE-LoRA構建模塊,就像一個智能分配器,能夠在四個專家中選擇最合適的兩個來處理每個具體任務,并且采用4位量化技術大幅減少內存占用。其次是內循環系統,通過"殘差提升"技術讓多個專家疊加工作,第一個專家處理主要問題,第二個專家處理第一個專家遺漏的細節,如此反復直到達到最佳效果。

      外循環系統負責按照精心設計的順序訓練不同領域,就像學習語言一樣,先掌握基本語法再學習專業詞匯。接下來是零空間投影技術,這是一個數學上的巧妙設計,確保新技能的訓練不會干擾已有技能,就像在已有的房間旁邊建造新房間時,不會影響原有房間的結構。最后是結果導向的元路由器,這個智能調度系統通過實際測試發現最佳的技能組合方式,而不是簡單地按照標簽分類。

      研究團隊還進行了兩個邊界實驗來驗證架構的適用性。一個是在隨機初始化的模型上進行預訓練實驗,測試架構是否需要預訓練基礎;另一個是領域強化學習實驗,驗證這種堆疊方式是否與后續的對齊訓練兼容。

      二、技術核心:讓AI專家學會協作的秘密

      MoE-LoRA構建模塊是整個系統的基礎,它的工作原理就像一個智能餐廳的點菜系統。當客戶下單時,系統不是讓所有廚師都參與制作,而是從四個專業廚師中選擇最合適的兩個來協作完成菜品。每個專家都由兩個低秩矩陣組成,就像每個廚師都有自己的專用工具箱,這些工具通過特殊的縮放因子進行優化,確保新加入的廚師不會在一開始就破壞菜品質量。

      系統采用了Shazeer風格的噪聲路由機制,這就像給點菜系統增加一些隨機性,防止總是選擇同樣的廚師組合。在訓練期間,系統會故意引入一些"噪聲"來鼓勵嘗試不同的專家組合,就像鼓勵顧客偶爾嘗試新的菜品搭配一樣。在實際使用時,這種噪聲會被關閉,確保系統選擇最可靠的專家組合。

      更令人印象深刻的是,這個系統應用到了transformer的全部七個關鍵部分,包括注意力機制的四個投影(查詢、鍵、值、輸出)和前饋網絡的三個投影(門控、上升、下降)。這相當于給餐廳的每個工作環節都配備了專業團隊,從接待客人、準備原料到烹飪和擺盤,每個步驟都有專門的專家負責。

      堆疊式管理層負責協調所有專家的工作。它就像一個經驗豐富的餐廳經理,知道如何將不同專家的技能組合起來。已經"冷凍"的專家技能被永久保存,不再改變,就像資深廚師的經典菜譜一樣穩定可靠。只有當前正在訓練的專家會接受新的學習和調整。為了節省資源,已冷凍的專家平時存儲在CPU內存中,只有需要時才臨時調用到GPU進行計算。

      三、雙環訓練:內外兼修的學習策略

      Brainstacks采用了一種獨特的雙環訓練策略,就像培養一個全能運動員,既要在單項技能上精益求精,又要在不同項目間找到最佳組合。內環專注于單個領域的深度優化,外環則負責跨領域的協調發展。

      內環的"殘差提升"技術特別巧妙。第一個專家學會了領域的基礎技能后被冷凍保存,然后添加第二個專家來學習第一個專家沒有掌握的細節。這就像學習鋼琴,第一遍練習掌握基本旋律,第二遍練習加入情感表達,第三遍練習完善技巧細節。每一輪都在前一輪的基礎上補充完善,而不是重新開始。

      這種方法的效果非常顯著。在聊天領域的測試中,單個專家的表現會在某個水平上停滯不前,但通過殘差提升,系統能夠突破這個"天花板",在三輪訓練后實現2.4%的相對改進。每一輪都會增加約5300萬個參數的專家網絡,這些專家學會了前面專家遺漏的技能點。

      系統還配備了智能監控機制,就像健身教練一樣監督訓練過程。當發現某輪訓練的改進幅度小于預設閾值(0.002)時,系統會自動停止繼續添加專家,避免浪費資源。同時,最佳狀態回調機制會持續監控訓練質量,一旦發現性能下降就立即恢復到之前的最佳狀態,確保每個被冷凍的專家都是高質量的。

      外環的訓練順序經過精心設計,就像學習語言一樣遵循從基礎到高級的規律。聊天技能作為第一個訓練領域,為所有后續技能提供指令遵循和輸出格式化的基礎能力。代碼技能緊隨其后,引入結構化和程序性思維模式。數學技能在第三位,受益于代碼的計算思維和聊天的解釋結構。醫學技能排在第四位,能夠運用前面學到的數學計算、聊天交流和代碼邏輯。推理技能最后訓練,作為綜合所有前述領域的元技能。

      四、零空間投影:確保技能永不沖突的數學魔法

      零空間投影技術是Brainstacks最精妙的設計之一,它就像在一個多維空間中為每個專家劃分專屬領域,確保他們永遠不會相互干擾。這種技術的數學原理雖然復雜,但可以用一個簡單的比喻來理解:假設整個技能空間是一張巨大的畫布,每個領域的專家都在上面作畫,零空間投影就是確保每個專家只能在自己的區域作畫,不會覆蓋其他專家的作品。

      具體實現過程就像考古學家的精確發掘工作。系統首先運行400個來自已訓練領域的驗證樣本,收集所有已凍結專家在每一層的輸出增量。這些數據被組織成矩陣形式,然后通過奇異值分解(SVD)技術找出主要的64個方向,這些方向代表了已有專家占用的"空間"。

      接下來的投影過程就像建筑師在設計新房間時避開已有的承重墻。當新專家產生輸出時,系統會計算這個輸出與已有專家方向的重疊部分,然后將這部分完全移除,確保新專家只能在剩余的"空白區域"發揮作用。這種約束是通過純粹的線性代數實現的硬約束,不是軟性的正則化懲罰,因此能夠提供數學上的嚴格保證。

      這種方法在TinyLlama和Gemma 3 12B的實驗中都證明了其有效性。對于Gemma 3 12B的3840維隱藏空間,每個領域占用64個方向只使用了1.7%的空間,理論上可以支持50多個領域而不出現容量問題。在更大規模的模型中,比如70B參數的模型通常有8192維隱藏空間,可以支持超過100個領域的共存。

      實驗數據顯示,使用零空間投影后,所有領域的干擾都顯著減少。在代碼訓練完成后,聊天領域的驗證損失從1.507降低到1.477。在醫學訓練后,醫學領域本身的改進最為顯著,損失減少了0.116。數學訓練后,所有四個領域都受益,其中數學領域自身改進最大,損失減少了0.143,相當于12.1%的相對改進。

      五、元路由器:發現跨領域協作的智能調度員

      元路由器是整個Brainstacks系統中最具創新性的組件,它的工作方式完全顛覆了傳統的分類思維。傳統方法就像圖書管理員,看到醫學書就放到醫學區,看到編程書就放到計算機區。但元路由器更像一個經驗豐富的私人導師,它不關心問題的表面標簽,而是測試哪種技能組合能最好地解決具體問題。

      這個路由器的架構相當精巧,包含約200萬個參數的神經網絡,能夠接收提示的深層語義特征。它使用中間層和最后層隱藏狀態的加權平均作為輸入,權重比例為0.45和0.55,就像結合短期記憶和長期理解來做決策。網絡內部采用學習查詢注意力機制獲取全局上下文,然后通過交叉注意力機制為每個領域生成專門的上下文表示。

      最關鍵的是,這個路由器輸出獨立的sigmoid概率而不是傳統的softmax分布。這意味著它可以同時激活多個領域進行協作,就像一個指揮家可以讓小提琴、鋼琴和大提琴同時演奏,而不是只能選擇其中一種樂器。每個領域都有獨立的激活概率,從0到1之間任意取值,真正實現了跨領域組合。

      元路由器的訓練過程是整個研究最令人驚嘆的部分。研究團隊開發了"結果發現"機制,對每個提示-答案對進行詳盡的組合測試。系統首先計算基礎模型的損失,然后測試所有五個領域的單獨性能,接著貪婪搜索最佳的領域組合,每次添加能夠顯著降低損失(超過0.01閾值)的領域。對于推理領域,系統采用軟增強策略,只要添加推理能帶來任何改進就將目標設為0.5而不是1.0,避免低估其微妙貢獻。

      訓練目標巧妙地融合了發現的最優組合(80%權重)和原始標簽(20%權重),使用二元交叉熵損失和置信度邊際懲罰,推動預測向明確的是非決策靠攏。訓練數據按照唯一提示進行分割,防止數據泄露,經過8個周期的余弦學習率調度。最佳檢查點通過綜合評分選擇:50%單領域頂級準確率,35%混合集匹配率,減去15%驗證BCE損失。

      六、震撼發現:AI學的是思維模式而非具體知識

      這項研究最令人震撼的發現完全顛覆了人們對AI學習本質的理解。當研究團隊測試醫學問題的最佳解決方案時,結果讓所有人大跌眼鏡:97%的醫學問題最好的解決方案不是使用醫學專家,而是讓聊天專家和數學專家聯手合作。這就像發現治療疾病最好的醫生不是專業醫生,而是一個善于溝通的數學家。

      研究團隊仔細驗證了這個結果的可靠性。他們確認UltraFeedback數據集中沒有醫學閃卡內容,GSM8K數據集中也沒有臨床內容,完全排除了數據泄露的可能性。那么,從未接觸過醫學數據的聊天和數學專家為什么能在醫學問題上表現出色呢?答案令人深思:這些專家學會的不是具體的醫學知識,而是可遷移的認知能力。

      聊天專家掌握了清晰的答案結構化、指令遵循和解釋格式化能力,這些技能不局限于閑聊對話,而是普適的交流能力。數學專家學會了數值推理和逐步計算能力,這種能力同樣適用于醫學中的劑量計算和定量分析。代碼專家掌握了程序性邏輯、順序分解和結構化輸出,這種思維模式在處理任何需要邏輯推理的問題時都很有用。

      推理專家更是特殊,它從不獨立工作,總是與其他專家組合,100%表現出跨領域特性。它學會了思維鏈分解,這是一種元認知能力,能夠增強任何其他專家的表現。

      這個發現徹底重新定義了微調的本質。傳統觀念認為微調是在向模型注入領域知識,就像往圖書館添加新書。但Brainstacks的證據表明,微調實際上是在注入可組合的認知能力,這些能力恰好通過特定領域的訓練數據被激發出來,但本質上是跨領域通用的思維工具。

      為了進一步驗證這個發現,研究團隊進行了一個控制實驗。他們使用PSN v2架構,在只訓練過兒童故事的基礎模型上測試相同現象。這個基礎模型從未見過Python語法、醫學術語或數學符號。當系統正確激活代碼專家處理"編寫Python函數反轉字符串"的請求時,模型產生了令人驚訝的輸出:雖然使用的完全是兒童故事的詞匯,但展現出了Python函數的結構模式,包括def關鍵字、縮進塊和冒號語句。

      這個結果徹底排除了預訓練基礎模型已有代碼知識的影響。TinyStories基礎模型沒有任何Python訓練數據,但代碼能力塊學會了代碼的結構模式,并通過唯一可用的詞匯表達出來。這獨立證實了核心發現:領域專家編碼的是可遷移的認知原語,而不是領域特定的知識。

      七、跨領域協作:AI的隱式工具使用能力

      當推理領域作為最后一個訓練項目,推理提示路由到聊天、代碼和推理的組合時,這些專家不是在執行順序工具調用,而是在同一隱藏狀態上并行工作。代碼專家學會的結構化邏輯注意力模式在隱藏狀態中處于活躍狀態,同時推理專家驅動逐步生成過程。

      這種現象可以理解為"知識即思維"而非"知識即行動"。傳統工具使用在詞元級別操作,生成工具調用指令、接收響應、然后繼續。Brainstacks在表征級別操作,模型的內部隱藏狀態同時被多個專家塑造,產生隱式能力組合,無需顯式的工具使用訓練。

      這種發現對理解AI的能力組合機制具有重要意義。元路由器通過損失測量發現這些組合,而不是通過手工制作的工具描述,表明智能體能力選擇可以作為損失最小化的涌現特性出現在凍結能力模塊上。

      研究團隊觀察到的三階段結果最清楚地證明了元路由器的必要性。在聊天領域完成2個專家后,生成質量完美,神經網絡解釋連貫,反轉字符串產生正確的s[::-1],醫學癥狀包含正確術語,數學計算產生60公里每小時的準確答案。

      但在10個專家未門控狀態下,出現了災難性退化。數學專家的激進思維模式開始主導輸出,反轉字符串觸發關于排列的數學推理,訓練速度問題產生關于極限和變量的無意義輸出,500毫克/3劑量的醫學問題產生關于"可能解決方案"的混亂漫談。10個同時激活的專家的幅度累積淹沒了連貫輸出。

      而在應用元路由器后,生成質量恢復正常。非數學提示關閉數學專家,非代碼提示關閉代碼專家。路由器的sigmoid輸出選擇性地激活相關領域專家,防止跨領域干擾,同時在有益時保留跨領域組合能力,比如BMI計算會激活醫學1.0、數學1.0、聊天0.59。

      八、實驗驗證:從理論到實踐的全面測試

      研究團隊在兩個不同規模的模型上進行了全面驗證:TinyLlama-1.1B(4個領域,9個專家)和Gemma 3 12B IT(5個領域,10個專家)。實驗設計非常嚴密,既驗證了單個組件的有效性,也測試了整個系統的綜合性能。

      首先驗證MoE-LoRA構建塊的基礎性能。在TinyLlama-1.1B上,使用4位量化,對比了MoE-LoRA(4個專家,rank=16,總共53.6M參數)與參數匹配的單一LoRA(rank=64,50.5M參數)。兩者使用完全相同的超參數:批次大小16,400步,學習率2×10??。結果顯示MoE-LoRA實現了略低的最終驗證損失(0.872 vs 0.874),盡管訓練損失看起來更高,但這是因為輔助負載平衡損失被加到交叉熵損失中的偽象。

      更重要的發現是收斂速度:MoE-LoRA在驗證損失每步方面收斂快2.5倍,在約160步時達到單一LoRA 400步的最終性能。雖然MoE-LoRA訓練慢2倍(20.2分鐘 vs 9.5分鐘),這是由于每詞元路由計算和4專家評估的開銷,但更快的收斂提供了訓練效率優勢。

      TinyLlama多領域持續學習實驗訓練了4個領域:聊天(tatsu-lab/alpaca,約52K樣本)、代碼(python_code_instructions_18k_alpaca,約18K樣本)、醫學(medalpaca閃卡,約33K樣本)、數學(GSM8K,約7.3K樣本)。內環殘差提升最多3輪,外環持續堆疊,零空間投影使用200個樣本和32個頂級方向。

      訓練結果顯示了內環殘差提升的持續效果:聊天領域3個專家(損失:2.587→1.305→1.303),代碼顯示最戲劇性改進(0.953→0.505→0.493),醫學和數學各訓練2輪。高原檢測(最小損失增量0.002)正確終止了代碼、醫學和數學的第3輪,其中進一步的專家將提供可忽略的收益。

      為了驗證零空間投影的效果,研究團隊比較了有無零空間保護的運行。在所有訓練階段,零空間投影持續減少了先前訓練領域的干擾。醫學訓練后,最大的單次改進在醫學本身(-0.116),聊天顯示小幅減少(-0.015),代碼基本不變(+0.002)。數學訓練后,所有四個領域都受益:聊天-0.061,代碼-0.060,醫學-0.082,數學-0.143。

      九、大規模驗證:在Gemma 3 12B上的突破性表現

      研究團隊將Brainstacks擴展到更大規模的Gemma 3 12B IT模型,這是一個已經經過指令調優的高能力基礎模型。在這種情況下,Brainstacks的價值不是教授模型新知識,而是提供結構化的能力增強,讓12B參數中包含但無法可靠激活的能力得以發揮。

      實驗配置采用4位NF4量化,SDPA注意力,在Colab G4 96GB上運行。五個領域包括:聊天(Nemotron v2 + UltraFeedback + Daring-Anteater,約40K樣本)、代碼(Python 18k + Nemotron代碼 + OpenCodeReasoning + OpenThoughts代碼過濾,約48K)、數學(GSM8K + OpenMathReasoning CoT + NuminaMath + Nemotron數學,約53K)、醫學(MedQA USMLE + medical-o1-reasoning-SFT + PubMedQA,約20K)、推理(OpenThoughts-114k + Nemotron STEM + Sky-T1 + OpenMathReasoning工具集成,約50K)。

      訓練過程中出現了一些有趣的現象。聊天領域訓練2個專家,驗證損失1.021,第2個專家在首次評估時從1.02飆升到2.64,BestStackCallback正確觸發早停和權重恢復。代碼和數學領域訓練順利,但數學訓練后生成質量出現退化:數學專家從OpenMathReasoning和NuminaMath學會了激進的思維推理模式,在非數學提示上壓倒了聊天和代碼專家。

      醫學領域的訓練經歷了數據集迭代。初始使用medalpaca閃卡由于短小重復樣本在50步內過擬合,被替換為MedQA(多選題,強制推理)、medical-o1-reasoning(思維鏈)和PubMedQA(研究多樣性),最終驗證損失1.38。

      推理領域作為元技能訓練,但數據敏感性很高:OpenThoughts在格式上嚴重類似代碼,后來導致元路由器將推理信號與代碼信號混淆。這直接促成了從v1到v2路由器的迭代改進。

      零基線評估測試顯示了混合結果,但關鍵觀察是路由系統在任何基準上都沒有災難性退化。在200樣本的限制下,差異0.02-0.03落在采樣噪聲范圍內,但元路由器的選擇性門控保持了基礎模型性能,同時增加了領域特定能力。

      十、技術局限與未來展望:模塊化AI的挑戰與機遇

      盡管Brainstacks展現了令人印象深刻的性能,但研究團隊誠實地指出了幾個重要局限性。首先是推理開銷,每個詞元都要流過所有加載的凍結專家,每次從CPU傳輸一個專家。對于10個專家、每個567MB的配置,這為每個生成步驟增加了延遲。生產部署將受益于持久GPU駐留、內核融合或潛在空間壓縮技術。

      隱藏維度容量上限是另一個考慮因素。每個領域聲明64個零空間方向,消耗Gemma 3 12B IT的3840維空間的約1.7%。在50個以上領域時,容量可能成為問題,盡管在70B+模型規模(8192隱藏維)下,超過100個領域可以共存。

      路由器訓練數據敏感性通過v1到v2推理迭代暴露出來,顯示元路由器的質量嚴重依賴于匹配訓練數據特征與每個領域專家的學習信號。推理數據中的代碼類格式污染了路由信號,直到用純語言來源替換。

      預訓練基礎需求通過PSN實驗得到確認,該系統需要具有連貫隱藏狀態幾何的預訓練基礎模型。在隨機初始化權重上堆疊MoE-LoRA產生較差結果,因為修正沒有有用的表征空間可供細化。

      然而,這些局限性也指向了激動人心的未來方向。研究團隊提出了"自擴展LLM"概念,當所有領域得分低于門控閾值時,元路由器的sigmoid輸出提供自然的間隙檢測器。這種不確定性信號成為自主能力獲取的觸發器:系統識別能力缺口,使用工具搜索和策劃領域特定訓練數據,訓練新的MoE-LoRA專家,重新訓練元路由器整合新領域。

      分區子空間網絡概念解決了預訓練基礎需求,提出在預訓練期間物理分割殘差流本身。每個領域階段將通過構造聲明隱藏維度的專用切片,跨子空間注意力實現領域間組合。與事后糾正現有表征空間的Brainstacks不同,PSN將從初始化開始將模塊化結構構建到基礎模型幾何中。

      LatentMoE壓縮方向特別實用。每個領域專家當前在全隱藏維度操作,但LatentMoE可以將隱藏狀態投影到小潛在空間進行路由和專家計算,然后投影回來,將每專家內存減少約16倍,從Gemma 3 12B上的567MB減少到約35MB。

      最令人興奮的可能是超位置LLM原則的實現:一個模型根據提示呈現不同領域能力,按需加載專業知識,GPU內存與磁盤上存在的總領域專家數量無關。醫院加載基礎+醫學專家,律師事務所加載基礎+法律專家,相同基礎模型,不同能力,無需重新訓練。

      這項研究從根本上重新定義了我們對AI學習和能力組合的理解。通過證明領域專家編碼可轉移的認知原語而非領域特定知識,Brainstacks為可擴展、模塊化AI系統鋪平了道路,其中能力是貨幣:一次訓練,永久凍結,任意組合。這種范式轉變可能會重塑大型語言模型的設計、組合和擴展方式,從單體架構走向真正的模塊化智能系統。

      說到底,Brainstacks的真正突破不僅僅是技術架構,而是對AI學習本質的重新理解。它告訴我們,AI系統學會的不是孤立的知識片段,而是可以跨領域遷移的思維工具。這種發現讓我們重新思考如何構建更智能、更靈活的AI系統,也為未來的AI發展指明了一個全新的方向。當AI能夠像人類一樣將不同領域的思維方式巧妙組合時,我們或許正在見證通用人工智能的早期形態。

      Q&A

      Q1:Brainstacks系統是如何實現零遺忘的?

      A:Brainstacks通過兩個關鍵機制實現零遺忘:首先是"冷凍"技術,一旦某個領域的專家訓練完成就永久凍結其參數,就像把專家技能保存在冰箱里永不變質;其次是零空間投影技術,用數學方法確保新專家的訓練不會影響已有專家占用的"空間",就像在已有房間旁邊建新房間時不會影響原房間結構。

      Q2:為什么醫學問題用聊天和數學專家解決效果更好?

      A:這個發現顛覆了傳統認知。研究發現AI學習的不是具體知識而是認知能力:聊天專家掌握了清晰的指令遵循和解釋能力,數學專家學會了數值推理和逐步計算,這些通用思維工具組合起來處理醫學問題比單純的醫學專家更有效,就像一個善于溝通的數學家有時比專業醫生更能解釋醫學計算問題。

      Q3:Brainstacks系統能應用到現有的AI模型上嗎?

      A:目前Brainstacks需要在具有良好預訓練基礎的模型上使用,比如Gemma 3 12B或TinyLlama這樣已經訓練好的模型。它不能直接應用到隨機初始化的模型上,因為需要基礎模型提供穩定的表征空間。不過研究團隊正在開發新的架構,讓這種模塊化能力從模型訓練一開始就內置進去。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      毛新宇少將最新現身,已經晉升16年,何時能擔任中將或上將?

      毛新宇少將最新現身,已經晉升16年,何時能擔任中將或上將?

      李昕言溫度空間
      2026-04-14 21:19:17
      隨著廣東險勝寧波,青島慘敗北京,CBA積分:季后賽12強基本確定

      隨著廣東險勝寧波,青島慘敗北京,CBA積分:季后賽12強基本確定

      小火箭愛體育
      2026-04-14 21:49:45
      民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

      民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

      李橑在北漂
      2026-04-02 10:22:26
      恒大集團許家印坑的最慘的9位大佬

      恒大集團許家印坑的最慘的9位大佬

      地產微資訊
      2026-03-29 19:08:15
      毛焦爾勝選后,涉俄烏表態

      毛焦爾勝選后,涉俄烏表態

      參考消息
      2026-04-14 15:32:03
      國防部話音剛落,東部戰區就來真的了!臺海方向,有些人該失眠了

      國防部話音剛落,東部戰區就來真的了!臺海方向,有些人該失眠了

      閆樹軍論評
      2026-04-14 18:35:59
      1998年,我娶了一個懷了別人孩子的女教師,新婚夜她交給我一封信

      1998年,我娶了一個懷了別人孩子的女教師,新婚夜她交給我一封信

      千秋文化
      2026-04-11 20:04:55
      特朗普刪除爭議圖片!與教皇的“戰爭”:這一點上我支持特朗普

      特朗普刪除爭議圖片!與教皇的“戰爭”:這一點上我支持特朗普

      鷹眼Defence
      2026-04-14 17:25:29
      東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

      東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

      番外行
      2026-03-31 08:28:28
      馬筱梅直播爆張蘭豪宅房間布置,一語道破為何汪寶兒不能住奶奶家

      馬筱梅直播爆張蘭豪宅房間布置,一語道破為何汪寶兒不能住奶奶家

      白面書誏
      2026-04-14 14:12:15
      石油儲備防線全面失守,日本四處求油接連碰壁,恐重蹈40億巨虧路

      石油儲備防線全面失守,日本四處求油接連碰壁,恐重蹈40億巨虧路

      比利
      2026-04-14 23:38:03
      孕婦200買水果被罵:開始坐小月子,男方得知孩子沒了,怒砸東西

      孕婦200買水果被罵:開始坐小月子,男方得知孩子沒了,怒砸東西

      奇思妙想草葉君
      2026-04-14 23:29:17
      許家印最后防線崩塌!高院下死命令:20日不交錢就徹底禁言!

      許家印最后防線崩塌!高院下死命令:20日不交錢就徹底禁言!

      歷史偉人錄
      2026-03-30 18:00:12
      巴媒:巴鐵出兵沙特后獲120億美元購中國武器

      巴媒:巴鐵出兵沙特后獲120億美元購中國武器

      懸崖邊上的愛情
      2026-04-14 10:40:07
      川普猛批羅馬教皇,引發14億天主教徒不滿,烏克蘭運載火箭升空

      川普猛批羅馬教皇,引發14億天主教徒不滿,烏克蘭運載火箭升空

      史政先鋒
      2026-04-14 12:22:39
      外媒:巴基斯坦購40架殲-35戰機,單價8000萬美元

      外媒:巴基斯坦購40架殲-35戰機,單價8000萬美元

      無人傾聽無人傾聽
      2026-04-14 10:38:21
      鄭麗文坐的不是豐田考斯特,宇通T7:中國公務車徹底告別日系時代

      鄭麗文坐的不是豐田考斯特,宇通T7:中國公務車徹底告別日系時代

      趣味萌寵的日常
      2026-04-14 13:19:30
      霍爾木茲海峽一封鎖,中國電驢成了東南亞人民眼里的“兩輪菩薩”

      霍爾木茲海峽一封鎖,中國電驢成了東南亞人民眼里的“兩輪菩薩”

      流蘇晚晴
      2026-04-14 19:57:10
      印度250萬噸尿素全球招標無人問津,中企缺席

      印度250萬噸尿素全球招標無人問津,中企缺席

      不甜的李子
      2026-04-14 14:18:36
      業界女優的等級怎么看?從這幾點看就行!

      業界女優的等級怎么看?從這幾點看就行!

      吃瓜黨二號頭目
      2026-04-15 09:10:57
      2026-04-15 10:28:49
      至頂AI實驗室 incentive-icons
      至頂AI實驗室
      一個專注于探索生成式AI前沿技術及其應用的實驗室。
      3213文章數 169關注度
      往期回顧 全部

      科技要聞

      手機無死角上網?亞馬遜砸百億硬剛馬斯克

      頭條要聞

      遼寧車牌號帶8888奔馳疑作為陪葬品下葬 當地再發聲

      頭條要聞

      遼寧車牌號帶8888奔馳疑作為陪葬品下葬 當地再發聲

      體育要聞

      帶出中超最大黑馬!他讓球迷們“排隊道歉”

      娛樂要聞

      網曝鐘麗緹代孕要了個男孩 備孕近10年

      財經要聞

      特朗普稱美國對伊朗的戰爭已經結束

      汽車要聞

      售12.99萬起/續航2000km 風云T9L上市

      態度原創

      手機
      本地
      時尚
      數碼
      公開課

      手機要聞

      iOS 26泄露案動態:普羅瑟未完全遵循傳票要求,蘋果擬申請強制令

      本地新聞

      12噸巧克力有難,全網化身超級偵探添亂

      壞事做盡的瘋女人,集體翻紅了

      數碼要聞

      NVIDIA 2025年的保修支出同比飆升至10倍 接近9億美元

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版