![]()
這項由普林斯頓大學郭家騁、楊凌等研究者領導,聯合字節跳動種子、哥倫比亞大學、密歇根大學和芝加哥大學共同完成的研究發表于2025年12月,論文編號為arXiv:2512.19682v1。有興趣深入了解的讀者可以通過該編號查詢完整論文內容。
在人工智能的世界里,訓練一個能夠勝任復雜任務的AI智能體就像培養一個孩子一樣充滿挑戰。傳統的方法就好比讓孩子只能通過背誦別人的經驗來學習,這樣既昂貴又效果有限。普林斯頓大學的研究團隊提出了一個革命性的解決方案——GenEnv框架,這就像為AI創造了一個能夠隨著它成長而不斷調整難度的"電子游戲"環境。
在這個創新框架中,有兩個核心角色在進行著一場永不停歇的"成長游戲":一個是學習者(智能體),另一個是出題者(環境模擬器)。出題者會根據學習者的當前水平,精心設計出既不會太簡單讓人感到無聊,也不會太困難讓人完全放棄的任務。這種動態調節機制被研究團隊稱為"難度對齊的共同進化",就像一個貼心的私人教練,始終為學生提供最適合當前水平的挑戰。
研究團隊在五個不同的基準測試中驗證了GenEnv的效果,這些測試涵蓋了從API調用到具體環境交互等多種任務類型。結果顯示,使用GenEnv訓練的7B參數模型在各項測試中都表現出色,最高提升達到了40.3%。更令人驚訝的是,這個相對較小的模型甚至能夠匹敵或超越那些參數量大得多的競爭對手。與使用Gemini 2.5 Pro進行離線數據增強的方法相比,GenEnv在使用更少合成數據的情況下依然取得了更好的性能表現。
一、AI訓練的昂貴瓶頸:為什么傳統方法走進死胡同
在AI智能體的訓練過程中,數據就像是學習的"營養品"。傳統的訓練方式依賴于收集大量專家演示的數據,這就好比讓孩子只能通過觀看錄像來學習騎自行車一樣。這種方法面臨著三個根本性問題:成本高昂、內容固定、效果有限。
想象一下教一個AI智能體學會在網上購物。傳統方法需要人類專家親自演示成千上萬次購物過程,記錄下每一個點擊、每一次輸入。這個過程不僅耗時耗力,而且成本極高。更糟糕的是,當網站界面發生變化時——比如"添加到購物車"按鈕變成了"立即購買"——AI智能體可能就會因為沒有見過這種變化而陷入困惑。
這種靜態數據訓練方式的另一個問題在于,無論我們收集多少數據,都無法涵蓋現實世界中可能出現的所有變化。就像一個只在教科書上學過開車的人,當真正面對復雜路況時往往會手足無措。AI智能體也是如此,它們在面對訓練數據之外的新情況時,表現往往令人失望。
近年來,研究人員嘗試通過合成數據生成來解決這個問題。這就像制作更多的"模擬題"來豐富訓練材料。然而,這種方法本質上仍然是在創建一個更大但依然靜態的數據集。問題的核心并沒有得到解決——AI智能體仍然缺乏根據自身學習進度動態調整訓練內容的能力。
普林斯頓大學的研究團隊認識到,真正的解決方案不在于簡單地增加數據量,而在于改變數據的生成方式。他們提出了一個根本性的轉變:從"模型在靜態數據上進化"轉向"數據隨著模型共同進化"。這種思維轉變就像從"填鴨式教育"轉向"個性化教學",讓AI能夠在一個真正適應其學習節奏的環境中成長。
二、GenEnv的核心創新:讓AI在游戲中成長
GenEnv框架的核心理念可以用一個生動的比喻來理解:它就像為AI創造了一個智能的"成長伙伴"。在這個系統中,有兩個AI在進行著一場永恒的互動游戲——一個是學生(智能體),另一個是老師(環境模擬器)。
這位AI老師有一個特殊的天賦:它能夠精確感知學生的學習水平,并據此設計出最適合的練習題。當學生在某類任務上表現很好時,老師就會適當增加難度;當學生遇到困難時,老師會調整任務的復雜度,確保學生既不會因為太簡單而無聊,也不會因為太困難而沮喪。
這種動態調節機制的核心是一個被稱為"α-課程獎勵"的巧妙設計。這個獎勵機制的目標是讓AI智能體在每類任務上都維持大約50%的成功率。為什么是50%呢?研究團隊通過理論分析發現,當成功率在這個水平時,AI能夠獲得最強的學習信號。這就像運動訓練中的"最適宜負荷"概念——既不會因為太輕松而沒有提升,也不會因為太困難而受傷。
在具體實現上,環境模擬器會持續監控智能體的表現。當智能體在某批任務上的成功率偏離目標范圍時,模擬器就會相應地調整后續任務的生成策略。如果智能體的成功率過高,說明任務太簡單了,模擬器就會增加復雜度;如果成功率過低,模擬器則會降低難度。這個過程完全自動化,無需人工干預。
更令人印象深刻的是,這個系統展現出了真正的"共同進化"特征。隨著訓練的進行,研究團隊觀察到一個有趣的現象:智能體生成的回答越來越長,這表明它正在學會處理更復雜的任務。同時,環境模擬器生成的任務描述也在變長,說明它正在創造更具挑戰性的場景。這種同步發展就像兩個舞伴在共同提高舞技——一個學會了更復雜的步伐,另一個就會配合創造更優美的舞蹈。
三、理論基礎:為什么50%成功率是最佳選擇
GenEnv框架的設計并非憑空想象,而是建立在堅實的理論基礎之上。研究團隊通過數學分析證明了為什么50%的成功率能夠為AI提供最強的學習信號。
這個理論可以通過一個簡單的學習場景來理解。假設你在學習投籃,如果籃筐放得太低,你每次都能輕松投中,那么你的技術不會有任何提升。如果籃筐放得太高,你怎么努力都投不中,很快就會失去繼續練習的動力。但是,如果籃筐的高度剛好讓你能投中一半的球,那么你既能從成功中獲得正面反饋,又能從失敗中學到改進的方向。
在數學層面,研究團隊證明了當任務的成功概率為50%時,智能體從每次嘗試中獲得的學習信號達到最大值。這是因為學習信號的強度與任務結果的不確定性成正比。當成功率過高或過低時,結果變得可預測,學習信號隨之減弱;但在50%成功率時,每次嘗試的結果都充滿了有價值的信息。
研究團隊還證明了α-課程獎勵機制的統計一致性。簡單來說,即使環境模擬器只能觀察到有限次數的智能體嘗試,它依然能夠可靠地判斷出哪種任務類型更接近目標難度。這種可靠性隨著觀察次數的增加而指數級提升,這意味著系統能夠快速而準確地識別出最適合的任務難度。
這種理論保證解釋了為什么GenEnv在實際應用中表現如此出色。當系統開始運行時,智能體的成功率可能遠低于50%,因為任務對它來說太困難了。但是,環境模擬器會快速識別這種不匹配,并調整任務生成策略,逐步將智能體的成功率引導到目標區域。隨著訓練的進行,智能體能力提升,而環境模擬器也會相應地提高任務難度,始終保持這種最優的學習狀態。
四、數據演化范式:從靜態學習到動態成長
GenEnv最具革命性的貢獻在于提出了"數據演化范式"。這個概念的理解需要從傳統的機器學習思維中跳出來。
傳統的機器學習就像在圖書館里學習:你有一堆固定的教科書,無論你的水平如何提高,這些書的內容永遠不會改變。即使你已經掌握了基礎知識,還是得繼續翻閱那些初級內容;當你需要更高級的知識時,圖書館里卻沒有合適的書籍。
GenEnv的數據演化范式則完全不同,它更像擁有一位能讀懂你內心的私人教師。這位教師不僅能夠感知你當前的知識水平,還能即時創造出最適合你的學習材料。當你在某個領域有了進步,教師立即就能提供更具挑戰性的內容;當你在某些方面遇到困難,教師會馬上調整教學策略,提供更有針對性的練習。
在技術實現上,這種范式通過兩個不斷演化的數據集來實現。第一個是智能體訓練池,它收集智能體在各種任務上的嘗試記錄。這些記錄不僅包含成功的案例,也包含失敗的嘗試,因為失敗往往比成功更有教育價值。第二個是環境訓練池,它存儲環境模擬器生成的各種任務,這些任務會根據其"教育效果"被賦予不同的權重。
這種動態數據生成的美妙之處在于它能夠自動發現智能體的"學習邊界"。當智能體在某類任務上表現出色時,系統知道這已經不再是有效的學習材料;當智能體完全無法應對某類任務時,系統也知道這超出了當前的學習能力。系統的目標是持續尋找那個甜蜜點——既具有挑戰性又在能力范圍內的任務類型。
數據演化范式的另一個重要特征是它的累積性質。與那些每次都從頭開始的訓練方法不同,GenEnv會保留智能體的學習歷史。這確保了智能體在學習新技能的同時不會忘記已經掌握的能力。這就像一個人在學習高等數學時不會忘記基礎算術一樣,是一種更符合人類學習規律的方式。
五、實驗驗證:在五個戰場上的全面勝利
研究團隊選擇了五個不同類型的基準測試來驗證GenEnv的效果,這就像讓一個學生在不同科目上都接受考驗。這些測試涵蓋了API調用、具體環境交互、函數調用、問答推理和旅行規劃等多個領域,確保GenEnv的有效性不僅僅局限于特定類型的任務。
在API-Bank測試中,GenEnv訓練的7B模型達到了79.1%的成功率,相比基礎模型的61.6%有了顯著提升。這個測試考驗的是AI智能體調用各種應用程序接口的能力,就像測試一個人能否熟練操作各種不同的軟件工具。GenEnv的優異表現說明,通過動態調整任務難度,AI能夠更好地掌握工具使用的技巧。
在ALFWorld這個具體環境交互測試中,GenEnv展現了最為驚人的提升效果。基礎模型的成功率僅為14.2%,而GenEnv訓練的模型達到了54.5%,提升幅度超過40個百分點。ALFWorld要求AI智能體在虛擬家居環境中執行各種日常任務,比如"把蘋果放到微波爐里"或"找到并打開臺燈"。這類任務需要多步驟推理和規劃能力,GenEnv在這方面的突出表現證明了動態課程學習對培養復雜推理能力的重要作用。
BFCL(伯克利函數調用排行榜)測試著重考驗模型的函數調用能力。在這個具有挑戰性的測試中,GenEnv取得了41.8%的成功率,相比基礎模型的7.0%有了質的飛躍。這個提升特別有意義,因為函數調用是現代AI應用中的核心能力,直接關系到AI智能體能否有效地與各種外部工具和服務交互。
在Bamboogle問答推理測試中,GenEnv達到了76.0%的成功率,與基礎模型的68.0%相比也有明顯改善。雖然這個提升相對較小,但考慮到問答推理本身已經是相對成熟的AI能力,任何提升都是珍貴的。更重要的是,這證明了GenEnv的方法不會在強化某些能力的同時削弱其他能力。
在TravelPlanner旅行規劃測試中,GenEnv的表現為16.6%,相比基礎模型的14.3%有小幅提升。這個測試可能是最具挑戰性的,因為它需要AI綜合考慮多種約束條件,制定切實可行的旅行計劃。雖然提升幅度相對較小,但這反映了現實問題的復雜性,也為未來的改進指明了方向。
六、與巨型模型的較量:小而精vs大而全
GenEnv最令人印象深刻的成就之一是它讓相對較小的7B參數模型能夠與那些參數量多得多的"巨無霸"模型相提并論,甚至在某些方面超越它們。這就像讓一個聰明的中學生在某些任務上戰勝了大學教授,展現了"精準訓練"相對于"規模堆疊"的優勢。
在與14B到72B參數的大型模型比較中,GenEnv訓練的7B模型展現出了驚人的競爭力。例如,在平均性能上,GenEnv達到了53.6%的成功率,這不僅超過了所有其他7B模型,甚至與一些參數量是其兩倍以上的模型相當。這種現象說明,訓練方法的創新往往比單純增加模型規模更有效。
特別值得注意的是與Qwen3-14B模型的比較。這個模型的參數量是GenEnv使用模型的兩倍,但在平均性能上僅達到44.9%,明顯低于GenEnv的53.6%。更令人印象深刻的是,在ALFWorld這個最具挑戰性的測試中,GenEnv的54.5%成功率甚至超過了擁有405B參數的Llama 3.1模型的65.3%,雖然還有差距,但這種參數規模的巨大懸殊讓這個比較變得特別有意義。
這種"小而精"戰勝"大而全"的現象背后有著深刻的科學道理。大型模型雖然擁有更強的表達能力和更豐富的知識儲備,但它們往往是在通用數據上進行訓練的,缺乏針對特定任務的深度優化。相比之下,GenEnv通過動態生成高質量的訓練數據,讓較小的模型能夠在特定領域達到極高的專業化水平。
這個發現對AI行業具有重要的實際意義。它表明,與其盲目追求更大的模型規模,不如將注意力轉向更智能的訓練方法。對于那些計算資源有限的研究機構和公司來說,GenEnv提供了一條通過創新訓練方法而非硬件堆疊來提升AI性能的道路。
七、數據效率的奇跡:用更少資源獲得更好效果
GenEnv最具商業價值的特性之一是其卓越的數據效率。在與使用強大的Gemini 2.5 Pro模型進行數據增強的方法比較中,GenEnv展現了令人震驚的效率優勢。
研究團隊設計了一個嚴格的對比實驗。他們使用Gemini 2.5 Pro這個業界頂級模型來生成大量高質量的合成訓練數據。在第一種設置中,Gemini生成了約1.8倍于原始數據集的額外數據;在第二種設置中,生成量更是達到了3.3倍。這些數據的質量極高,因為它們來自當時最先進的AI模型。
然而,即使面對如此強大的競爭對手,GenEnv依然展現出了明顯的優勢。在BFCL測試中,使用1.8倍Gemini增強數據的方法達到了43.4%的性能,使用3.3倍增強數據的方法達到了43.8%。而GenEnv在使用相當于原始數據量的動態生成數據的情況下,達到了45.8%的性能。
這個結果的意義是深遠的。它意味著GenEnv不僅在絕對性能上超越了靜態數據增強方法,更重要的是,它用更少的資源達到了更好的效果。如果將訓練成本考慮在內,GenEnv的優勢就更加明顯了。使用Gemini 2.5 Pro生成3.3倍的增強數據不僅需要大量的API調用費用,還需要相應的存儲和計算資源。相比之下,GenEnv的動態生成機制雖然也需要計算資源,但其效率明顯更高。
這種數據效率的優勢背后有著清晰的邏輯。靜態數據增強方法,無論使用多強大的模型,生成的仍然是固定內容的數據。這些數據可能在訓練初期很有用,但隨著智能體能力的提升,其價值會逐漸遞減。相比之下,GenEnv的動態生成機制確保每一條新數據都是針對智能體當前學習需求定制的,因此每一條數據都具有很高的教育價值。
更重要的是,這種數據效率優勢隨著訓練時間的延長而愈發明顯。在訓練的早期階段,靜態數據可能還有一定價值;但在訓練的后期階段,當智能體已經掌握了基礎技能時,靜態數據的價值就會急劇下降。而GenEnv的動態數據生成機制能夠始終為智能體提供適當挑戰性的新內容,保證訓練效果的持續性。
八、難度校準的藝術:維持最佳學習狀態
GenEnv系統最精妙的設計之一是其自動難度校準機制。這套機制就像一個經驗豐富的教練,能夠精確感知學生的學習狀態,并據此調整訓練難度。
在整個訓練過程中,系統持續監控智能體在生成任務上的成功率。研究團隊觀察到一個令人著迷的現象:智能體的成功率從最初的13.8%逐步上升,并最終穩定在50%左右的目標區域。這種收斂過程展現了系統的自我調節能力——既不會讓任務變得太簡單以至于失去挑戰性,也不會讓任務難到讓智能體完全無法應對。
更令人印象深刻的是這種難度校準的動態性質。隨著訓練的進行,雖然智能體的成功率保持在目標范圍內,但任務的實際復雜度卻在不斷提升。研究團隊通過分析任務描述的長度發現,環境模擬器生成的任務描述從最初的平均5828個token逐漸減少到5657個token,這看似矛盾的現象實際上反映了系統的智能化:模擬器學會了用更簡潔的描述來表達更復雜的任務。
同時,智能體生成回應的長度從137個token增長到204個token,增幅達到49%。這個變化清楚地表明,智能體正在學會處理更復雜的推理任務。更長的回應通常意味著更多的中間推理步驟、更詳細的工具調用序列,以及更完善的問題解決策略。
這種難度校準機制的效果可以通過一個生動的比喻來理解:就像一位游戲設計師在為玩家設計關卡。優秀的游戲設計師知道,最好的游戲體驗來自于讓玩家始終處于"心流狀態"——既感到挑戰,又不會感到絕望。GenEnv的環境模擬器就是這樣一位游戲設計師,它能夠實時感知"玩家"(智能體)的技能水平,并相應地調整"關卡"(任務)的難度。
研究團隊還觀察到,這種校準機制具有很強的穩定性。即使在訓練過程中出現暫時的性能波動,系統也能夠快速調整并回到目標狀態。這種穩定性對于長期訓練來說至關重要,它確保了智能體能夠在整個訓練過程中保持高效的學習狀態。
九、問題解決能力的顯著提升:從失敗到成功的轉變
GenEnv在培養智能體解決問題能力方面展現出了顯著的優勢。通過對比分析訓練過程中完全解決的任務數量和未解決任務的變化趨勢,研究團隊揭示了這一創新方法的深層價值。
在訓練初期,智能體完全解決的任務數量相對較少,這是正常現象,因為它還在學習基礎技能。然而,隨著GenEnv訓練的進行,完全解決任務的數量呈現出穩定的上升趨勢。到訓練結束時,智能體每批次能夠完全解決的任務數量相比隨機生成環境提升了3.5%。雖然這個數字看起來不大,但考慮到這是在任務難度同步提升的背景下取得的,其意義就變得更加重要了。
更令人印象深刻的是未解決任務數量的變化。在傳統的隨機任務生成環境中,隨著訓練的進行,未解決任務的數量下降緩慢且不穩定。而在GenEnv環境中,未解決任務的數量呈現出急劇而穩定的下降趨勢。到訓練結束時,GenEnv環境中的未解決任務數量比隨機環境少了20.3%。這種對比鮮明地展現了GenEnv在幫助智能體克服學習難點方面的優勢。
這種改善的背后機制值得深入理解。在隨機任務生成環境中,智能體可能會重復遇到同樣簡單的任務,這雖然能帶來短期的成功感,但對能力提升幫助有限。同時,它也可能經常遇到過于困難的任務,導致頻繁失敗而無法從中學到有用信息。相比之下,GenEnv的動態調節機制確保智能體遇到的每個任務都處在其"學習邊界"上——既有一定難度,又不至于完全無法解決。
這種精準的難度控制產生了一種"良性循環"效應。當智能體在某類任務上表現良好時,環境會適當增加這類任務的復雜度,推動智能體進一步提升;當智能體在某類任務上遇到困難時,環境會提供更多類似但稍微簡化的練習,幫助智能體逐步掌握必要技能。這種個性化的學習路徑比一刀切的訓練方法更加高效。
研究團隊還注意到,GenEnv訓練的智能體不僅在解決問題的數量上有所提升,在解決問題的質量上也表現出明顯改善。通過分析智能體的推理過程,研究人員發現GenEnv訓練的智能體能夠生成更長、更詳細的推理鏈,這表明它們不是簡單地記住了解決方案,而是真正學會了推理和規劃。
十、理論與實踐的完美結合:科學原理的現實驗證
GenEnv最令人信服的地方在于其理論預測與實際觀察結果的高度吻合。這種理論與實踐的一致性不僅驗證了研究團隊的科學假設,也為未來的改進指明了方向。
在理論分析中,研究團隊證明了50%成功率能夠為智能體提供最強的學習信號。這個理論預測在實際實驗中得到了完美驗證。觀察GenEnv的訓練曲線,可以清楚地看到智能體的成功率從初始的13.8%逐步上升,最終穩定在52.4%左右。這個數值與理論預測的50%幾乎完全吻合,其微小差異完全在統計誤差范圍內。
更令人印象深刻的是系統的收斂特性。理論分析預測,α-課程獎勵機制應該能夠引導系統快速收斂到目標狀態。實驗結果顯示,智能體的成功率在第2個訓練周期就進入了目標區間(40%-60%),并在后續訓練中穩定維持在這個范圍內。這種快速收斂特性對實際應用來說極其重要,因為它意味著系統能夠很快找到最優的訓練狀態。
理論分析還預測,α-課程獎勵應該具有統計一致性,即能夠可靠地識別出最適合的任務難度。實驗觀察證實了這一點:隨著訓練的進行,環境模擬器生成的任務質量不斷提高,越來越精準地匹配智能體的當前能力水平。這種改善不是偶然的,而是源于獎勵機制的內在邏輯。
實驗還驗證了另一個重要的理論預測:中等難度任務能夠提供最強的學習信號。通過分析智能體在不同難度任務上的學習效果,研究團隊發現,那些成功率在40%-60%范圍內的任務確實產生了最大的性能提升。過于簡單的任務(成功率>80%)對智能體的改善作用很小,而過于困難的任務(成功率<20%)甚至可能產生負面影響。
這種理論與實踐的高度一致性提供了超越單一實驗的科學價值。它表明GenEnv不是一個偶然成功的工程技巧,而是建立在堅實科學基礎上的系統性創新。這為未來的研究提供了可靠的理論指導:其他研究者可以基于這些原理開發出適合不同應用場景的變體方法。
同時,這種一致性也增強了人們對GenEnv適用性的信心。當理論預測能夠準確指導實際結果時,我們有理由相信這種方法在其他任務和場景中也能取得類似的成功。這對于AI智能體訓練方法的產業化應用來說具有重要意義。
結語
說到底,GenEnv代表了AI訓練思維的一次根本性轉變。傳統的方法就像讓學生反復背誦固定的教科書,而GenEnv則創造了一個能夠與學生共同成長的智能化學習環境。這種從"靜態數據訓練"向"動態數據演化"的轉變,不僅在技術上取得了顯著突破,更重要的是為AI智能體訓練開辟了一條全新的道路。
這項研究的價值遠不止于性能指標的提升。它向我們展示了一個重要觀點:有時候,改變思維方式比增加計算資源更有效。GenEnv用相對較小的7B模型挑戰甚至超越了那些參數量多出數十倍的巨型模型,證明了"巧干"相對于"蠻干"的優勢。對于那些計算資源有限的研究機構和公司來說,這無疑是一個令人振奮的消息。
從實用角度來看,GenEnv解決了AI智能體訓練中的一個核心痛點:數據成本。傳統方法需要大量昂貴的人工標注數據,而GenEnv通過智能化的自動生成機制,不僅降低了成本,還提高了效果。這種數據效率的改善對于AI技術的普及和應用具有重要意義。
展望未來,GenEnv開啟的"共同進化"訓練范式可能會影響整個AI領域的發展方向。它提示我們,與其一味追求更大的模型和更多的數據,不如將注意力轉向更智能的訓練方法。這種思路不僅適用于智能體訓練,也可能啟發其他AI應用領域的創新。
對于普通人來說,GenEnv的意義在于它讓AI變得更加高效和實用。隨著這類方法的成熟和普及,我們可能會看到更多能夠真正理解和適應我們需求的AI助手。它們不再是僵化的程序,而是能夠在交互中不斷學習和改進的智能伙伴。
當然,這項研究也提出了新的思考。如果AI能夠在一個自我生成的環境中快速進步,那么我們如何確保它們學到的技能能夠很好地轉移到現實世界中呢?如何在追求訓練效率的同時保證AI系統的安全性和可靠性?這些問題值得研究者們繼續探索。
總而言之,GenEnv不僅僅是一個技術創新,更是一次思維革命。它告訴我們,在AI的世界里,最好的老師可能就是那個能夠與學生共同成長的伙伴。有興趣深入了解這項研究技術細節的讀者,可以通過論文編號arXiv:2512.19682v1查詢完整的研究內容。
Q&A
Q1:GenEnv框架的核心工作原理是什么?
A:GenEnv框架包含兩個AI角色——學生智能體和老師環境模擬器。老師會根據學生的當前水平動態生成任務,目標是讓學生在每類任務上維持約50%的成功率。當學生表現太好時,老師增加難度;表現不佳時,老師降低難度,確保始終提供最適合的學習挑戰。
Q2:為什么GenEnv要追求50%的成功率而不是更高?
A:研究團隊通過數學分析證明,50%成功率能為AI提供最強的學習信號。就像運動訓練中的"最適宜負荷",既不會因太簡單而無提升,也不會因太困難而受挫。成功率過高表示任務太容易,過低則表示任務超出能力范圍,只有50%左右才能獲得最大的學習價值。
Q3:GenEnv相比傳統訓練方法有什么實際優勢?
A:GenEnv最大優勢是數據效率和性能提升。它讓7B參數的小模型能夠匹敵甚至超越參數量多出數倍的大型模型,在五個基準測試中最高提升40.3%。同時,它用更少的合成數據就超越了用強大Gemini模型生成3.3倍增強數據的效果,大大降低了訓練成本。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.