![]()
這項(xiàng)突破性研究由中國(guó)人民大學(xué)高瓴人工智能學(xué)院的湯心語(yǔ)、占昱亮團(tuán)隊(duì)與香港中文大學(xué)、螞蟻集團(tuán)聯(lián)合完成,發(fā)表于2025年12月25日的arXiv預(yù)印本平臺(tái)(編號(hào):arXiv:2512.21625v1)。對(duì)這項(xiàng)研究感興趣的讀者可以通過(guò)該編號(hào)查詢完整論文內(nèi)容。
當(dāng)我們教一個(gè)孩子學(xué)習(xí)時(shí),通常會(huì)給他們正面和負(fù)面的例子。比如教孩子認(rèn)識(shí)動(dòng)物,我們會(huì)指著狗說(shuō)"這是狗",指著貓說(shuō)"這不是狗"。現(xiàn)在,研究團(tuán)隊(duì)發(fā)現(xiàn)人工智能在學(xué)習(xí)過(guò)程中也面臨著類似的情況,而且這個(gè)過(guò)程比我們想象的要復(fù)雜得多。
目前最先進(jìn)的AI推理模型,就像那些能解復(fù)雜數(shù)學(xué)題、編寫代碼的智能系統(tǒng),都需要通過(guò)一種叫做"強(qiáng)化學(xué)習(xí)"的方式來(lái)訓(xùn)練。這就好比訓(xùn)練一個(gè)學(xué)生做習(xí)題:AI會(huì)嘗試解決問(wèn)題,然后根據(jù)答案的正確與否獲得"獎(jiǎng)勵(lì)"或"懲罰"。正確答案讓AI知道"這樣做是對(duì)的",錯(cuò)誤答案讓AI明白"這條路走不通"。
然而,研究團(tuán)隊(duì)注意到一個(gè)關(guān)鍵問(wèn)題:在這個(gè)訓(xùn)練過(guò)程中,正面例子(正確答案)和負(fù)面例子(錯(cuò)誤答案)對(duì)AI學(xué)習(xí)的影響方式完全不同,就像陽(yáng)光和雨水對(duì)植物生長(zhǎng)的作用不同一樣。令人驚訝的是,雖然這種差異如此重要,但之前很少有人系統(tǒng)地研究過(guò)這個(gè)現(xiàn)象。
研究團(tuán)隊(duì)就像園藝師研究不同肥料對(duì)植物的影響一樣,深入分析了正面和負(fù)面訓(xùn)練樣本對(duì)AI學(xué)習(xí)的不同作用。他們發(fā)現(xiàn),正面樣本就像給植物施加定向肥料,讓AI更加專注于已經(jīng)掌握的正確方法,使推理過(guò)程變得更加精準(zhǔn)和高效。相比之下,負(fù)面樣本則像是給植物提供多樣化的養(yǎng)分,鼓勵(lì)A(yù)I探索新的解題思路和推理路徑。
為了驗(yàn)證這些發(fā)現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了一系列精巧的實(shí)驗(yàn)。他們選擇了三種不同類型的AI模型進(jìn)行測(cè)試:一個(gè)專門訓(xùn)練過(guò)數(shù)學(xué)推理的模型、一個(gè)通用的基礎(chǔ)模型,以及一個(gè)經(jīng)過(guò)特殊優(yōu)化的精簡(jiǎn)模型。通過(guò)分別使用純正面樣本、純負(fù)面樣本,以及兩者結(jié)合的方式訓(xùn)練這些模型,研究團(tuán)隊(duì)觀察到了截然不同的學(xué)習(xí)效果。
當(dāng)只使用正面樣本訓(xùn)練時(shí),AI表現(xiàn)得就像一個(gè)過(guò)分自信的學(xué)生。它會(huì)快速掌握已知的解題方法,輸出變得越來(lái)越簡(jiǎn)潔,但同時(shí)也變得越來(lái)越僵化,不愿意嘗試新的思路。用數(shù)學(xué)術(shù)語(yǔ)來(lái)說(shuō),就是模型的"熵"(可以理解為思維的多樣性)急劇下降,回答變得越來(lái)越短和模式化。
相反,當(dāng)只使用負(fù)面樣本訓(xùn)練時(shí),AI就像一個(gè)過(guò)分謹(jǐn)慎的探險(xiǎn)者。它會(huì)不斷嘗試各種不同的方法,保持思維的開(kāi)放性和多樣性,產(chǎn)生更長(zhǎng)、更具探索性的回答。但問(wèn)題是,這種過(guò)度的探索有時(shí)會(huì)讓AI走向錯(cuò)誤的方向,甚至產(chǎn)生一些無(wú)意義的內(nèi)容。
最有趣的發(fā)現(xiàn)是,當(dāng)研究團(tuán)隊(duì)嘗試只使用其中一種樣本類型進(jìn)行訓(xùn)練時(shí),AI的整體推理能力都會(huì)受到損害。這就像植物既需要陽(yáng)光也需要雨水一樣,AI既需要正面樣本來(lái)加強(qiáng)正確的推理模式,也需要負(fù)面樣本來(lái)保持思維的靈活性和探索能力。
基于這些深入觀察,研究團(tuán)隊(duì)進(jìn)一步探索了如何在不同層面精細(xì)調(diào)節(jié)正面和負(fù)面樣本的影響力。他們發(fā)現(xiàn),傳統(tǒng)的訓(xùn)練方法就像用大勺子調(diào)味一樣粗糙,而他們提出的新方法則像用精密的滴管,可以精確控制每一個(gè)"調(diào)料"的用量。
在樣本層面的調(diào)節(jié)中,研究團(tuán)隊(duì)發(fā)現(xiàn)給正面樣本更高的權(quán)重會(huì)加速AI在訓(xùn)練數(shù)據(jù)上的表現(xiàn)提升,但同時(shí)會(huì)限制其探索新思路的能力。這就像過(guò)分強(qiáng)調(diào)標(biāo)準(zhǔn)答案會(huì)讓學(xué)生在考試中表現(xiàn)更好,但創(chuàng)新能力可能會(huì)受限。而強(qiáng)調(diào)負(fù)面樣本則會(huì)鼓勵(lì)A(yù)I進(jìn)行更廣泛的探索,雖然在訓(xùn)練階段進(jìn)步較慢,但在面對(duì)新問(wèn)題時(shí)可能表現(xiàn)更好。
更進(jìn)一步,研究團(tuán)隊(duì)開(kāi)發(fā)出一種前所未有的精細(xì)化方法:不僅在樣本層面進(jìn)行調(diào)節(jié),還深入到每個(gè)詞匯的層面。他們發(fā)現(xiàn),在正面樣本中,那些AI不太確定的詞匯(低概率詞匯)特別重要,因?yàn)檫@些詞匯往往代表著創(chuàng)新的思路。而在負(fù)面樣本中,那些AI很確定但實(shí)際錯(cuò)誤的詞匯(高概率詞匯)最需要被糾正,因?yàn)檫@些代表著AI的錯(cuò)誤自信。
這個(gè)發(fā)現(xiàn)就像發(fā)現(xiàn)了學(xué)習(xí)過(guò)程中的微妙平衡點(diǎn)。當(dāng)學(xué)生遇到正確但不太熟悉的解法時(shí),需要特別關(guān)注和強(qiáng)化;而當(dāng)學(xué)生對(duì)錯(cuò)誤答案過(guò)分自信時(shí),需要重點(diǎn)糾正這種錯(cuò)誤的確定性。
基于這些洞察,研究團(tuán)隊(duì)開(kāi)發(fā)了一種名為"A3PO"(自適應(yīng)與非對(duì)稱優(yōu)勢(shì)整形策略優(yōu)化)的新訓(xùn)練方法。這個(gè)方法就像一個(gè)智能的私人教師,能夠在訓(xùn)練過(guò)程中動(dòng)態(tài)調(diào)整對(duì)不同類型樣本的關(guān)注程度。
A3PO方法的巧妙之處在于它的自適應(yīng)性。在訓(xùn)練初期,當(dāng)AI還在探索各種可能性時(shí),這個(gè)方法會(huì)特別強(qiáng)調(diào)那些能促進(jìn)探索的樣本類型。但隨著訓(xùn)練的進(jìn)行,當(dāng)AI逐漸穩(wěn)定時(shí),方法會(huì)自動(dòng)調(diào)整策略,避免過(guò)度探索導(dǎo)致的不穩(wěn)定性。這就像一個(gè)經(jīng)驗(yàn)豐富的教練,知道在什么時(shí)候該鼓勵(lì)學(xué)生大膽嘗試,什么時(shí)候該讓學(xué)生專注于鞏固已掌握的技能。
為了驗(yàn)證這個(gè)新方法的效果,研究團(tuán)隊(duì)在多個(gè)不同的任務(wù)上進(jìn)行了全面測(cè)試,包括數(shù)學(xué)推理、科學(xué)問(wèn)答、代碼生成等各個(gè)領(lǐng)域。結(jié)果顯示,使用A3PO方法訓(xùn)練的AI模型在所有測(cè)試中都取得了顯著的性能提升,而且這種提升在不同規(guī)模的模型上都能穩(wěn)定重現(xiàn)。
特別值得注意的是,A3PO方法訓(xùn)練出的AI模型在整個(gè)訓(xùn)練過(guò)程中都保持了更高的思維多樣性和更長(zhǎng)的回答長(zhǎng)度,這表明它們沒(méi)有過(guò)早地陷入僵化的思維模式。雖然在訓(xùn)練階段這些模型的進(jìn)步速度看起來(lái)稍慢,但在面對(duì)真正的測(cè)試時(shí),它們的表現(xiàn)明顯更好,展現(xiàn)出更強(qiáng)的泛化能力。
這項(xiàng)研究的另一個(gè)重要發(fā)現(xiàn)涉及訓(xùn)練和實(shí)際應(yīng)用之間的"錯(cuò)位"問(wèn)題。研究團(tuán)隊(duì)發(fā)現(xiàn),過(guò)分強(qiáng)調(diào)負(fù)面樣本會(huì)加劇這種錯(cuò)位,就像在練習(xí)場(chǎng)地和真實(shí)比賽場(chǎng)地之間存在差異一樣。為了解決這個(gè)問(wèn)題,A3PO方法采用了漸進(jìn)式的調(diào)整策略,在訓(xùn)練初期適度強(qiáng)調(diào)探索,隨后逐漸過(guò)渡到更穩(wěn)定的訓(xùn)練模式,確保最終的AI模型能夠在實(shí)際應(yīng)用中穩(wěn)定工作。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消除實(shí)驗(yàn),逐一驗(yàn)證A3PO方法中每個(gè)組件的重要性。結(jié)果證明,無(wú)論是對(duì)正面樣本中低概率詞匯的特殊關(guān)注,還是對(duì)負(fù)面樣本中高概率詞匯的重點(diǎn)糾正,以及自適應(yīng)調(diào)整機(jī)制,都對(duì)最終性能的提升起到了不可替代的作用。
這項(xiàng)研究的意義遠(yuǎn)遠(yuǎn)超出了技術(shù)層面的改進(jìn)。它為我們理解人工智能的學(xué)習(xí)過(guò)程提供了全新的視角,揭示了正面和負(fù)面反饋在機(jī)器學(xué)習(xí)中的微妙作用機(jī)制。就像我們逐漸理解人類大腦的學(xué)習(xí)原理一樣,這項(xiàng)工作幫助我們更深入地認(rèn)識(shí)人工智能的"思維"過(guò)程。
從實(shí)際應(yīng)用的角度來(lái)看,這項(xiàng)研究為開(kāi)發(fā)更強(qiáng)大、更可靠的AI推理系統(tǒng)提供了重要的指導(dǎo)原則。無(wú)論是用于教育的智能輔導(dǎo)系統(tǒng),還是用于科研的AI助手,或者是用于商業(yè)決策的智能分析工具,都可能從這些發(fā)現(xiàn)中受益。
更重要的是,這項(xiàng)研究強(qiáng)調(diào)了平衡的重要性。在人工智能的訓(xùn)練過(guò)程中,既不能過(guò)分依賴正確示例的強(qiáng)化,也不能過(guò)度強(qiáng)調(diào)錯(cuò)誤的糾正,而需要在兩者之間找到動(dòng)態(tài)的平衡點(diǎn)。這個(gè)原則可能對(duì)人工智能的未來(lái)發(fā)展產(chǎn)生深遠(yuǎn)的影響。
說(shuō)到底,這項(xiàng)研究告訴我們,訓(xùn)練人工智能就像培養(yǎng)一個(gè)優(yōu)秀的學(xué)生一樣,需要細(xì)致入微的關(guān)注和精巧的方法。既要讓AI學(xué)會(huì)正確的推理方式,也要保持它們探索未知的能力。通過(guò)A3PO這樣的創(chuàng)新方法,我們不僅能夠訓(xùn)練出更強(qiáng)大的AI系統(tǒng),還能更好地理解智能本身的本質(zhì)。這項(xiàng)工作為人工智能領(lǐng)域的未來(lái)發(fā)展開(kāi)辟了新的道路,讓我們離創(chuàng)造真正智能的機(jī)器又近了一步。
Q&A
Q1:A3PO訓(xùn)練方法與傳統(tǒng)AI訓(xùn)練方法有什么不同?
A:A3PO方法最大的不同在于它能夠精細(xì)化地處理正面和負(fù)面訓(xùn)練樣本。傳統(tǒng)方法就像用大勺子調(diào)味,而A3PO則像用精密滴管,可以精確控制每種"調(diào)料"的用量。它不僅在樣本層面進(jìn)行調(diào)節(jié),還深入到每個(gè)詞匯層面,對(duì)正面樣本中的低概率詞匯和負(fù)面樣本中的高概率詞匯給予特殊關(guān)注,并且能在訓(xùn)練過(guò)程中自動(dòng)調(diào)整策略。
Q2:為什么只用正面樣本或只用負(fù)面樣本訓(xùn)練AI會(huì)有問(wèn)題?
A:只用正面樣本訓(xùn)練就像讓學(xué)生只背標(biāo)準(zhǔn)答案,AI會(huì)變得過(guò)分自信和僵化,雖然在已知問(wèn)題上表現(xiàn)很好,但缺乏探索新思路的能力。只用負(fù)面樣本訓(xùn)練則像讓AI過(guò)分謹(jǐn)慎,雖然保持了思維的開(kāi)放性,但可能走向錯(cuò)誤方向,甚至產(chǎn)生無(wú)意義內(nèi)容。就像植物既需要陽(yáng)光也需要雨水一樣,AI既需要正面樣本來(lái)強(qiáng)化正確模式,也需要負(fù)面樣本來(lái)保持探索能力。
Q3:普通人如何從這項(xiàng)強(qiáng)化學(xué)習(xí)研究中受益?
A:這項(xiàng)研究將直接改善我們?nèi)粘J褂玫腁I工具質(zhì)量。無(wú)論是智能聊天助手、自動(dòng)編程工具、還是在線教育平臺(tái),都可能因?yàn)楦玫挠?xùn)練方法而變得更智能、更可靠。對(duì)于教育工作者來(lái)說(shuō),這項(xiàng)研究也提供了有價(jià)值的啟示:在教學(xué)中需要平衡正面鼓勵(lì)和錯(cuò)誤糾正,既要強(qiáng)化學(xué)生的正確理解,也要保持他們的探索精神。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.