![]()
圣塔克拉拉大學(xué)、沃爾瑪全球技術(shù)公司等機(jī)構(gòu)的研究團(tuán)隊(duì)于2026年2月18日發(fā)表了一項(xiàng)突破性研究,論文編號(hào)為arXiv:2602.16932v1,展示了如何讓大語(yǔ)言模型像生物育種師一樣,自動(dòng)培育出更強(qiáng)大的信息檢索算法。有興趣深入了解的讀者可以通過(guò)該編號(hào)查詢(xún)完整論文。
當(dāng)你在搜索引擎中輸入關(guān)鍵詞尋找信息時(shí),背后有一套復(fù)雜的算法在決定哪些網(wǎng)頁(yè)最適合你。這些算法就像圖書(shū)管理員,需要從海量信息中挑選出最相關(guān)的內(nèi)容。幾十年來(lái),這些"管理員"的工作方式主要依靠人類(lèi)專(zhuān)家的經(jīng)驗(yàn)和直覺(jué)來(lái)改進(jìn),就好比一代代圖書(shū)管理員根據(jù)經(jīng)驗(yàn)傳授整理圖書(shū)的技巧。
然而,這種依賴(lài)人工經(jīng)驗(yàn)的方式存在明顯局限。正如一個(gè)圖書(shū)管理員再聰明,也很難同時(shí)掌握所有可能的圖書(shū)分類(lèi)方法一樣,人類(lèi)專(zhuān)家很難探索所有可能的算法改進(jìn)方向。研究團(tuán)隊(duì)因此提出了一個(gè)大膽的想法:能否讓AI像生物學(xué)家培育新品種一樣,自動(dòng)培育出更優(yōu)秀的檢索算法?
這項(xiàng)研究的核心成果是一個(gè)名為RankEvolve的系統(tǒng)。這個(gè)系統(tǒng)基于進(jìn)化算法的原理,讓候選算法像生物體一樣進(jìn)行"繁殖"和"進(jìn)化"。研究團(tuán)隊(duì)從兩個(gè)經(jīng)典的檢索算法開(kāi)始,就像從兩個(gè)優(yōu)良品種開(kāi)始育種一樣,然后讓大語(yǔ)言模型充當(dāng)"育種師"的角色,不斷對(duì)這些算法進(jìn)行變異、雜交和篩選。
經(jīng)過(guò)數(shù)百輪的進(jìn)化過(guò)程,RankEvolve成功培育出了性能顯著優(yōu)于原始算法的新品種。更令人驚喜的是,這些自動(dòng)發(fā)現(xiàn)的算法在測(cè)試中表現(xiàn)出了良好的適應(yīng)性,能夠在多個(gè)不同的數(shù)據(jù)集上保持優(yōu)異性能,證明它們確實(shí)掌握了信息檢索的核心規(guī)律,而非僅僅針對(duì)特定情況進(jìn)行優(yōu)化。
一、算法"育種場(chǎng)"的設(shè)計(jì)藍(lán)圖
要理解RankEvolve系統(tǒng)的工作原理,可以把它想象成一個(gè)高度自動(dòng)化的育種農(nóng)場(chǎng)。在傳統(tǒng)農(nóng)業(yè)中,農(nóng)夫會(huì)選擇最優(yōu)秀的種子進(jìn)行雜交,希望下一代能繼承父母的優(yōu)點(diǎn)并產(chǎn)生新的優(yōu)良性狀。RankEvolve的工作方式與此類(lèi)似,只不過(guò)"種子"變成了算法代碼,"育種師"變成了大語(yǔ)言模型。
整個(gè)系統(tǒng)包含四個(gè)核心組件,它們像農(nóng)場(chǎng)中的不同部門(mén)一樣各司其職。首先是"種子庫(kù)",也就是初始的算法程序和系統(tǒng)提示,它們共同定義了進(jìn)化的搜索空間。研究團(tuán)隊(duì)選擇了兩個(gè)經(jīng)典算法作為起始點(diǎn):BM25和帶有狄利克雷平滑的查詢(xún)似然模型。這就像選擇了兩個(gè)各有特色的優(yōu)良品種作為育種的起點(diǎn)。
BM25算法可以比作一個(gè)經(jīng)驗(yàn)豐富的圖書(shū)管理員,它會(huì)根據(jù)詞匯在文檔中出現(xiàn)的頻率和在整個(gè)文檔集合中的稀有程度來(lái)判斷相關(guān)性。而查詢(xún)似然模型則像是一個(gè)統(tǒng)計(jì)學(xué)家,它通過(guò)概率計(jì)算來(lái)評(píng)估文檔與查詢(xún)的匹配程度。這兩個(gè)"品種"各有優(yōu)勢(shì),為后續(xù)的進(jìn)化提供了不同的基因庫(kù)。
第二個(gè)組件是"種群管理系統(tǒng)",負(fù)責(zé)維護(hù)算法的多樣性。這個(gè)系統(tǒng)采用了島嶼式進(jìn)化模型,就像在不同的島嶼上分別培育不同品系的生物一樣。每個(gè)島嶼維護(hù)著自己獨(dú)立的算法群體,偶爾會(huì)有"移民"在島嶼間遷移,帶來(lái)新的基因組合。這種設(shè)計(jì)確保了進(jìn)化過(guò)程不會(huì)陷入局部最優(yōu)解,而是能夠探索更廣闊的可能性空間。
系統(tǒng)的第三個(gè)核心是"變異引擎",由大語(yǔ)言模型充當(dāng)。這個(gè)AI育種師會(huì)分析當(dāng)前表現(xiàn)最好的算法,理解它們的優(yōu)缺點(diǎn),然后提出有針對(duì)性的改進(jìn)方案。與傳統(tǒng)遺傳編程隨機(jī)交換子樹(shù)的方式不同,這個(gè)AI育種師能夠理解代碼的含義,提出更有意義的修改建議。例如,它可能會(huì)識(shí)別出算法缺少對(duì)查詢(xún)覆蓋度的評(píng)估,然后主動(dòng)引入相應(yīng)的機(jī)制。
最后一個(gè)組件是"評(píng)估系統(tǒng)",負(fù)責(zé)測(cè)試每個(gè)算法的實(shí)際性能。這個(gè)系統(tǒng)會(huì)在12個(gè)不同的信息檢索數(shù)據(jù)集上測(cè)試每個(gè)候選算法,計(jì)算其在召回率和準(zhǔn)確性方面的表現(xiàn)。最終的適應(yīng)度分?jǐn)?shù)綜合考慮了這些指標(biāo),優(yōu)先考慮召回率(權(quán)重0.8),同時(shí)兼顧排序質(zhì)量(權(quán)重0.2)。這種權(quán)重設(shè)計(jì)反映了第一階段檢索的特點(diǎn):主要目標(biāo)是盡可能多地找到相關(guān)文檔,為后續(xù)的精細(xì)排序提供候選。
二、AI育種師的"雜交"藝術(shù)
RankEvolve系統(tǒng)中最精妙的部分是大語(yǔ)言模型如何充當(dāng)算法育種師的角色。在每個(gè)進(jìn)化周期中,系統(tǒng)都會(huì)根據(jù)三種不同的策略選擇"父本"算法:探索性采樣(隨機(jī)選擇,保持多樣性)、開(kāi)發(fā)性采樣(選擇精英個(gè)體,追求性能)、以及加權(quán)采樣(根據(jù)性能比例選擇)。這種多樣化的選擇策略確保了既能利用已知的優(yōu)秀特性,又能探索未知的可能性。
當(dāng)選定父本算法后,AI育種師會(huì)收到詳細(xì)的"育種指導(dǎo)書(shū)"。這份指導(dǎo)書(shū)包含了當(dāng)前算法的完整代碼、在各個(gè)數(shù)據(jù)集上的詳細(xì)表現(xiàn)指標(biāo)、以及來(lái)自同一"島嶼"的其他優(yōu)秀算法作為參考。AI育種師就像一個(gè)經(jīng)驗(yàn)豐富的生物學(xué)家,能夠分析這些信息,識(shí)別出算法的優(yōu)勢(shì)和不足,然后提出具體的改進(jìn)方案。
AI育種師提出的修改建議采用搜索-替換的格式,就像基因編輯一樣精確。它可能會(huì)說(shuō):"我注意到當(dāng)前算法在處理長(zhǎng)文檔時(shí)表現(xiàn)不佳,建議將線(xiàn)性長(zhǎng)度歸一化改為對(duì)數(shù)形式,這樣可以減少對(duì)長(zhǎng)文檔的過(guò)度懲罰。"然后它會(huì)提供具體的代碼修改方案,指明需要替換的代碼段和新的實(shí)現(xiàn)方式。
這種方法的優(yōu)勢(shì)在于AI育種師具備了理解代碼語(yǔ)義的能力。傳統(tǒng)的遺傳編程只是機(jī)械地交換代碼片段,就像盲目地將不同動(dòng)物的器官拼接在一起,很可能產(chǎn)生無(wú)法運(yùn)行的"怪物"。而AI育種師能夠理解每段代碼的作用,提出在邏輯上合理、在功能上有意義的修改,大大提高了產(chǎn)生有效后代的概率。
更重要的是,AI育種師還會(huì)從失敗中學(xué)習(xí)。系統(tǒng)會(huì)記錄之前嘗試過(guò)但效果不佳的修改方案,避免重復(fù)犯錯(cuò)。這就像一個(gè)經(jīng)驗(yàn)豐富的育種師會(huì)記住哪些雜交組合不成功,從而在后續(xù)工作中避免類(lèi)似的嘗試。這種"歷史記憶"機(jī)制大大提高了進(jìn)化的效率。
三、算法"新品種"的驚人特性
經(jīng)過(guò)數(shù)百輪進(jìn)化后,RankEvolve培育出了兩個(gè)性能卓越的算法"新品種"。這些新算法雖然源于經(jīng)典的BM25和查詢(xún)似然模型,但在結(jié)構(gòu)和功能上都發(fā)生了顯著變化,展現(xiàn)出了令人驚喜的創(chuàng)新特性。
從BM25進(jìn)化而來(lái)的新算法采用了多通道并行處理架構(gòu),就像一個(gè)擁有多個(gè)專(zhuān)門(mén)感官的生物體。它不再像原始BM25那樣只處理標(biāo)準(zhǔn)的詞匯,而是同時(shí)在四個(gè)不同的"頻道"上工作。基礎(chǔ)頻道處理標(biāo)準(zhǔn)分詞,前綴頻道處理詞匯的前5個(gè)字符(起到粗略詞干化的作用),雙詞頻道處理連續(xù)詞對(duì)的組合,微觀(guān)頻道則處理字符級(jí)的3-gram組合。
這種多頻道設(shè)計(jì)特別巧妙的地方在于微觀(guān)頻道的激活機(jī)制。系統(tǒng)會(huì)根據(jù)查詢(xún)?cè)~匯的平均稀有程度來(lái)決定是否啟用字符級(jí)匹配。當(dāng)查詢(xún)包含很多常見(jiàn)詞匯時(shí),字符級(jí)匹配被關(guān)閉,避免引入噪音;但當(dāng)查詢(xún)包含專(zhuān)業(yè)術(shù)語(yǔ)或罕見(jiàn)詞匯時(shí),字符級(jí)匹配會(huì)被激活,確保即使存在拼寫(xiě)變異也能找到相關(guān)文檔。這就像一個(gè)智能的搜索助手,能夠根據(jù)查詢(xún)的復(fù)雜程度自動(dòng)調(diào)整搜索策略。
更令人印象深刻的是,這個(gè)新算法獨(dú)立發(fā)現(xiàn)了一套復(fù)雜的詞匯權(quán)重系統(tǒng)。它不再像BM25那樣只使用單一的IDF(逆文檔頻率)權(quán)重,而是將三個(gè)不同的IDF函數(shù)相乘,形成了一個(gè)多層過(guò)濾器。這個(gè)系統(tǒng)能夠自動(dòng)識(shí)別和抑制停用詞,同時(shí)保持對(duì)專(zhuān)業(yè)術(shù)語(yǔ)的敏感度。研究團(tuán)隊(duì)發(fā)現(xiàn),算法從未被明確告知什么是停用詞,但它通過(guò)進(jìn)化自發(fā)地學(xué)會(huì)了區(qū)分有意義的詞匯和功能性詞匯。
在文檔長(zhǎng)度處理方面,新算法也展現(xiàn)出了超越BM25的智慧。它放棄了BM25的線(xiàn)性長(zhǎng)度懲罰,改用更溫和的對(duì)數(shù)形式。這種改進(jìn)解決了BM25長(zhǎng)期存在的問(wèn)題:對(duì)長(zhǎng)文檔的過(guò)度懲罰。新的長(zhǎng)度歸一化機(jī)制更符合信息檢索的實(shí)際需求,長(zhǎng)文檔不再僅僅因?yàn)槠徊还降亟禉?quán)。
四、查詢(xún)似然模型的華麗變身
從查詢(xún)似然模型進(jìn)化而來(lái)的新算法同樣令人眼前一亮。它保持了原有的概率理論基礎(chǔ),但在細(xì)節(jié)實(shí)現(xiàn)上進(jìn)行了大膽的創(chuàng)新改進(jìn)。這就像一棟經(jīng)典建筑在保持原有結(jié)構(gòu)的同時(shí),內(nèi)部裝修完全現(xiàn)代化。
新算法最顯著的創(chuàng)新是對(duì)集合語(yǔ)言模型的三階段改進(jìn)。傳統(tǒng)的集合語(yǔ)言模型簡(jiǎn)單地統(tǒng)計(jì)每個(gè)詞在整個(gè)文檔集合中的出現(xiàn)頻率,但新算法將這個(gè)過(guò)程變成了一個(gè)精巧的三步煉制過(guò)程。首先,它將原始概率提升到0.85次冪并重新歸一化,這種"冪律調(diào)整"有效地將概率質(zhì)量從常見(jiàn)詞轉(zhuǎn)移到罕見(jiàn)詞,就像調(diào)色師調(diào)整顏色的飽和度一樣。
接下來(lái),算法將調(diào)整后的模型與文檔頻率模型進(jìn)行混合。文檔頻率模型不關(guān)心詞匯在單個(gè)文檔中出現(xiàn)多少次,只關(guān)心它出現(xiàn)在多少個(gè)不同的文檔中。這種混合策略使算法能夠區(qū)分兩種不同類(lèi)型的詞匯:一種是在少數(shù)文檔中大量出現(xiàn)的"突發(fā)性"詞匯,另一種是在許多文檔中穩(wěn)定出現(xiàn)的"基礎(chǔ)性"詞匯。最后,算法還加入了微量的均勻分布作為"安全墊",確保即使是完全未見(jiàn)過(guò)的詞匯也有基礎(chǔ)的概率估計(jì)。
在詞頻處理方面,新算法引入了自適應(yīng)的飽和指數(shù)機(jī)制。不同于BM25使用固定的飽和參數(shù),新算法為每個(gè)詞匯分配了個(gè)性化的飽和指數(shù)。常見(jiàn)詞匯使用較小的指數(shù)(約0.7),使其快速飽和,避免頻繁出現(xiàn)的常見(jiàn)詞匯主導(dǎo)評(píng)分;而罕見(jiàn)詞匯使用接近1.0的指數(shù),保持對(duì)其頻率變化的敏感度。這種個(gè)性化處理就像為不同類(lèi)型的員工制定不同的考核標(biāo)準(zhǔn),更加精準(zhǔn)和公平。
新算法還引入了"泄漏修正器"機(jī)制,這是對(duì)傳統(tǒng)方法的一個(gè)巧妙突破。傳統(tǒng)實(shí)現(xiàn)會(huì)直接丟棄負(fù)的詞項(xiàng)得分,但新算法將負(fù)得分以12%的強(qiáng)度保留下來(lái)。配合專(zhuān)門(mén)針對(duì)完全缺失詞匯的懲罰機(jī)制,這創(chuàng)造了一個(gè)雙層次的懲罰體系:輕微不匹配受到溫和懲罰,完全不匹配受到更嚴(yán)厲懲罰。這種細(xì)致的區(qū)分大大提高了算法在復(fù)雜查詢(xún)上的表現(xiàn)。
五、跨領(lǐng)域適應(yīng)性的嚴(yán)格考驗(yàn)
為了驗(yàn)證新算法的真實(shí)價(jià)值,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)極其嚴(yán)格的測(cè)試方案。他們將28個(gè)數(shù)據(jù)集分為兩部分:12個(gè)用于訓(xùn)練過(guò)程中的評(píng)估,另外16個(gè)完全保密,直到最終測(cè)試才使用。這就像培育新品種作物時(shí),不僅要在試驗(yàn)田中表現(xiàn)良好,還要能在不同氣候和土壤條件下都保持優(yōu)異性能。
測(cè)試結(jié)果令人振奮。在完全未見(jiàn)過(guò)的16個(gè)數(shù)據(jù)集上,兩個(gè)新算法都顯著超越了它們的"祖先"以及其他經(jīng)典變體。從BM25進(jìn)化而來(lái)的算法在召回率和準(zhǔn)確性方面都取得了顯著提升,特別是在BRIGHT基準(zhǔn)測(cè)試中,召回率從32.11%提升到37.51%,在BEIR基準(zhǔn)測(cè)試中從70.95%提升到72.43%。
更重要的是,統(tǒng)計(jì)顯顯示這些改進(jìn)具有顯著性,不是偶然的波動(dòng)。研究團(tuán)隊(duì)使用了嚴(yán)格的配對(duì)t檢驗(yàn),確認(rèn)新算法的優(yōu)勢(shì)是統(tǒng)計(jì)學(xué)意義上可靠的。這種嚴(yán)格的驗(yàn)證方法確保了結(jié)果的可信度,避免了可能的"幸運(yùn)命中"。
從查詢(xún)似然模型進(jìn)化而來(lái)的算法同樣表現(xiàn)出色。它在所有三個(gè)主要基準(zhǔn)測(cè)試中都超越了原始模型和其他經(jīng)典變體。特別值得注意的是,它不僅在訓(xùn)練過(guò)程中使用的指標(biāo)上表現(xiàn)優(yōu)異,在完全不同的評(píng)估指標(biāo)上也保持了良好性能,證明了其泛化能力。
性能改進(jìn)的模式也很有啟發(fā)性。召回率幾乎單調(diào)遞增,顯示了進(jìn)化過(guò)程的穩(wěn)定性。雖然精確度偶爾會(huì)下降,但這符合優(yōu)化目標(biāo)的權(quán)重設(shè)計(jì):系統(tǒng)被設(shè)定為優(yōu)先追求召回率(權(quán)重0.8)而非精確度(權(quán)重0.2)。當(dāng)算法發(fā)現(xiàn)可以通過(guò)小幅犧牲精確度來(lái)大幅提升召回率的機(jī)會(huì)時(shí),它會(huì)理性地做出這種權(quán)衡。
六、算法復(fù)雜度與效率的權(quán)衡考量
新培育的算法雖然性能卓越,但也帶來(lái)了復(fù)雜度的增加。這就像高性能跑車(chē)雖然速度更快,但結(jié)構(gòu)也更復(fù)雜,需要更多的維護(hù)成本。研究團(tuán)隊(duì)對(duì)此進(jìn)行了坦誠(chéng)的分析。
最優(yōu)化的BM25變體的查詢(xún)延遲約為原版的11倍。這個(gè)數(shù)字看起來(lái)很大,但需要放在具體應(yīng)用場(chǎng)景中理解。對(duì)于需要極高召回率的應(yīng)用場(chǎng)景,比如學(xué)術(shù)文獻(xiàn)檢索或?qū)@阉鳎@種性能提升可能完全值得額外的計(jì)算成本。而對(duì)于需要毫秒級(jí)響應(yīng)的網(wǎng)絡(luò)搜索,可能需要在性能和效率之間找到更好的平衡點(diǎn)。
有趣的是,研究團(tuán)隊(duì)發(fā)現(xiàn)復(fù)雜度的增長(zhǎng)并非線(xiàn)性的。在進(jìn)化的早期階段,算法復(fù)雜度增長(zhǎng)緩慢而性能提升顯著。但在后期,每一點(diǎn)性能提升都需要付出更大的復(fù)雜度代價(jià)。在第177步時(shí),算法已經(jīng)達(dá)到了很好的性能,延遲僅為基準(zhǔn)的3倍;但從第177步到第293步,雖然性能繼續(xù)提升,延遲卻又增加了3.8倍。
這種模式反映了算法優(yōu)化中常見(jiàn)的收益遞減現(xiàn)象。早期的改進(jìn)通常涉及基礎(chǔ)架構(gòu)的優(yōu)化,效果顯著且代價(jià)較小。后期的改進(jìn)則更多地依賴(lài)精細(xì)化的調(diào)整和復(fù)雜的機(jī)制,雖然仍有效果但邊際成本較高。這為實(shí)際應(yīng)用提供了重要指導(dǎo):可以根據(jù)具體需求選擇進(jìn)化過(guò)程中的不同階段作為最終方案。
七、種子設(shè)計(jì)對(duì)進(jìn)化天花板的決定性影響
研究團(tuán)隊(duì)特別關(guān)注了一個(gè)關(guān)鍵問(wèn)題:初始算法的設(shè)計(jì)自由度如何影響最終的進(jìn)化結(jié)果?為了回答這個(gè)問(wèn)題,他們?cè)O(shè)計(jì)了三種不同約束程度的BM25起始版本,就像比較不同品種的作物在相同培育條件下的表現(xiàn)潛力。
"受約束"版本只允許調(diào)整預(yù)定義組件的參數(shù),類(lèi)似于傳統(tǒng)的網(wǎng)格搜索優(yōu)化。"可組合"版本允許重寫(xiě)individual評(píng)分組件但保持整體流程結(jié)構(gòu)不變。"自由形式"版本則只定義了查詢(xún)表示、文檔表示和評(píng)分函數(shù)的接口,其他一切都可以重新設(shè)計(jì)。
實(shí)驗(yàn)結(jié)果清晰地顯示了結(jié)構(gòu)自由度的重要性。受約束版本雖然收斂最快,但改進(jìn)幅度有限,證實(shí)了純參數(shù)調(diào)整的局限性。可組合版本通過(guò)引入新的評(píng)分原語(yǔ)獲得了進(jìn)一步改進(jìn),但固定的流程結(jié)構(gòu)限制了更深層的創(chuàng)新。自由形式版本收斂最慢,但最終獲得了最高的性能,且這種優(yōu)勢(shì)在未見(jiàn)過(guò)的數(shù)據(jù)集上同樣明顯。
更有趣的是,不同結(jié)構(gòu)設(shè)計(jì)的算法展現(xiàn)出了互補(bǔ)的優(yōu)勢(shì)。自由形式版本在BRIGHT召回率、BEIR召回率和TREC DL準(zhǔn)確率上表現(xiàn)最佳,但在某些其他指標(biāo)上反而不如約束更嚴(yán)格的版本。這種現(xiàn)象揭示了一個(gè)重要洞察:不同的結(jié)構(gòu)約束會(huì)將進(jìn)化引導(dǎo)向不同的優(yōu)化方向,產(chǎn)生具有不同特色的算法變體。
這個(gè)發(fā)現(xiàn)具有重要的實(shí)踐意義。在實(shí)際應(yīng)用中,可以同時(shí)從多種不同約束程度的種子開(kāi)始進(jìn)化,然后根據(jù)具體的應(yīng)用需求選擇或組合最適合的變體。這就像農(nóng)業(yè)上會(huì)同時(shí)培育適應(yīng)不同氣候條件的作物品種,而非試圖培育一個(gè)在所有條件下都完美的"超級(jí)品種"。
八、算法"基因"中隱藏的智慧原理
通過(guò)仔細(xì)分析進(jìn)化出的算法,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)令人驚嘆的現(xiàn)象:盡管兩個(gè)算法從完全不同的理論基礎(chǔ)出發(fā)(一個(gè)基于TF-IDF,另一個(gè)基于概率語(yǔ)言模型),但它們?cè)谶M(jìn)化過(guò)程中獨(dú)立地重新發(fā)現(xiàn)了許多相同的核心原理。
這種收斂現(xiàn)象就像生物進(jìn)化中的"趨同進(jìn)化",不同的物種在相似環(huán)境壓力下獨(dú)立演化出相似的特征。在算法進(jìn)化中,兩個(gè)"物種"都獨(dú)立發(fā)現(xiàn)了詞頻飽和、軟停用詞過(guò)濾、顯式協(xié)調(diào)機(jī)制和溫和的長(zhǎng)度歸一化等重要策略。
詞頻飽和機(jī)制的獨(dú)立發(fā)現(xiàn)特別有意思。BM25后代通過(guò)對(duì)數(shù)壓縮實(shí)現(xiàn)了雙層飽和,查詢(xún)似然后代則通過(guò)自適應(yīng)指數(shù)實(shí)現(xiàn)了個(gè)性化飽和。雖然實(shí)現(xiàn)方式不同,但核心思想相同:防止高頻詞匯過(guò)度影響評(píng)分。這種一致性表明,詞頻飽和可能是有效信息檢索算法的必需特征。
軟停用詞過(guò)濾的實(shí)現(xiàn)也展現(xiàn)了進(jìn)化的創(chuàng)造力。BM25后代發(fā)明了三層IDF加權(quán)系統(tǒng),無(wú)需明確定義停用詞列表就能自動(dòng)抑制功能性詞匯。查詢(xún)似然后代則通過(guò)集合語(yǔ)言模型的冪律調(diào)整實(shí)現(xiàn)了類(lèi)似效果。兩種方法都在沒(méi)有外部指導(dǎo)的情況下學(xué)會(huì)了區(qū)分內(nèi)容詞和功能詞,這表明這種區(qū)分能力對(duì)檢索性能至關(guān)重要。
在文檔長(zhǎng)度處理上,兩個(gè)算法也都拋棄了過(guò)于嚴(yán)苛的線(xiàn)性懲罰,改用更溫和的方式。BM25后代采用對(duì)數(shù)形式,查詢(xún)似然后代采用二次形式的長(zhǎng)度先驗(yàn)。這種一致的改進(jìn)方向證實(shí)了學(xué)術(shù)界長(zhǎng)期以來(lái)對(duì)BM25長(zhǎng)度歸一化過(guò)于激進(jìn)的質(zhì)疑。
最令人深思的是協(xié)調(diào)機(jī)制的獨(dú)立出現(xiàn)。BM25后代實(shí)現(xiàn)了顯式的多詞匹配獎(jiǎng)勵(lì),查詢(xún)似然后代引入了軟AND覆蓋獎(jiǎng)勵(lì)。兩種算法都認(rèn)識(shí)到,僅僅累加單詞得分是不夠的,還需要額外獎(jiǎng)勵(lì)同時(shí)匹配多個(gè)查詢(xún)?cè)~的文檔。這種洞察可能是區(qū)分高質(zhì)量和低質(zhì)量檢索算法的關(guān)鍵因素。
九、算法進(jìn)化的深層哲學(xué)思考
RankEvolve項(xiàng)目不僅僅是一個(gè)技術(shù)突破,它還提出了關(guān)于科學(xué)發(fā)現(xiàn)本質(zhì)的深刻問(wèn)題。當(dāng)AI系統(tǒng)能夠獨(dú)立發(fā)現(xiàn)已知的信息檢索原理時(shí),這是偶然還是必然?這些原理是否代表了信息檢索問(wèn)題的本質(zhì)特征?
一種解釋是,這些原理在大語(yǔ)言模型的訓(xùn)練數(shù)據(jù)中出現(xiàn)過(guò),因此模型具備了相關(guān)的先驗(yàn)知識(shí)。但這種解釋難以完全說(shuō)明為什么模型能夠在沒(méi)有明確指導(dǎo)的情況下,將這些分散的知識(shí)片段重新組織成有效的算法。更可能的情況是,這些原理確實(shí)反映了信息檢索問(wèn)題的本質(zhì)約束。
另一個(gè)有趣的觀(guān)察是算法創(chuàng)新的層次性。進(jìn)化過(guò)程中的早期突破通常涉及基礎(chǔ)架構(gòu)的重組,比如從線(xiàn)性組合改為乘性調(diào)制,或從單一通道改為多通道處理。這些架構(gòu)級(jí)別的創(chuàng)新帶來(lái)了顯著的性能提升。后期的改進(jìn)則更多地涉及參數(shù)的精細(xì)調(diào)整和邊緣情況的處理,提升幅度較小但仍有意義。
這種模式與人類(lèi)科學(xué)發(fā)現(xiàn)的歷程非常相似。重大科學(xué)突破往往涉及基礎(chǔ)概念框架的重構(gòu),而后續(xù)的進(jìn)展則是在新框架內(nèi)的漸進(jìn)式改進(jìn)。RankEvolve似乎重現(xiàn)了這種發(fā)現(xiàn)模式,表明算法進(jìn)化可能確實(shí)捕捉了科學(xué)發(fā)現(xiàn)的某些本質(zhì)特征。
更深層的哲學(xué)問(wèn)題是:算法進(jìn)化發(fā)現(xiàn)的創(chuàng)新到底有多"新"?雖然具體的實(shí)現(xiàn)細(xì)節(jié)是新穎的,但核心原理大多已經(jīng)在學(xué)術(shù)文獻(xiàn)中以某種形式出現(xiàn)過(guò)。這表明進(jìn)化過(guò)程的真正價(jià)值可能不在于發(fā)現(xiàn)全新的概念,而在于找到將已知原理有效組合的新方式。這就像音樂(lè)創(chuàng)作中,創(chuàng)新往往不是發(fā)明新的音符,而是找到組合已有音符的新方法。
十、通向智能研究助手的新路徑
RankEvolve項(xiàng)目的成功開(kāi)啟了一個(gè)令人興奮的可能性:利用AI系統(tǒng)自動(dòng)進(jìn)行算法研究。這種方法的潛在應(yīng)用遠(yuǎn)不限于信息檢索領(lǐng)域,幾乎任何涉及算法優(yōu)化的領(lǐng)域都可能從中受益。
在密集檢索領(lǐng)域,現(xiàn)有的向量化表示方法可能通過(guò)類(lèi)似的進(jìn)化過(guò)程得到改進(jìn)。AI系統(tǒng)可以嘗試不同的向量空間變換、相似度計(jì)算方法和索引結(jié)構(gòu),尋找在各種查詢(xún)類(lèi)型上都表現(xiàn)優(yōu)異的組合。在學(xué)習(xí)稀疏表示方面,進(jìn)化系統(tǒng)可以探索新的特征選擇策略和權(quán)重分配機(jī)制,發(fā)現(xiàn)比人工設(shè)計(jì)更有效的稀疏化方法。
甚至在大語(yǔ)言模型重排序領(lǐng)域,進(jìn)化方法也可能發(fā)揮作用。雖然大模型的訓(xùn)練成本很高,但其使用策略和提示工程技術(shù)仍有很大的優(yōu)化空間。AI系統(tǒng)可以嘗試不同的提示模板、上下文構(gòu)建方法和多輪對(duì)話(huà)策略,找到最能發(fā)揮大模型潛力的使用方式。
不過(guò),要將這種方法推廣到其他領(lǐng)域,還需要解決幾個(gè)關(guān)鍵挑戰(zhàn)。首先是評(píng)估成本問(wèn)題。信息檢索算法的測(cè)試相對(duì)簡(jiǎn)單快速,但其他領(lǐng)域的算法評(píng)估可能需要更多時(shí)間和計(jì)算資源。其次是種子設(shè)計(jì)問(wèn)題。不同領(lǐng)域的算法結(jié)構(gòu)差異很大,需要針對(duì)性地設(shè)計(jì)進(jìn)化起點(diǎn)和約束條件。
最重要的是效率約束的整合。當(dāng)前的RankEvolve系統(tǒng)主要關(guān)注效果而非效率,但在實(shí)際應(yīng)用中,計(jì)算成本往往是決定性因素。未來(lái)的系統(tǒng)需要在優(yōu)化目標(biāo)中顯式地包含效率指標(biāo),尋找性能和成本之間的最佳權(quán)衡點(diǎn)。
研究團(tuán)隊(duì)已經(jīng)明確表示,將效率約束作為優(yōu)化目標(biāo)是一個(gè)直接的擴(kuò)展方向。這種多目標(biāo)優(yōu)化可能會(huì)產(chǎn)生一系列不同特色的算法變體:有些專(zhuān)門(mén)針對(duì)低延遲場(chǎng)景優(yōu)化,有些專(zhuān)門(mén)針對(duì)高吞吐量場(chǎng)景設(shè)計(jì),有些則在性能和效率之間取得平衡。
更令人興奮的是,這種方法可能會(huì)改變我們進(jìn)行算法研究的方式。傳統(tǒng)上,算法改進(jìn)主要依靠研究人員的洞察力和經(jīng)驗(yàn),這是一個(gè)相對(duì)緩慢和不可預(yù)測(cè)的過(guò)程。而AI輔助的算法進(jìn)化提供了一種更系統(tǒng)、更全面的探索方式。研究人員可以將更多精力投入到定義問(wèn)題、設(shè)計(jì)評(píng)估框架和解釋結(jié)果上,而將大量的試錯(cuò)工作交給AI系統(tǒng)。
說(shuō)到底,RankEvolve項(xiàng)目展示了AI系統(tǒng)在科學(xué)研究中的巨大潛力。它不僅能夠在給定的框架內(nèi)優(yōu)化算法,還能夠發(fā)現(xiàn)新的組織原理和設(shè)計(jì)模式。這種能力的進(jìn)一步發(fā)展可能會(huì)為各種技術(shù)領(lǐng)域帶來(lái)突破性進(jìn)展,讓我們拭目以待這種"算法育種師"在更多領(lǐng)域中的表現(xiàn)。
隨著這項(xiàng)技術(shù)的成熟,我們可能會(huì)看到一個(gè)新的研究范式:人類(lèi)研究者負(fù)責(zé)提出有意義的問(wèn)題和評(píng)估標(biāo)準(zhǔn),AI系統(tǒng)負(fù)責(zé)探索解決方案空間,雙方協(xié)作產(chǎn)生比任何一方單獨(dú)工作都更優(yōu)秀的研究成果。這種人機(jī)協(xié)作的研究模式可能會(huì)成為未來(lái)科學(xué)發(fā)現(xiàn)的重要途徑,讓我們以前所未有的速度和深度探索知識(shí)的邊界。
Q&A
Q1:RankEvolve系統(tǒng)是怎樣讓AI自動(dòng)改進(jìn)算法的?
A:RankEvolve系統(tǒng)就像一個(gè)智能的算法育種場(chǎng)。它從兩個(gè)經(jīng)典的搜索算法開(kāi)始,讓大語(yǔ)言模型充當(dāng)"育種師",不斷對(duì)算法進(jìn)行變異、雜交和篩選。AI育種師能理解代碼含義,提出有針對(duì)性的改進(jìn)方案,比如發(fā)現(xiàn)算法缺少某種評(píng)估機(jī)制就主動(dòng)添加。經(jīng)過(guò)數(shù)百輪進(jìn)化后,最終培育出性能顯著優(yōu)于原版的新算法。
Q2:進(jìn)化出的新算法比原來(lái)的好在哪里?
A:新算法在多個(gè)方面都有顯著改進(jìn)。從BM25進(jìn)化的新算法采用了多通道并行處理,能同時(shí)處理標(biāo)準(zhǔn)詞匯、詞匯前綴、詞對(duì)組合和字符片段,還能根據(jù)查詢(xún)復(fù)雜程度自動(dòng)調(diào)整策略。從查詢(xún)似然模型進(jìn)化的算法則優(yōu)化了概率計(jì)算方式,引入了個(gè)性化的詞頻處理和雙層次懲罰機(jī)制。兩個(gè)新算法在16個(gè)未見(jiàn)過(guò)的測(cè)試數(shù)據(jù)集上都顯著超越了原版。
Q3:這種算法進(jìn)化方法能用到其他領(lǐng)域嗎?
A:這種方法確實(shí)可以推廣到很多其他領(lǐng)域。理論上任何需要算法優(yōu)化的地方都可能受益,比如圖像識(shí)別、機(jī)器翻譯、推薦系統(tǒng)等。不過(guò)需要解決一些挑戰(zhàn),包括不同領(lǐng)域的評(píng)估成本可能更高,需要針對(duì)性設(shè)計(jì)進(jìn)化起點(diǎn),還要在優(yōu)化目標(biāo)中加入效率考慮。研究團(tuán)隊(duì)認(rèn)為這種人機(jī)協(xié)作的研究模式可能成為未來(lái)科學(xué)發(fā)現(xiàn)的重要途徑。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.