![]()
Avey AI的研究團隊在2026年的ICLR(國際學習表征大會)上發表了一篇重要論文,介紹了他們開發的全新編碼器架構Avey-B。這項研究的論文編號為arXiv:2602.15814v1,感興趣的讀者可以通過這個編號查找到完整的研究內容。
在人工智能領域,有一類被稱為"編碼器"的模型就像是專業的文本理解專家。這些模型的工作原理很像我們閱讀文章時的思考過程:需要同時理解每個詞的意思,還要把握整篇文章的脈絡。傳統的BERT模型就是這樣的專家,它在過去幾年里幫助我們完成了大量的文本分析工作,從郵件分類到信息檢索都有它的身影。
然而,隨著我們需要處理的文本越來越長,傳統的BERT模型就像一個閱讀速度固定的人,面對長篇大論時會變得力不從心。每當文本長度翻倍,它所需要的時間和內存會急劇增長,這就限制了它在實際應用中的效果。正是在這樣的背景下,Avey AI的研究團隊開發了Avey-B,這是一個能夠更高效處理長文本的新型編碼器。
一、重新設計的文本理解方式
傳統的BERT模型處理文本的方式就像是一個非常細致的編輯,需要同時關注文章中的每一個詞,并且要理解任意兩個詞之間的關系。這種全面的關注雖然很準確,但也意味著隨著文本變長,需要處理的關系數量會呈幾何級數增長。
Avey-B采用了一種全新的策略,更像是一個聰明的閱讀者:它首先將長文本分割成若干個小段落,然后對每個段落,只選擇最相關的其他段落來幫助理解,而不是同時考慮所有段落。這種方法的巧妙之處在于,它保持了理解的準確性,同時大大減少了計算的復雜度。
研究團隊將這個新架構稱為Avey-B,其中"B"代表雙向(bidirectional),表示它能夠像人類閱讀一樣,既考慮前文,也考慮后文。這個模型建立在他們之前開發的Avey架構基礎上,但專門針對編碼器的需求進行了優化。
二、三項核心技術創新
Avey-B的成功源于三項關鍵的技術創新,每一項都解決了傳統方法中的特定問題。
第一項創新被稱為"解耦參數化"。在傳統的方法中,模型學習到的固定權重會與輸入文本的相似度分數混合在一起,這就像是讓一個有固定偏好的評委和一個根據具體情況變化的評委同時打分,有時會產生矛盾的結果。比如說,兩個段落明明很相似,但固定權重可能會給它們很低的分數,這就違背了"相似的內容應該得到更多關注"的直覺。
Avey-B通過將這兩種評分機制分離到不同的層中來解決這個問題。有些層專門負責靜態的線性變換,就像有固定標準的評委;而另一些層則根據內容的相似度動態調整,就像根據具體情況靈活判斷的評委。這樣的設計確保了相似度高的內容總是能得到應有的重視。
第二項創新是"穩定性導向的歸一化"。在動態層中,研究團隊引入了一種新的歸一化方法,將每個位置的相似度分數除以該位置所有分數的總和。這就像是確保每個評委給出的分數總和都是固定的,避免了某些評委給分過高或過低的問題。這種方法不僅提高了訓練的穩定性,還一致性地改善了各種下游任務的性能。
第三項創新是"神經壓縮模塊"。在原始的Avey設計中,每個段落需要與它的前k個相關段落拼接在一起進行處理,這會使輸入大小膨脹k倍。對于雙向處理來說,這種膨脹會嚴重影響效率。Avey-B在選擇相關段落后,使用一個學習到的線性投影將擴展后的內容壓縮回原始大小,就像是用一個智能的摘要工具,保留最重要的信息而去除冗余。
三、全方位的性能評測
為了驗證Avey-B的效果,研究團隊進行了廣泛的實驗評測,涵蓋了四個主要的應用場景:序列分類、標記分類、問答任務和信息檢索。
在序列分類任務中,模型需要判斷整個句子或段落的性質,比如判斷一條評論是正面還是負面。研究團隊在MNLI、QQP和SST-2等標準數據集上測試了Avey-B。結果顯示,Avey-B在這類任務上表現出色,特別是在SST-2任務上達到了最高分。
標記分類任務要求模型識別文本中特定位置的信息,比如在一段文字中找出人名、地名等。這類任務對模型的精細理解能力要求很高。在CoNLL-2003、OntoNotes和UNER等數據集上,Avey-B展現出了顯著的優勢,超越了所有對比的Transformer模型。這個結果特別有意義,因為它表明Avey-B的分段處理策略不僅沒有損失細節信息,反而增強了對局部特征的捕捉能力。
在問答任務中,模型需要根據給定的文本段落回答相關問題。研究團隊在ReCoRD、SQuAD和SQuAD v2等數據集上進行了測試。雖然Avey-B在某些問答任務上的表現不如RoBERTa和ModernBERT,但考慮到它的訓練數據量遠少于這些模型(大約少了11倍),這樣的結果已經相當不錯。
信息檢索任務考驗模型在長文檔中找到相關信息的能力。在MLDR、MS MARCO和Natural Questions等數據集上,Avey-B表現尤為突出,大幅超越了所有對比模型。這個結果很好地驗證了Avey-B設計理念的正確性:通過選擇性地關注最相關的內容段落,它能夠更有效地處理長文檔檢索任務。
四、效率優勢的深度分析
除了準確性,Avey-B在處理效率方面的優勢更加引人注目。研究團隊詳細測試了不同模型在各種序列長度下的表現,從128個詞匯到96,000個詞匯的范圍內進行了全面對比。
在這些測試中,研究團隊使用了吞吐量(每秒處理的詞匯數)和延遲(處理一次前向傳播所需的時間)兩個指標。結果顯示,隨著序列長度的增加,傳統的Transformer模型的處理速度急劇下降,而Avey-B則保持了相對穩定的性能。
具體來說,當序列長度達到96,000個詞匯時,Avey-B的處理速度比ModernBERT快3.38倍,比NeoBERT快11.63倍。更重要的是,通過數學建模分析,研究團隊發現Avey-B的性能下降率(用冪律函數T(N) ∝ N^(-α)中的指數α表示)約為0.44,而ModernBERT和NeoBERT分別為0.77和0.81。這意味著隨著序列長度的增加,Avey-B的性能下降速度大約是傳統模型的一半。
這種效率優勢的根本原因在于Avey-B的神經處理器只需要處理固定大小的分段,而不需要處理整個序列。每個分段的處理成本是固定的,因此總體成本與序列長度成線性關系,而不是傳統模型的二次關系。
五、設計細節的深入探索
為了找到最優的設計方案,研究團隊進行了大量的設計選擇研究和消融實驗。
在靜態層和動態層的排列方式上,研究團隊測試了多種模式:交替排列、單一動態層、兩階段堆疊以及完全靜態或動態的配置。結果顯示,以靜態層開始的交替排列(靜態→動態→靜態→動態...)效果最佳。這種設計讓靜態層提供穩定的表示基礎,然后動態層根據輸入內容進行自適應調整。
在動態層的歸一化方法選擇上,研究團隊比較了按和歸一化、RMS歸一化、softmax和縮放softmax等方法。結果表明,簡單的按和歸一化方法效果最好,它保持了相似度的相對順序,同時確保了數值的穩定性。
在超參數設置方面,研究團隊發現序列長度N、分段大小S和選擇的前k個相關分段數量之間存在一個重要的關系:最佳性能通常出現在S×(k+1)≈N的配置下。這意味著有效的上下文覆蓋應該接近整個訓練序列的長度。
六、嚴格的消融實驗驗證
為了驗證每個設計決策的重要性,研究團隊進行了詳盡的消融實驗,即逐一移除某個組件來觀察性能變化。
當移除行歸一化時,模型性能出現了顯著下降,在各個任務類型上的平均分數分別下降了3.55%、0.87%、7.65%和15.33%。這表明歸一化對于穩定訓練和保持良好性能至關重要。
當回到耦合的參數化設計(即將靜態權重和動態相似度分數混合)時,各任務的性能分別下降了1.43%、2.12%、2.53%和7.40%。這證實了解耦設計的重要性。
神經壓縮模塊的移除導致了適度的性能下降,但同時帶來了4.37倍的效率提升。考慮到這個權衡,研究團隊認為壓縮模塊提供了良好的效率-效果平衡。
當移除殘差連接(即壓縮器輸出和原始分段之間的直接連接)時,所有任務的性能都有所下降,平均降幅為3.38%。這說明保留局部信息的重要性。
最后,完全移除排序器會導致7.46%的嚴重性能下降,這證實了選擇性關注機制是Avey-B成功的關鍵因素。
七、長文本處理能力的極限測試
為了測試Avey-B在極長文本上的表現,研究團隊設計了一個"大海撈針"基準測試。這個測試模擬了在極長文檔中尋找特定信息的場景,文檔長度可達96,000個詞匯。
測試包含兩種類型的任務:單針任務和多針任務。單針任務要求模型在長文檔中找到一個特定的鍵值對,主要測試語義定位能力。多針任務則更加復雜,文檔中包含多個具有相同鍵的鍵值對,查詢要求找到第n個出現的值,這需要模型具備位置推理能力。
測試結果令人印象深刻。在單針任務(NIAH-1)中,Avey-B基礎版本和大型版本在從1,000到96,000詞匯的范圍內都保持了穩定的性能,準確率只下降了3-4個百分點。相比之下,ModernBERT和NeoBERT無法處理超過其訓練窗口長度的文本,分別限制在8,000和4,000詞匯以內。
在更具挑戰性的多針任務(NIAH-2)中,Avey-B同樣表現出色。基礎版本從78.3%(1,000詞匯)下降到71.9%(96,000詞匯),大型版本從78.9%下降到74.5%,展現了良好的長文本推理能力。
這些結果特別有意義,因為Avey-B只在2,048詞匯的窗口上進行了訓練,卻能夠處理比訓練長度長47倍的文本,這證明了其架構設計的優越性。
八、統計穩定性的深入分析
除了性能和效率,研究團隊還分析了不同模型在多次獨立運行中的穩定性。通過在每個基準測試上進行10次獨立的隨機種子實驗,他們計算了結果的標準差,以評估模型對初始化的敏感性。
結果顯示,在基礎規模的模型中,RoBERTa表現出最低的方差,這與其在學術界享有的穩定性聲譽一致。Avey-B排名第二,顯示出良好的訓練穩定性。在大型模型中,這種穩定性差異變得更加明顯。ModernBERT盡管有強勁的中位數性能,但在某些基準測試上表現出較大的不穩定性,特別是在ReCoRD、UNER和Natural Questions任務上。
Avey-B在各種規模下都保持了較低的標準差,通常低于1.06,很少出現病態的不穩定性。研究團隊將這種穩定性歸因于三個核心設計原則:解耦的靜態和動態層防止了固定參數與相似度分數之間的破壞性交互;行歸一化的相似度矩陣穩定了激活幅度并確保了良好的梯度流;神經壓縮過濾了檢索上下文中的無關信號。
九、深層機制的可視化分析
為了更好地理解Avey-B的工作機制,研究團隊對模型學習到的參數矩陣進行了詳細分析。他們比較了耦合和解耦版本中靜態層學習到的交叉嵌入投影矩陣,發現了顯著的差異。
在耦合版本中,由于相似度矩陣是非負的,模型為了避免破壞性的符號翻轉,傾向于學習正權重。這導致了一種"正性偏置",特別是在較深的層中,正權重的比例接近100%。然而,仍然有一些負權重殘留,這正是導致相關性單調性違反的根源。
相反,在解耦版本中,動態層單獨產生混合權重,這些權重通過構造是歸一化和非負的,因此在相似度操作層面保證了單調性。靜態層則獨立學習,不再需要被迫趨向非負性以保持單調性。結果顯示,解耦版本的權重分布接近零均值,正負權重大致平衡,保留了抑制模式的能力。
在權重分布的其他統計特性上,兩種版本也表現出不同的特征。耦合版本的矩陣表現出較小的標準差,趨向于平滑和同質的模式。而解耦版本維持了較大的波動,允許更強的正值和負值,這可能反映了更大的表示靈活性。
十、實際應用的廣闊前景
Avey-B的設計特點使其在多個實際應用場景中具有獨特的優勢。在信息檢索領域,其選擇性注意機制天然適合在大量文檔中快速定位相關內容。企業可以利用這一特性來構建更高效的內部知識庫搜索系統,幫助員工快速找到所需信息。
在文檔分析和處理方面,Avey-B能夠處理長達數萬詞的文檔,而不會像傳統模型那樣遭遇內存限制。這對于法律文檔分析、學術論文處理、技術手冊理解等需要處理長文本的場景具有重要意義。
在對話系統和客服機器人領域,Avey-B的效率優勢可以顯著降低響應時間和計算成本。特別是在需要理解長對話歷史的場景中,其線性擴展特性比傳統的二次擴展模型更具實用價值。
對于內容審核和分類任務,Avey-B在標記分類上的優異表現使其成為自動化內容管理的理想選擇。無論是社交媒體內容審核、新聞文章分類,還是電子郵件的自動標簽,都可以從中受益。
說到底,Avey-B代表了自然語言處理領域的一個重要進展。它不是簡單地修補現有技術的缺陷,而是從根本上重新思考了如何高效處理長文本的問題。通過巧妙的架構設計,它在保持甚至提升準確性的同時,大幅改善了計算效率,為人工智能在更多實際場景中的應用開辟了新的可能性。
這項研究的意義不僅在于提出了一個新的模型,更在于它展示了一種新的思路:在追求更強大的AI能力時,我們不一定需要更多的計算資源,有時候更聰明的設計能夠事半功倍。隨著我們需要處理的信息量越來越大,像Avey-B這樣兼具效率和效果的技術將變得越來越重要。
當然,這項技術還處于研究階段,距離大規模商業應用還需要時間。但它為整個領域指出了一個值得探索的方向,相信會啟發更多類似的創新。對于那些對這項技術感興趣并希望深入了解技術細節的讀者,可以通過論文編號arXiv:2602.15814v1查找完整的研究報告。
Q&A
Q1:Avey-B比傳統BERT模型有什么優勢?
A:Avey-B在處理長文本時具有顯著優勢。當文本長度達到96,000詞時,它的處理速度比ModernBERT快3.38倍,比NeoBERT快11.63倍。同時在準確性方面,它在標記分類和信息檢索任務上超越了所有傳統Transformer模型,而且隨著文本變長,性能下降速度只有傳統模型的一半。
Q2:Avey-B是如何做到既快又準確的?
A:Avey-B采用了三項關鍵創新:首先是解耦參數化,將固定權重和動態相似度分數分離到不同層中,避免沖突;其次是穩定性歸一化,確保相似內容得到應有重視;最后是神經壓縮模塊,在保留重要信息的同時減少計算量。這些設計讓它能選擇性關注最相關的內容段落,而不是同時處理所有信息。
Q3:普通用戶什么時候能使用到Avey-B技術?
A:目前Avey-B還處于研究階段,研究團隊已經公開了完整的實現代碼和預訓練模型。雖然距離大規模商業應用還需要時間,但它的設計思路已經為整個AI領域指出了新方向。未來可能會在文檔分析、信息檢索、對話系統等需要處理長文本的應用中率先看到類似技術的應用。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.