網易首頁 > 網易號 > 正文申請入駐

北大牽頭：解決大語言模型對話卡頓問題的"雙車道方案"

2026-02-27 23:01:12　來源: 至頂AI實驗室

北京舉報

分享至

這項由北京大學計算機科學學院牽頭，聯合清華大學和DeepSeek-AI公司共同完成的研究，發表于2026年2月的arXiv預印本，論文編號為arXiv:2602.21548v1。有興趣深入了解的讀者可以通過這個編號查詢完整論文。

當我們和聊天機器人進行對話時，特別是那種需要多輪交互的復雜任務，你有沒有發現它有時會卡頓很久才給出回應？這就像一個健談的朋友突然變得吞吞吐吐，讓人很不舒服。這個問題背后隱藏著一個技術難題，而北京大學的研究團隊找到了一個巧妙的解決方案。

現在的AI聊天機器人已經不再是簡單的一問一答工具，它們更像是能夠處理復雜任務的智能助手。比如，你讓它幫你寫代碼、分析數據或者協助完成項目時，它需要記住之前所有的對話內容，還要能夠調用各種工具來完成任務。這種多輪對話的模式讓AI變得更加智能，但也帶來了一個嚴重的技術瓶頸：每次對話時，AI都需要重新加載之前的所有記憶內容，這就像每次見面都要重新自我介紹一樣低效。

在技術層面，這些"記憶內容"被稱為KV緩存，可以把它理解為AI的"筆記本"，里面記錄著之前對話的所有關鍵信息。隨著對話輪次增加，這個筆記本變得越來越厚，每次翻閱都需要更長時間。目前的技術架構就像一條單車道高速公路，所有的數據加載都必須走同一條路，當交通量增大時自然就會擁堵。

這個問題在實際應用中表現得尤為突出。研究團隊收集的數據顯示，在典型的智能編程助手場景中，平均每個對話包含157輪交互，平均上下文長度達到32700個詞匯，但每輪新增內容只有429個詞匯。這意味著每次處理時，有98.7%的內容都是需要從存儲中重新加載的歷史信息，只有1.3%是真正的新內容。就好比你每次和朋友聊天時，都要把之前所有聊天記錄重新讀一遍，才能繼續今天的話題。

一、現有技術的困境：單車道擁堵問題

為了理解這個問題的嚴重性，我們可以把現在的AI推理系統想象成一個大型餐廳的運營模式。這個餐廳采用了所謂的"預制菜+現做菜"的模式：有些廚師專門負責準備食材和預制菜（這叫預填充引擎），有些廚師專門負責最后的烹飪和出菜（這叫解碼引擎）。這種分工本來是為了提高效率，讓不同類型的工作可以并行進行。

在這個餐廳里，預制菜廚師需要從倉庫（存儲系統）獲取大量食材來準備菜品。但是，整個餐廳只有一條從倉庫到廚房的通道（存儲網絡帶寬），所有的食材運輸都必須走這條路。當業務繁忙時，預制菜廚師需要的食材量急劇增加，這條通道很快就被堵得水泄不通。與此同時，負責最后烹飪的廚師雖然工作相對輕松，但他們身邊也有通往倉庫的通道，這些通道卻大部分時間都閑置著。

這就是目前AI推理系統面臨的核心問題。在處理多輪對話任務時，預填充引擎需要從存儲中加載大量的歷史對話記錄，這些數據加載完全依賴單一的存儲網絡連接。而解碼引擎雖然也配備了同樣的網絡設備，但在傳統架構下，這些設備基本處于閑置狀態。這種資源浪費導致了嚴重的性能瓶頸。

研究團隊通過深入分析發現，這個問題變得越來越嚴重的原因有三個。首先，智能對話任務的特點決定了緩存命中率極高，通常達到95%以上，這意味著絕大部分工作都是數據加載而非計算。其次，硬件發展趨勢并不友好：近年來GPU的計算能力增長了28.8倍，但網絡帶寬只增長了2倍，存儲容量增長了2.4倍，這種不平衡的發展使得I/O成為越來越突出的瓶頸。最后，現有架構設計導致存儲網絡帶寬利用極不均衡，預填充側長期過載，而解碼側大量閑置。

這種現狀就像城市交通規劃中的常見問題：雖然總的道路容量足夠，但由于設計不合理，導致某些路段長期擁堵，而其他路段卻車流稀少。簡單地增加預填充引擎的帶寬配置成本高昂，而且在通用集群中往往不現實。因此，如何充分利用所有引擎的I/O帶寬，而不是讓預填充引擎獨自承擔重負，成為了亟待解決的關鍵問題。

二、雙車道解決方案：DualPath系統架構

面對這個困境，研究團隊提出了一個名為DualPath的創新解決方案。這個方案的核心思想非常直觀：既然解碼引擎的存儲網絡大部分時間都閑置著，為什么不讓它們也參與到數據加載工作中來？就像在擁堵的單車道高速公路旁邊新開一條輔助車道，讓交通壓力得到緩解。

DualPath系統的工作原理可以用一個快遞配送的比喻來解釋。傳統模式下，所有快遞包裹都必須直接從倉庫送到主處理中心（預填充引擎），就像所有包裹都要走同一條路線。而DualPath系統引入了一個新的配送策略：部分包裹可以先送到就近的分揀點（解碼引擎），然后通過高速內部運輸網絡（RDMA計算網絡）快速轉送到主處理中心。

這種雙路徑設計的巧妙之處在于充分利用了現代AI數據中心的網絡架構特點。在這些數據中心里，計算網絡的帶寬通常遠大于存儲網絡的帶寬。每個節點通常配備8個400Gbps的計算網絡連接，但只有1個400Gbps的存儲網絡連接。傳統架構下，只有存儲網絡被用于數據加載，而大量的計算網絡帶寬被浪費了。DualPath通過讓部分數據先加載到解碼引擎，再通過高速計算網絡傳輸到預填充引擎，實現了對網絡資源的充分利用。

具體的工作流程是這樣的：當系統需要處理一個新的對話請求時，調度器會根據當前的負載情況動態決定數據加載路徑。如果預填充引擎的存儲網絡比較空閑，就采用傳統的直接加載方式；如果預填充側負載較重，就讓部分數據通過解碼引擎的存儲網絡加載，然后通過計算網絡快速傳輸過來。這種動態調度確保了整個系統的負載均衡，避免了單點瓶頸。

為了實現這種雙路徑架構，研究團隊還需要解決幾個技術挑戰。首先是數據傳輸的精細化管理。由于采用了逐層處理的方式來突破顯存限制，數據被分解成大量的小塊，需要在存儲、主機內存和GPU顯存之間頻繁傳輸。DualPath采用了一種巧妙的設計：將這些小塊數據的傳輸和計算過程重疊進行，就像流水線作業一樣，最大化系統的整體效率。

其次是流量隔離的問題。新增的數據傳輸路徑可能會干擾模型推理過程中的關鍵通信，就像修路時可能會影響正常交通一樣。研究團隊采用了一種稱為"計算網絡中心化"的流量管理策略，通過虛擬通道技術將不同類型的流量嚴格分離。所有的模型推理通信都被分配到高優先級通道，享有99%的帶寬保障，而數據加載流量則使用低優先級通道，利用剩余的帶寬資源。這樣既不會影響推理性能，又能充分利用網絡資源。

三、智能調度算法：動態平衡的藝術

僅僅有雙路徑架構還不夠，關鍵在于如何智能地在兩條路徑之間分配任務。這就像交通管制中心需要根據實時路況來引導車流選擇最優路線一樣。DualPath系統配備了一套復雜的調度算法，能夠實時監控系統狀態，并做出最優的路徑選擇決策。

這個調度算法的工作方式可以想象成一個經驗豐富的餐廳經理。他需要同時關注多個指標：各個廚師的工作負荷、食材庫存情況、顧客等待時間，以及廚房設備的使用狀況。基于這些信息，他動態地調整任務分配，確保整個餐廳運營的平衡和高效。

在技術層面，調度算法采用了層次化的設計。第一層是引擎間調度，負責決定每個請求應該分配給哪個預填充引擎和解碼引擎對，以及選擇哪種數據加載路徑。算法會綜合考慮引擎的當前負載、所在節點的存儲讀取隊列長度等因素。如果某個節點的存儲網絡較為空閑，就優先使用直接加載路徑；如果預填充側普遍繁忙，就更多地采用通過解碼引擎中轉的路徑。

第二層是引擎內調度，主要針對預填充引擎的批處理優化。由于AI推理中采用了數據并行的方式，多個GPU需要在每個注意力計算階段進行同步。如果各個GPU的工作負載不均衡，就會出現"木桶效應"，快的GPU需要等待慢的GPU完成。因此，調度算法會預估每個請求的計算時間，通過精細的批次組合來最小化這種等待時間。

這種調度策略的巧妙之處在于它能夠同時平衡多個維度的資源利用：GPU計算資源、存儲網絡帶寬、計算網絡帶寬，以及主機內存。傳統系統往往只關注單一資源的優化，而DualPath通過全局視角的資源協調，實現了系統整體性能的最大化。

調度算法還具備自適應能力。它會持續監控系統的運行狀態，并根據工作負載的變化動態調整調度策略。比如，在系統啟動初期，預填充引擎的負載較重，算法會更多地使用雙路徑加載；隨著時間推移，當更多請求進入解碼階段時，預填充壓力減輕，算法會相應調整路徑選擇的比例。這種自適應機制確保了系統在不同負載模式下都能保持最優性能。

四、突破性能測試：顯著的效果驗證

為了驗證DualPath系統的實際效果，研究團隊進行了大規模的性能測試。測試環境采用了工業級的GPU集群，每個節點配備8個NVIDIA Hopper GPU，通過InfiniBand網絡互聯，存儲系統采用分布式設計。測試數據來源于真實的智能編程助手場景，包含了500個不同長度的對話軌跡，最長的對話包含157輪交互。

測試結果令人印象深刻。在離線批處理場景中，DualPath相比傳統方案實現了高達1.87倍的性能提升。這相當于原來需要3個小時完成的任務，現在只需要1個半小時就能搞定。更重要的是，這種性能提升是在不增加任何硬件成本的前提下實現的，純粹通過更智能的資源利用策略獲得。

在在線服務場景中，性能提升同樣顯著。研究團隊測試了系統在不同用戶訪問頻率下的表現，發現DualPath能夠支持1.96倍的并發用戶數，同時保持相同的響應質量。這意味著原來只能同時服務100個用戶的系統，現在可以同時為196個用戶提供流暢的對話體驗。

特別值得注意的是，DualPath的性能提升在長對話場景中表現得更加突出。當對話長度從32K增加到64K時，傳統系統的性能急劇下降，而DualPath系統依然能夠保持穩定的高性能。這正好驗證了該方案針對多輪對話場景的設計目標。

為了證明性能提升的根本原因，研究團隊還進行了詳細的性能分析。結果顯示，DualPath成功地將存儲網絡的利用率從嚴重不均衡狀態改善為接近均勻分布。原來只有預填充引擎的存儲網絡接近100%利用率，而解碼引擎的存儲網絡基本閑置；改進后，所有節點的存儲網絡利用率都維持在合理水平，消除了系統瓶頸。

研究團隊還進行了大規模的擴展性測試，使用了多達1152個GPU來驗證系統在產業級部署中的表現。結果表明，從小規模擴展到大規模時，系統保持了近乎線性的性能擴展，這證明了DualPath架構的良好可擴展性。

五、技術創新的深層意義

DualPath系統的成功不僅僅是一個工程優化的勝利，更代表了AI系統設計思路的重要轉變。傳統的系統設計往往采用"功能導向"的方式，不同組件負責不同功能，彼此相對獨立。而DualPath體現的是"資源導向"的設計理念，即根據資源的實際利用情況來動態調整系統行為。

這種設計理念的轉變具有重要的啟發意義。在AI系統日趨復雜的今天，單純增加硬件資源往往不是最經濟的解決方案。通過更智能的資源調度和利用策略，可以在現有硬件基礎上挖掘出更大的性能潛力。這對于降低AI服務的成本，促進AI技術的普及具有重要意義。

從技術發展的角度看，DualPath所采用的動態負載均衡策略也為其他AI系統優化提供了參考。現在的AI訓練和推理系統中存在許多類似的資源利用不均衡問題，都可能通過類似的思路得到改善。比如，在模型訓練中的數據加載、梯度同步等環節，都存在優化空間。

此外，DualPath系統還展示了現代AI基礎設施設計的一個重要趨勢：軟硬件協同優化。該系統充分利用了現代數據中心網絡架構的特點，通過軟件層面的智能調度來最大化硬件資源的利用效率。這種協同設計的方法將成為未來AI系統發展的重要方向。

值得注意的是，這項研究還揭示了AI應用模式變化對系統設計的深遠影響。隨著AI從簡單的問答工具發展為能夠處理復雜任務的智能助手，系統的工作負載模式發生了根本性變化。傳統的系統設計假設可能不再適用，需要重新審視和優化。DualPath正是在這種背景下產生的創新解決方案。

這項研究的成果已經在實際生產環境中得到驗證，顯示出良好的實用性和穩定性。研究團隊表示，相關技術將逐步開源，為整個AI社區提供參考和借鑒。這種開放的研究態度有助于推動整個行業的技術進步。

說到底，DualPath系統解決的不僅僅是一個技術問題，更是AI服務質量和成本效益的實際問題。在AI技術日益普及的今天，如何讓更多人能夠享受到流暢、高效的AI服務，是一個具有重要社會意義的課題。這項研究為這個目標的實現提供了有價值的技術支撐。

隨著多輪對話AI應用的不斷增長，類似的系統優化將變得越來越重要。DualPath所展示的創新思路和技術方案，為構建下一代高效AI服務系統奠定了重要基礎。對于普通用戶來說，這意味著未來的AI助手將變得更加響應迅速，能夠更好地理解和處理復雜的多輪對話任務，為我們的工作和生活帶來更大的便利。

Q&A

Q1：DualPath系統的雙車道是什么意思？

A：DualPath的"雙車道"是指兩種不同的數據加載路徑。傳統方式是所有數據都直接從存儲加載到預填充引擎，就像單車道高速公路。DualPath新增了一條路徑，讓數據先加載到解碼引擎，再通過高速計算網絡傳輸到預填充引擎，就像增加了一條輔助車道來緩解交通擁堵。

Q2：為什么AI對話會出現卡頓問題？

A：主要原因是AI需要重復加載大量歷史對話記錄。在多輪對話中，AI要記住之前所有內容才能繼續對話，這些"記憶"數據量很大。現有系統就像只有一條路運輸這些數據，當對話輪次增多時就會擁堵，導致響應變慢。研究顯示在典型場景中，98.7%的內容都是需要重新加載的歷史信息。

Q3：DualPath系統能帶來多大的性能提升？

A：測試結果顯示，DualPath在離線處理中能實現最高1.87倍的性能提升，在線服務中平均能支持1.96倍的并發用戶數。這意味著原來需要3小時的任務現在1.5小時就能完成，原來只能服務100個用戶的系統現在可以同時為196個用戶提供服務，而且不需要增加任何硬件成本。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.