網易首頁 > 網易號 > 正文申請入駐

這一個Tab鍵，我愿意單獨付費：Cursor在線強化學習優化代碼建議

2025-09-15 10:35:28　來源: 機器之心Pro

北京舉報

分享至

機器之心報道

編輯：+0

Cursor Tab 是 Cursor 的核心功能之一，它通過分析開發者的編碼行為，智能預測并推薦后續代碼，開發者僅需按下 Tab 鍵即可采納。

然而，它也面臨著一個 AI 普遍存在的難題：「過度熱情」。有時，它提出的建議不僅毫無用處，甚至會打斷開發者的思路。

問題的關鍵，不只是讓 AI 寫出更優秀的代碼，更是要教會它「察言觀色」：在最恰當的時機提供幫助，在其他時候則保持安靜。

基于此，Cursor 采用在線強化學習技術訓練出一個全新的 Tab 模型。該模型將每一次用戶交互（接受/拒絕建議）都視為一個強化信號，直接用于模型的在線優化。在每天超過 4 億次請求的巨大流量驅動下，模型得以進行高頻度的、基于真實世界反饋的持續學習。

Cursor 已將這個新的 Tab 模型設為默認版本。與舊模型相比，新模型提供的建議數量減少了 21%，但所提供建議的接受率卻提升了 28%。此舉旨在提升用戶的編碼體驗，Cursor 也計劃在未來繼續深化這些方法的研究。

Cursor 的策略獨特且高效：它每天多次向用戶部署新模型（每隔 1.5-2 小時），利用實時數據進行快速訓練和優化。

這與主流做法形成了鮮明對比。多數廠商仍在靜態數據集上進行長周期訓練，依賴人工標注，數月才發布一次新模型。Cursor 的模式則建立了一個超高頻的實時反饋循環，是對傳統模型開發流程的徹底顛覆。

這似乎又一次向我們證明了，誰掌握了數據入口，誰就掌握了 AI 進化的主動權。

該功能在 AI 社區也得到了非常積極的反饋，有用戶表示這是 Cursor 當前「護城河」，并愿意為 Cursor Tab 單獨付費。

還有開發者認為，它能大幅提升了生產力，不像 agent 那樣只有噱頭，而是「比其他任何功能都更能改善工作流程」。

另外，一條被「強化學習之父」Richard Sutton 轉發的評論表示，Cursor 的這個做法意義重大，它首次大規模證明了「實時在線學習」的巨大威力，并且指明了 AI 未來的一個重要發展方向，盡管目前還不夠完美。

Cursor 通過一篇博客介紹了他們如何利用這些數據，通過在線強化學習技術來優化其 Tab 模型。

博客地址：https://cursor.com/cn/blog/tab-rl

「干擾性建議」的挑戰

要實現高接受率，不僅需要提升模型本身的智能水平，更關鍵的是要判斷何時應提供建議，何時應保持靜默。在某些場景下，上下文信息不足以準確判斷用戶的意圖。即便模型具備完美的知識和推理能力，也無法預知用戶的確切操作。在這些情況下，不提供任何建議是更優的選擇。

為提升建議的接受率，一種直接的思路是訓練一個獨立的分類模型來預測建議是否會被采納。據 Parth Thakkar 在 2022 年披露，GitHub Copilot 便采用了此種策略。它通過一個邏輯回歸模型計算「上下文過濾分數」，該模型接收 11 個特征作為輸入，涵蓋了編程語言、前次建議的采納情況、光標前的字符序列等。盡管該模型的確切預測目標未知，但外界普遍猜測其旨在預測建議被用戶接受的概率。當該分數低于 15% 時，系統便會跳過此次建議。

該方案雖然可行，但 Cursor 的團隊希望尋求一種更通用的機制，以便能復用 Tab 模型自身學到的強大代碼表征能力。他們希望從根源上讓 Tab 模型避免生成質量不高的建議，而非僅僅在事后進行過濾。因此，他們最終選擇了策略梯度方法。

策略梯度方法

策略梯度是一種通用的優化框架，其目標是調整「策略」（在此即 Tab 模型），以最大化「獎勵」（Reward）。獎勵是一個被賦予策略所執行的每一個動作的數值。通過策略梯度算法，可以持續更新策略，使其在未來能夠獲得更高的平均獎勵。

該類算法的核心思想是：允許策略進行探索性的隨機嘗試，觀察不同行為所帶來的獎勵高低，然后對獲得高獎勵的行為進行正向強化，對導致低獎勵的行為進行負向強化。

為了運用策略梯度方法優化 Tab，團隊定義了一個精巧的獎勵函數：鼓勵被采納的建議，同時懲罰那些被展示但未被采納的建議。

例如，假設目標是當建議的接受率不低于 25% 時才進行展示。那么，可以為被采納的建議設定 0.75 的獎勵，為被拒絕的建議設定 -0.25 的獎勵，而未展示建議的情況獎勵為 0。如果一個建議的真實接受概率為 p，那么展示該建議的期望獎勵就是。該值僅在 p>0.25 時為正。因此，一個旨在最大化獎勵的策略，將學會在其預估接受率超過 25% 時才給出建議。

在實際應用中，Cursor 使用的獎勵函數更為復雜，還考慮了建議的長度、代碼跳轉以及展示更多建議的可能性等因素。但其核心理念是一致的：并非直接對接受率進行建模，而是學習一個能夠達成特定接受率目標的策略。

可以推斷，模型在其內部表征中自發學習到了對接受概率的評估（或至少是評估其是否超過 25%），而這個過程完全交由優化器自行探索。

同策略（On-Policy）數據的重要性

然而，該方法有一個關鍵前提：用于計算梯度的動作樣本，必須來自于當前正在優化的策略。一旦策略被更新，舊的數據便不再是「同策略（On-Policy）」數據。

為了獲取最新的有效樣本，就必須將新模型部署給用戶并收集其行為數據。這意味著需要一套高效的基礎設施，以快速部署新的模型檢查點，并縮短從用戶產生數據到數據進入下一輪訓練流程的時間。

目前，Cursor 推出一個檢查點并收集所需數據需要 1.5 到 2 小時。盡管這在人工智能行業已屬高效，但仍有進一步優化的空間。

Cursor 這次更新讓你心動了嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.