網易首頁 > 網易號 > 正文申請入駐

3年、1萬人，快手技術團隊首次系統披露AI研發范式升級歷程

2026-02-09 13:41:10　來源: InfoQ

北京舉報

分享至

作者｜快手技術團隊

審校 | 陳姚戈

編者按

以 ChatGPT 問世的 2022 年為起點，大模型技術進入公眾視野已經超過三年。人們普遍見證了 AI 作為新型生產工具對生產力的重塑，但對科技企業而言，這遠不止是多了新技術或新產品那么簡單。

作為前沿技術的掌握者與實踐者，科技公司必須率先完成自身的轉型：以極快的速度，不惜試錯和陣痛，找到大規模、穩定、高效使用 AI 的組織路徑。過去十年，“數智化”浪潮主要聚焦于傳統企業如何借助外部工具實現數字化；而如今，AI 正在倒逼科技公司自身成為變革對象。它們必須在人才結構、工具體系、協作流程乃至組織文化上同步革新，否則將難以在 AI 時代維持競爭力。

正是在此背景下，快手首次系統性披露其自 2023 年以來的 AI 研發范式升級歷程。

今天，快手發布了名為《快手萬人組織 AI 研發范式躍遷之路：從平臺化、數字化、精益化到智能化》的 1.6 萬字長文。文章由快手研發效能委員會審稿、經內部深度復盤整理，罕見地呈現了一家超大型科技企業在 AI 時代推進組織級提效的完整圖景。

你會在這篇文章中看到快手研發范式的三階段演進路徑，以及快手技術團隊對 AI 賦能組織提效的思考：

三階段演進路徑：
- 平臺化、數字化、精益化（2023-2024 年）：
- 建設一站式研發平臺，并標準化需求和工程流程，工具滲透率>95%，流程自動化>94%
- 通過建立效能模型，識別交付瓶頸，提升需求交付效率，人均需求吞吐量提升 41.57%
- 智能化 1.0（2024 年 6 月 -2025 年 6 月）：聚焦用 AI 提升個人開發效率
- 建設并推廣 AI 編碼 / 測試 /CR 等能力，AI 代碼生成率超過 30%
- 但發現矛盾——個人主觀編碼效率提升顯著，但組織需求交付效率卻基本不變

智能化 2.0（2025 年 7 月以后）：聚焦用 AI 提升組織整體效能

- 找到了 AI 研發范式升級路線：L1 AI 輔助（Copilot）→ L2 AI 協同（Agent）→ L3 AI 自主（Agentic）
- 探索出了支撐路線達成的系統性實踐：AI x 效能實踐、AI x 研發平臺、AI x 效能度量
關鍵洞察與經驗：

AI 研發提效陷阱：用 AI 開發工具 ≠ 個人提效 ≠ 組織提效
本質問題：如何將個人提效傳導到組織提效

在全球范圍內，如此系統、坦誠且具備工程細節的 AI 提效實踐總結仍非常稀缺。對于所有正在探索 AI 落地路徑的企業而言，這份來自一線的復盤值得細讀。

這也預示著一個新的節點正在到來。當像快手這樣的頭部公司開始對外輸出其 AI 落地的方法論與效能成果，整個行業將面臨一種隱形的壓力——組織能否高效駕馭 AI，將成為其在 AI 時代競爭力的重要衡量方式。

可以預見，2026 年將成為一批先行者集中展示階段性成果的窗口期。這些成果首先會以研發效率、工程體系和組織方法論的形式呈現；再過幾年，更會傳導到公司的財務表現與人才吸引力上。

到那時，所有公司都將不得不回答同一個問題： AI 時代，我們如何重構自己？

快手報告標題：《

快手萬人組織 AI 研發范式躍遷之路：從平臺化、數字化、精益化到智能化

AI 研發提效陷阱

用 AI 開發工具 ≠ 個人提效 ≠ 組織提效

早在 2024 年，快手就建設了 AI 編程工具 Kwaipilot，并發布給公司內 10000+ 研發人員使用。經過持續的深度優化和推廣，快手整體的 AI 代碼生成率，在嚴格度量口徑下（AI 生成并入庫的代碼行 / 新增代碼行）從 1% 達到了 30%+，甚至部分業務線達到了 40%+。同時，在非編碼環節，也衍生出了很多 AI 提效工具，比如智能 CR（CodeReview）、智能測試用例生成、智能單元測試等等，但經過大量的調研和數據分析，我們發現了這個不等式：

“用 AI 開發工具 ≠ 個人提效 ≠ 組織提效”

如果以企業的研發效能提升為目標，我們發現：

對研發工程師而言：深度使用 AI 開發工具，代碼生成率很高，個人主觀體感上編碼效率提升了 20-40%，但并不代表真正的“個人提效”，因為在現實中，大部分工程師并沒有接納更多的需求，個人需求的交付數沒有顯著提升。
對大型組織而言：我們發現部分 AI 用的好的工程師，確實可以更快更多的完成開發任務，但組織整體的需求吞吐量沒有明顯提升，需求交付周期也沒有明顯縮短。

從《2025 年 DORA 報告：人工智能輔助軟件開發現狀調查報告》中能看到，這也是業界普遍存在的問題。如報告中所述（如下圖所示），在對 AI 提效的結果的預估上，各企業普遍對個人效能的提升有信心，而對團隊效能的提升預估非常小。

在快手，我們發現僅推廣研發各階段的 AI 提效工具，已經偏離了企業研發效能提升的核心目標，最終必然會導致 2 個問題：

投入很大，但企業整體的研發效率提升不明顯：雖然通過調研很容易能收到大量的個人效率提升反饋，但個人提效無法傳導到組織提效。
效能平臺開始割裂：傳統 DevOps 平臺仍承擔研發主流程，每天被高頻的使用，卻無法演進到下一代 AI 研發平臺（頂多擴展一些單點的 AI 功能）。新生的 AI 編程工具，只取代了傳統 IDE，又無法與老平臺協同演進。

為了解決上述 2 個問題，我們從 2025 年開始進行了更激進的探索和變革，我們稱之為“AI 研發范式升級”，最終，通過一系列的實踐，找到了一條能借助 AI 能力平滑通往研發智能化的路徑。

正逢 2025 年年末，我們把鏡頭拉遠，將時間回溯到 3 年前，對快手研發效能的演進做一個系統性總結，有踩過的坑，也有做出的突破，希望為更多企業提供經驗和參考。

總覽：快手研發效能演進路線

快手有 10000+ 研發、8+ 業務線，研發效能的演進可以分為 3 個大階段，如上圖所示：

階段 1：平臺化、數字化、精益化（2023-2024 年）：通過建設三端一站式研發平臺、需求流 & 工程流標準化，解決了研發交付流程散亂，既無標準也無數據的問題。再通過建立效能模型，識別交付瓶頸，提升需求交付效率。
階段 2：智能化 1.0（2024 年 6 月 -2025 年 6 月）：在研發全流程中開始建設 AI 能力，包括 AI 編碼、AI 單元測試、AI CR、AI 手工用例生成、AI OnCall 等等，并進行全員推廣。經過 1 年多的實踐，基本上完成了全員普及，在主觀調研中，開發人員主觀體感上效率提升 20-40%，在客觀數據上，AI 代碼生成率也在持續增長。但同時也發現了矛盾點：需求交付效率基本不變，即個人效率提升未能有效傳導到組織效率提升。
階段 3：智能化 2.0（2025 年 7 月 +）：從“推廣 AI 工具，讓開發者使用”回歸到了更本質的元問題：如何用 AI 提升需求端到端交付效率？經過半年多的探索，終于找到了新的路徑，并得到了充分的數據驗證。我們稱這套解決方案為“AI 研發范式”，主要解決了 3 個問題：

AI x 效能實踐：如何用 AI 提升工程師的生產力，并將個人提效傳導到組織提效。

AI x 研發平臺：支撐需求交付全流程（從分析到編碼再到發布）的研發工具鏈，如何整體演進到智能化？即下一代的智能研發平臺，應該是什么樣的？而不僅僅是只推廣 AI 編程工具或在原有工具鏈上增加一些散點的 AI 提效功能。

AI x 效能度量：如何在效能度量指標的基礎上，構建 AI 提效的指標體系，能清晰的量化過程和結果，為組織級的 AI 研發范式升級提供有效指引。

階段 1：平臺化、數字化、精益化
（2023-2024 年）

這個階段的解決方案，業界相關的分享已經非常多了，但從實際情況看，在千人規模的技術團隊中，能做好、做深、做透的實踐非常稀有。

因此，我們直接分享 1 個具體的案例，以便能更好的看清快手的研發效能從基礎建設到效能提升的全過程，這也是我們之所以能更快躍遷到 AI 研發范式的重要基石。案例來源是快手最核心的技術團隊之一——主站技術部，是快手 APP 的研發團隊，開發人員規模千人以上。

背景：了解快手的研發效能基建

首先，主站技術部的實踐依托一套公司級的研發效能基建，由橫向團隊「研發效能中心」提供，如下圖所示，這是在 2023 年快手當時的研效基建，主要分為：

效能平臺：項目管理平臺（Team）、三端一站式研發平臺（KDev（服務端）、KFC（前端）、Keep（客戶端））、瑯琊閣（效能度量）、質量平臺（KTest 等）

效能實施：效能 BP 專家（Business Partner），負責深入各業務線，提供專業支持。

了解快手的研效基建后，下面開始重點介紹主站技術部的實踐過程。

Step1：依托工具推廣，實現流程標準化

解決的問題

需求流和工程流均不標準，開發人員的工作分散在各處，日常開發體驗差、學習成本高，又無法實施有效的質量防護措施，還不能沉淀準確的研發過程數據持續度量與改進。

達成的效果

通過推廣三端一站式研發平臺，定義需求、研發的標準流程，將研發全流程標準化。核心度量指標與結果如下：

實踐過程

主要難點

用一套產品設計盡量滿足多樣化的研發場景：工具一邊建設一邊落地，且需兼容之前散亂各種不同的研發模式和習慣。
- 服務端（KDev 平臺）：需要支持一些特殊的研發模式（比如 Master 模式、窗口模式）。
- 客戶端（Keep 平臺）：移動端研發場景多樣化，包括 APP、動態化、 SDK。
- 前端（KFC 平臺）：前端應用類型多（Web、Node、低碼、KRN（動態化）、小程序），研發流程和習慣散亂。
- 研發流程規范差異大：不同團隊間，不同的技術棧的研發流程上存在一定差異，包括研發流程配置、流程各階段信息字段、單點環節所需的工具能力不同等。

用戶遷移成本大：遷移過程中，需持續關注和解決用戶問題，包括用戶體驗變化、用戶學習成本、用戶情緒。
落地時間緊迫：一般互聯網大廠類似的工作基本會持續 6 個月以上，快手主站只用了 1 個多月。

實施要點

精準的解決方案設計：
- 服務端（KDev 平臺）：精準的打造了 4 套標準研發模式，適配了主站實際研發情況。
- 客戶端（Keep 平臺）：一套平臺底層能力，支撐 3 種移動研發場景；通過可配置與定制化能力，滿足不同團隊流程規范與管理訴求（自動翻轉配置、流程與質量卡點配置、團隊定制化模板）。
- 前端（KFC 平臺）：支持 80% 以上前端應用類型，并通過 8 個流程模板、適配 5 個內部自建的插件，兼顧了前端差異化研發流程和用戶習慣。
以用戶滿意為導向：提供完整的遷移配套服務，降低用戶遷移成本。主要包括：
- 產品質量專項：用戶 BUG 日結。
- 用戶體驗專項：持續深度用戶訪談，識別體驗問題，并優化。5 周內，交付了 73 個功能 & 體驗需求。
- 用戶培訓與激勵：通過 12 次培訓，50+ 線下訪談，7x24 小時 OnCall、200+ 人次的用戶激勵，提升用戶對產品的接受度。

數據驅動團隊級推廣：每周度量進度，驅動各部門接口人推廣。

經驗總結

可能大家會有疑惑，為什么三端分別是 3 個平臺，而不是一套平臺。因為從實際情況看，服務端、前端、客戶端的底層模式、流程都有比較大的差異，強行整合，不僅對產品用戶收益不大，反而犧牲了要兼容不同端的流程、習慣差異化的靈活性，給標準化的推進增加難度。因此，我們在用戶層面上，還是三套平臺，分別解決各自領域的問題，但在底層的基礎能力用的是一套，比如流水線、權限等。

Step2：建設效能度量體系

主站的研發效能早在 2022 年就開始啟動了，當時在探索北極星指標階段，缺少度量體系，更多是根據一線開發者的開發痛點反饋，進行偏工具流程等的優化，沒有核心指標的牽引，項目都無法推進，更談不上論證給業務帶來的價值。在 2023 年 3 月再次重啟效能項目時，北極星指標初步定義為 “有效需求吞吐量”，但是當時需求有效性的衡量難度太大，內部無法達成共識，項目推進困難，而且也無法看清業務堆積和開發人效情況。

隨著流程標準化的落地，研發數據的置信度大幅提升，為效能度量提供了土壤。因此，我們定義了以“人均交付產品需求數” 為北極星目標來看清業務開發交付能力，同時觀測需求顆粒度（避免單一指標跑偏：度量什么得到什么，種瓜得瓜種豆得豆）來保障交付提升的良性發展，逐步建立了一套更全面的指標體系（多指標互相佐證約束，hack 成本極高）來體現業務交付產能和交付效率，以及組織和個人效率情況。

快手的效能度量體系如下圖所示：

注明：SP：Story Point，快手用于度量需求工作量的單位。

借助這套全面完備的指標體系，我們不僅避免了依賴單一指標可能導致的偏差，還有效防范了效能數據被 hack 的風險，確保了效能數據的準確性和可靠性。

Step3：效能問題分析與改進

有效能度量體系，首先我們可以為任何一個業務線做系統性的體檢，如下圖所示，依托數據和經驗，可以逐一拆解出核心的優化專項，并以效能項目的形式實施。

其次，在研發流程和管理上，也能洞察出更多平時看不見的 Case，深入改進，下面是 2 個具體的洞察與改進案例：

Case1：通過「研發活動在線化率」分析，深挖出架構不合理問題

上圖是主站技術部下級各團隊的研發活動在線化率，其中有一個團隊出現了數據異常，分析之后可以發現存在不少問題：

橫向來看，這個團隊的研發活動在線化率處于中上水平，但產品需求投入占比只有 59%，處于末尾水平。而且產品需求中體驗優化占比 11.44%，又是各團隊中最高的。那么問題來了，“時間都去哪兒了？”
再下鉆一層，這個團隊的缺陷占比 14%，也是各團隊中最高的，且 Oncall& 排障占比 6% 也不低。

因此，數據表明，此團隊可能存在的問題：在缺陷問題、體驗問題、Oncall& 排障消耗了團隊大量的投入，以至于無法消化更多產品需求。所以，通過對團隊核心成員的調研和訪談，基本可以找到根因：和客戶端的架構劣化有關，比如：

反饋 1：新需求開發時，上手門檻特別高，很多需求會涉及到多個模塊開發，這會涉及到自己不熟悉的模塊，因為架構分層結構不合理，模塊耦合度太高，往往需要花大量的時間去熟悉其他模塊的代碼，最近做了一個新需求，評估是 3 天的工作量，2 天都在看代碼，實際的開發聯調只有 1 天。
反饋 2：模塊邊界不清晰，代碼雜糅一起，新需求的代碼，可能會影響到已有功能，導致舊功能的 BUG，而且這些 BUG 在回測時，不容易被發現，導致問題漏測逃逸到線上。

通過效能的客觀數據再結合主觀調研，就可以看清“架構劣化”這種深層次問題，也可以對癥下藥了。解法是這個團隊實施了 2 個技術專項：

客戶端的架構升級：從根本上解決因為架構問題帶來的交付效率低和交付質量差的問題。
體驗優化：集中優化重點場景的體驗問題。

隨著這兩個專項的落地上線，這個團隊的效能數據已經有所改善，產品需求投入占比已經提升到 64%，體驗優化占比下降到 6%。

Case2：通過「需求積壓率」分析，驅動業務優化需求評審流程和節奏

上圖是主站技術部下級各團隊的需求積壓率數據，有些團隊的需求積壓率持續保持在 80% 以上，意味著需要近一個月的時間才能消化這些積壓的需求。這種情況可能存在的問題：

這些被積壓的需求，一個月之后，會不會進入排期開發？如果之后會排期開發，說明需求本身的價值還可以，當下是否可以協調資源加快交付？能否可以停掉某些技術需求優先業務交付？是否可以短期加班臨時突擊？
如果后面不會進入排期，是不是這些需求本身的重要性沒那么高？在預評審的時候，是不是可以控制需求的優先級？當前的需求評審流程是否可以優化？

結果

經過一年時間的系統化提效，主站提效方面進展顯著，人均交付產品需求數24 年 7 月份同比增長超過 80%。總結下來，主要有效的措施有：

升級研發模式：通過動態化、配置化等研發模式，讓部分需求可以更快速交付。
研發過程提效：通過 API 在線化管理，測試環境穩定性治理、流水線優化、發布優化等措施，降低研發協作成本以及低價值工作占比。
管理與協同提效：通過效能洞察，持續識別團隊協作瓶頸，并通過排期優化、測試無人值守、人力調配等措施，支撐需求可順暢流動。

階段 2：智能化 1.0
（2024 年 6 月 -2025 年 6 月）

從 2023 年 6 月開始，我們開始探索大模型在研效領域的應用，主要有 2 個方向：

編碼場景：如何用 AI 輔助編碼，提升代碼生成效率。
非編碼場景：在研發全流程里，哪些環節可以通過 AI 能力提升單點工作的效率。

其中，最重要的決策是我們決定自己研發一款 AI Coding 工具：Kwaipilot。它包含了大家見過的所有產品形態：

IDE 插件 / AI IDE / CLI：最符合開發人員習慣的幾種形態，插件、IDE 可以做續寫、問答、智能體代碼生成，CLI 則可更靈活的開啟代碼生成任務。
智能問答引擎：有獨立的 Web 頁面，也會嵌入到上面的產品形態里，為開發人員提供靈活的問答能力。

業界有很多優秀的 AI Coding 產品，比如 Cursor、Claude Code、Krio、Windsurf、Antigravity，快手為什么不選擇采購，而是自建呢？其實一年來，我們也一直帶著這個疑問在探索，相當于一場大型的公司內部 AB 實驗：

從用戶體驗的角度，我們希望大家“用腳投票”，選擇好用的工具：

一方面，我們允許開發同學使用任何 AI Coding 產品，可以團隊級采購也可以個人購買。
另一方面，我們研發了 Kwaipilot，對內推廣。

從實際效果的角度，我們以“AI 代碼生成率”為核心觀測指標，持續收集用戶 / 團隊的反饋，識別不符合預期的代碼生成 Case，研究解決方案，再投放實驗。最終，經過 1 年的探索，實踐結果讓我們堅定了繼續走自研 Kwaipilot 的路線。

注明：2025 年 12 月開始，在 Kwaipilot 已規模應用后，由于安全原因，探索按代碼分級封禁三方 AI Coding 工具，僅涉及到部分開發人員。

下面簡單分享一下我們的實踐過程，相信大家會更容易理解我們的選擇。整個 AI Coding 的推廣過程分為 3 個階段：導入、優化、固化

Step1，導入：推廣工具，讓開發人員用起來

這個階段很好理解，我們鼓勵開發人員在日常工作中默認使用 AI 編程工具，主要目的是讓大家擁抱 AI，在意識和行為上先有一個轉變。

當然，各種各樣奇怪的使用姿勢也會出現：

一些同學，尤其是校招入職的同學，在我們的培訓和引導下，會深度使用 Kwaipilot。
一些同學會多種 IDE 混開配合使用。其中，有“團購客”，哪家這個月免費就用誰，也有“付費用戶”，主要以個人購買 Cursor 為主。

這里最大的副作用，就是個人編碼效率不一定全員獲得了提升，通過調研看，出現了明顯的兩級分化的情況。騰訊研究院出品的《AICoding?共識報告》中也揭示了類似的情況：

Step2，優化：推廣實踐，提升編碼效率

我們通過用戶數據和技術 Leader 推薦找到了一批公司里的“AI 開發高手”，那些用 AI 輔助編碼切實提升了效率的開發人員。

一邊重點收集他們在使用過程中的問題，集中想辦法解決，一邊把他們的優秀開發技巧淬煉出來，提煉共性，形成最佳實踐。

這個階段，我們發現，有別于那些網上隨處可見的所謂的 Vibe 編程場景（用對話的形式直接做一些獨立應用或小游戲等），在真實的業務需求開發場景里，想用好 AI 編程工具提升效率，有 2 個非常大的門檻：

AI 編程工具不“懂”業務和系統：我們發現一個規律，無論用多好的代碼大模型和 AI 編程工具，“通用的工具只能達到通用的效果”。因為它們不理解公司內大量的業務概念、存量系統、編程規范等這些知識，所以，只能做一些普通的代碼續寫、函數級的代碼生成，但很快就會到瓶頸。如果想進一步提升 AI 代碼生成的效果，必須想辦法讓 AI 編程工具從一個“擅長編程但不懂快手開發場景的臨時工”進化為一個“熟悉快手業務的開發工程師”。
人和 AI 協同需要掌握新的開發方法：相比傳統編程方法，目前已經發展出了一套 AI 輔助編程的新方法。如果開發工程師僅使用 AI 編程工具，卻未掌握對應的技巧，不僅不能提效，還可能會降效，比如出現很多“AI 亂改業務代碼”、“AI 生成后還要自己刪除”等各種不符合預期的情況。

為了降低門檻，在這個階段我們做了 2 項工作：

升級 AI 編程工具

上圖是優化后的 Kwaipilot 的產品矩陣，都解決了哪些問題呢？一張表可以概覽出來：

沉淀并推廣「AI 輔助編碼」最佳實踐

我們將大量“AI 開發標桿”個人的共性實踐沉淀成了一份標準的指南和實戰課程，讓所有開發工程師，通過學習指南和課程，可以完整的掌握所有關鍵技巧。

Step3，固化：將 AI 編碼能力變為組織機制

既然已經驗證了 AI 編碼對效率提升的有效性，且已經有了固定的工具、方法、實戰課程，接下來就是如何把這些習慣固化在組織的日常工作中，讓所有研發人員大范圍的升級開發技能。我們主要用了 3 個措施：

增量人員：強化入職培訓，從源頭培養 AI-Native 開發者。

存量人員：牽引 AI 在團隊、研發流程、個人工作中滲透。

文化影響：通過活動運營、獎勵機制激發更多同學擁抱 AI。主要是一些自下而上能讓更多一線研發被看見。

結果

持續的推廣，在編碼場景上，80%+ 的開發人員都開始用 AI 輔助編碼，如下圖所示，可以看到 AI 代碼生成率每月線上增長。

同時，在非編碼場景中，我們在研發流程中建設的單點 Agent 能力也開始在研發平臺中陸續透出，用 AI 能力輔助部分研發活動提效。

最終，我們對研發各階段的 AI 提效情況，做個一個完整的評估：

最后順便提一下，眾所周知，目前大家在業界看到的“代碼生成率”指標，包括各大廠披露的、AI 編程工具自己度量，基本都是不置信的，要么只統計了編程工具里的生成的代碼和提交的代碼作為分子分母，要么是在分母上做了一些限定（比如某些場景下不納入分母統計）。但因為我們會用這個指標作為公司級 AI 編碼推廣的目標，因此對度量的精度和置信度要求非常高，一路“踩坑”過來后，最終使用了最嚴格的度量方法：

分母：新增代碼行，統計公司內所有最終入庫的 Commit 中的代碼行。
分子：將分母的每一行代碼，和 AI 生成的代碼進行比對，如果編輯距離<50%（相似度高），則納入統計。

這套實現無法在 AI 編程工具端實現，需要由公司內部的代碼平臺、AI 編程工具一起提供數據，并在離線數據層進行精確的計算，計算分母中每一行新增的代碼和分子中 AI 生成代碼的編輯距離，符合要求才能被統計為分子。

問題

經過 1 年多的努力，從數據上看，研發各環節效率都在提升，尤其是編碼環節提升很大。在 AI 熱潮下，我們也看到很多開發人員、團隊 Leader 都在分享自己效率提升數據和案例，按道理來說，公司整體的研發效能應該提升了吧？我們從全局視角，分析了一個核心業務線的客觀研發數據，結果發現了非常反直覺、令人困惑的情況：AI 代碼生成率持續在增長，但需求交付效率基本不變。

為什么呢？我們做了深入的調研，排除了少量個例，觀察總結了大多數普遍使用“AI 輔助編碼”的開發人員的用法和客觀研發數據，發現在真實業務交付場景中，只用“AI 輔助編碼”這種開發方法，對需求的開發周期影響非常有限。主要原因如下：

洞察

不過調研中也有額外收獲，我們發現在真實的業務需求開發中，已經存在著 3 種不同的開發方法，對效率提升的程度有著根本性的差異。如上圖所示。我們把三種開發方法總結出來做了一個定義：

AI 輔助編碼：在標準開發流程的基礎上，在編碼環節，依托 AI 編碼工具，使用各種 AI 生成代碼的技巧，提升編碼效率。如果熟練掌握，可以縮短一部分編碼時間，但如上文中的調研歸因，由于只是節省了碎片化的編碼時間，聯通、測試、需求評估等不變，因此對整體的開發任務縮短幫助不大。
AI 輔助開發：在研發全流程的各環節均使用 AI 輔助的方式，提升整體開發效率。需要由人把需求拆分為多個開發任務，不同開發任務調用不能的 AI 能力來完成，再由人來審核和優化產出物。由于從技術設計到編碼到測試等各環節都可以節省時間，因此加總起來后，可以將研發任務的開發周期縮短 30% 左右。
AI 協同開發：在某些需求開發中，通過完全用自然語言和 AI 交互的方式（類似業界比較流程的說法 Spec/Vibe 開發）完成需求交付，提升需求端到端交付效率，需求整體的開發周期可以縮短 40% 左右。

舉個例子說明，會更容易理解三種開發方法對效能提升程度的影響。例如 1 個需求分解出 2 個開發任務，1 個前端、1 個后端，其中前端工程師接到開發任務，正常評估從設計、開發、測試、合入主干需要 5 天，其中編碼 1 天：

如果用「AI 輔助編碼」，他自己的評估還是 5 天，只不過相比以前，可以節約一部分時間做一些雜事，但到不了可以接更多開發任務的程度。
如果用「AI 輔助開發」，他可以整體節約 1.5 天，只用 3.5 天就可以完成。但需求整體能不能快，還需要看另一個接任務的同學，以及對應的聯調、集成測試、發布的周期。
如果用「AI 協同開發」，首先必須改變協同模式，比如 2 個人均使用這種模式開發或者 1 個人全棧的做，假設 1 個人全棧獨立做要 10 天，且不需要和別人集成 & 驗證，開發周期可以縮短到 6 天左右。

有了 3 種開發方法的定義，我們就能很容易的評估出理想和現實間的差距，我們取了 1 個業務線 3 個月所有已交付的需求進行分析，發現 50%-70% 的需求，在不改變原有開發流程、規范、人員協同模式的情況下，可以使用提效幅度更大的「AI 輔助開發」模式。此外，還有 2%-10% 的需求，可以更激進的使用「AI 協同開發」。但實際情況上，團隊里只有不到 10% 的人在使用「AI 輔助開發」或「AI 協同開發」開發方法，有對 AI 開發特別感興趣的校招生，也有積極擁抱 AI 喜歡自己探索的資深開發者，但由于人數過少，對團隊整體研發模式的變化無法起到帶動的作用。

階段 3：智能化 2.0（2025 年 7 月至今）

上面一個階段，我們稱之為“智能化 1.0”階段，即以編碼場景的 AICoding 為中心提效，并逐步輻射非編碼場景的 AI 提效。但主要瓶頸就在于開篇提到的 AI 研發提效陷阱：用 AI 開發工具 ≠ 個人提效 ≠ 組織提效。

在智能化 1.0 階段最大的收益是什么呢？大部分研發人員都開始主動使用 AI 開發工具了，同時，找到了個人提效的最佳實踐。但接下來才是深水區，我們需要回歸效能提升的元問題：“如何用 AI 提升需求端到端交付效率？”。

經過充分的復盤、洞察和驗證，我們找到了新的可行的路徑，并重新設計了解決方案，我們稱之為“AI 研發范式”，它的實踐體系框架，如下圖所示：

我們根據需求交付中 AI 的參與程度，定義了“需求 AI 研發成熟度”，將需求劃分為 3 個等級 L1、L2、L3，不同等級的需求，需要使用對應的開發方法。不同開發方法，對底層研發工具的 AI 能力也有不同程度的依賴。用一張表對上圖做一下解讀：

注明：當前快手整體所處階段為 L2，2026 年年度目標為 L2&L3 需求占比達到 80% 以上。其中，依賴研發平臺在研發流程中各環節提供 AI 能力，AI 能力根據不同的應用成熟度分為 M1-M4，當前圖中為 2025 年 12 月現狀，2026 年會將 M2 級（已在一定范圍內驗證成功）能力全部達到 M3，從而支撐總目標的達成。

具體實施上整體有 3 步：

Step1，AI x 效能平臺：建設能同時支持多種研發模式、可自進化的智能研發平臺

解決的問題：

能支持多種研發模式：不同 AI 研發成熟度的需求，它們的交付流程都是一樣的，差異點在于開發方法。因此我們無法為不同的需求、不同的開發方法匹配不同的平臺，而是要思考如何用一套平臺，來支撐多種開發方法：完全不使用 AI 的標準開發流程、只用 AI 輔助編碼的開發流程、更激進的使用 AI 輔助開發或協同開發的開發流程，都應該在同一個平臺上完成。這樣，我們的需求交付效率，才可以隨著人的能力的提升、AI 能力的提升，持續變快。
產品形態可進化：產品形態隨主要研發模式的變化持續演化，從人主導最終變為由 AI 主導；能與傳統平臺協同進化。
AI 效果可進化：能隨大模型的升級、Agent 技術的升級、企業 / 個人知識的豐富，持續提升 AI 效果。

解決方案：建設下一代智能研發平臺

如上圖所示，有 4 個關鍵點：

下面重點介紹下為了支撐組織級研發范式躍遷，Flow 這種子產品形態的獨特優勢。

從需求交付視角看：同一個需求，開發者可以結合自身對 AI 的理解和開發技能的掌握，在同一種產品形態上選擇不同開發方法。
- 標準開發 / AI 輔助編碼：工作流中所有節點，完全由人工來完成和推進。其中“編碼”節點會跳轉到 IDE 中，可以用 AI 輔助編碼。對用戶而言，收益相對來說最小，和原來相比，由于 Flow 的每個節點內嵌或自動兼容了各工具平臺的功能，因此僅節約了用戶平臺跳轉的切換與學習成本。用這種模式交付的需求，會被度量為 L0/L1 級需求（AI 輔助（Copilot））。
- AI 輔助開發 /AI 協同開發：工作流中多個關鍵節點均有 AI 完成，人進行結果審查。多個節點之間的上下文可以有效傳遞，比如 AI 完成需求分析、技術設計后，產出的 AI 友好結構化文檔可以自動傳遞到 AI 編碼節點，以提升代碼生成的準確性。有些節點暫時無法由 AI 完成的，比如“提測”節點，仍然由人來操作。用這種模式交付的需求，會被度量為 L2 級需求（AI 協同（Agent））。
- AI 自主開發：部分需求可以實現全流程 AI 完成，人只需要在需求上線前或上線后進行審核。這種模式下，整個 Flow 是全自動運行的不需要人工參與。用這種模式交付的需求，會被度量為 L3 級需求（AI 自主（Agentic））。

從開發者視角看：整個過程依然非常絲滑和簡潔，下圖是一個需求交付中 Flow 的整個工作過程，大家可以感受一下：

Step2，AI x 效能實踐：以需求為中心，導入「AI 研發模式」，實現需求端到端提效

支撐「AI 研發模式」的方法和平臺都有了，這個階段的關鍵是如何把這些作用在團隊日常交付的需求上。我們分 3 個層面落地：

個人級實踐：導入「AI 輔助開發 / AI 協同開發」開發方法，并樹立標桿

首先人的開發方法要變化。我們重復了第一階段“優化”與“固化”的實踐，讓大部分研發人員從“AI 輔助編碼”的方法升級成“AI 輔助開發”，讓小部分專業能力更強的人員，選修“AI 協同開發”方法。我們同樣通過實戰課程、典型案例、人員培訓等手段，對人的開發方法進行升級。

當然，即使這樣，從數據上看，個人用 AI 提效的效果還是存在兩極分化的情況。我們對 2025 年 6 月 -12 月的數據進行了分析得到如下結論：

團隊級實踐：導入「AI 研發模式」，重塑流程、分工，提升所有需求的交付效率

通過管理導向、各種活動的形式，鼓勵團隊 Leader 主動帶領團隊進行探索，最終沉淀出了一套適合團隊的核心實踐：

經過大量的驗證，我們的標桿團隊（<50 人規模）無論在 AI 轉型后的業務感知上，還是客觀數據上，均能達到比較優秀的水平，見下表：

業務線級實踐：大規模研發團隊，系統性升級 AI 研發范式，帶來效能提升

以主站技術部為例，從 2023 年到 2025 年，從平臺化到數字化再到精益化，2025 年開始步入深水區，2 個新挑戰浮出水面：

傳統的流程、工具優化手段帶來的提效收益，邊際效應持續減小。
業務的規模與復雜度持續提升。

因此開始探索能否把握 AI 爆發的機遇，把傳統研發流程升級到“AI 研發范式”，進而打開組織級效能躍升的新空間。核心實踐：

實踐 1：Top-Down，戰略驅動

明確戰略導向：主站技術部提出了“AI First”的戰略思想，鼓勵全體員工開展工作之初，優先將 AI 作為核心驅動力，加速技術創新、優化業務流程、深度融合 AI 技術，為產品與服務注入新活力和新可能性。
發布白皮書：將戰略導向具象化為思考、方法與規劃，為全員提供明確指引。
成立重點項目：在研發領域，成立了 AI DevOps 項目，統一設計解決方案并推廣實施。

實踐 2：AI x 效能實踐

Step1：將需求分級，按需求 AI 研發成熟度定義：
- L1 AI 輔助（Copilot）：人主導，AI 主要在編碼環節提供輔助。
- L2 AI 協同（Agent）：人和 AI 更深度的協同完成需求開發，在研發全過程中，更深度分解任務給 AI 完成，人進行修改、調整、確認。
- L3 AI 自主（Agentic）：人類似產品經理，把需求澄清清楚并交給 AI 來完成，并進行最后的驗收。
Step2：分級實施
- 讓所有需求達到 L1 級（AI 輔助，Copilot）：推廣個人級實踐，依托 Kwaipilot 工具實現全員掌握，最終覆蓋所有需求。
- 讓大部分需求能持續升級到 L2 級（AI 協同，Agent）：開展團隊級實踐，從試點到推全，重塑流程、分工。
- 小部分需求探索能達到 L3 級（AI 自主，Agentic）：圈選出顆粒度小且獨立的需求，構建全技術棧 / 職能端到端交付鏈路，通過全棧、跨棧，減少協作節點，進而形成效率躍遷，最終達成 AI 自主交付。

Step3：項目化推進
- 成立組織級重點項目，Top-Down 實施。

實踐 3：AI x 效能平臺。基于需求全流程構建 AI 能力，逐一“點亮”能力并規模推廣落地：

構建 AIDevOps 能力矩陣與建設路線圖：基于研發效能白盒化，分析交付流程中各原子環節的人力投入比重、AI 能力建設 ROI，形成決策建設哪些 AI 原子能力。
AI 原子能力建設：與研發線共建交付流程環節內的 AI 原子能力 20+，研發流程環節覆蓋超過 60%，從需求準備到發布運維各環節。

實踐 4：AI x 效能度量：建設 AI 研發成熟度模型，可將需求分級度量（L1、L2、L3 級需求占比），牽引各級實踐落地。

經過 1 年多的項目實施，最終探索出了一條組織級的 AI 研發范式升級路線，從數據上也能看出明顯的變化：

Step3，AI x 效能度量：建設「AI 研發成熟度模型」，接入原有效能度量體系，驅動需求持續轉變為“AI 研發模式”

最后在效能度量上一樣也需要升級，基于效能實踐的探索，我們配套建立了「需求 AI 研發成熟度」模型（如下圖所示），用于度量一個需求在研發過程中的 AI 使用程度，這樣我們就可以按 L2&L3 級需求的比例，來牽引實踐過程，也可以專門度量 L2&L3 級需求的交付周期的變化，來印證提效結果。

結果

再回到全局視角，從數據上看，如果只看“AI 代碼生成率”指標，可以明顯看到 2025 年 6-11 月出現了一個大幅提升。實際上，在智能化 1.0 階段，這個指標達到 24%+ 基本已經是極限了，當我們開始實施智能化 2.0 后，才開始進一步拉升。

當然，我們在內部的數據觀測上，其實已經不再看“AI 代碼生成率”指標了，它只是一個單點的過程指標，片面且孤立。我們現在有了更直接的度量指標。從過程上，我們觀測多少需求被采用全流程 AI 研發模式交付，從結果上，我們直接觀察需求的交付效率變化。

L1、L2、L3 級需求占比：有多少需求的 AI 研發程度可以達到 L1、L2、L3 的階段。

下圖是最先完成 AI 范式轉型團隊的數據變化，可以看到 L2&L3 級需求占比達到 20.34%，需求交付周期下降 58%，2 個指標呈現明顯的正相關性。

總結

最后也總結下我們一年來的實踐心得，目前看完全印證了《2025 年 DORA 報告：人工智能輔助軟件開發現狀調查報告》中的洞察：

“從 DevOps 到 AI 輔助開發：AI 是“透視鏡”與“放大器”

AI 是“透視鏡”
- 在協同良好的組織中（如流程清晰、數據打通的團隊），AI 能使 DevOps 效能再提升 25%。
- 在架構松散的組織中，AI 會暴露流程斷點、數據孤島等隱性痛點。
AI 是 “放大器”
- 如同亞馬遜通過微服務轉型釋放 DevOps 價值，AI 輔助開發也需重新設計工作流程（如 “AI 提案 — 人類決策” 閉環）、角色分工（如專職提示工程師）與治理機制（如 AI 代碼審查標準），否則無法釋放真正價值。

對于大型組織的研發效能提升，AI 不是“萬能藥”，而是“透視鏡”和“放大器”，它不會自動修復組織問題，而是先把組織歷史積累的長板和短板一并透視出來，再全部放大。幸運的是快手的研發效能實踐一直保持客觀、務實的風格，先把地基打穩（平臺化 / 數字化 / 精益化），再通過在研發各環節建立 AI 提效能力，先一邊落地一邊充分驗證對個體的提效情況，再體系化的推進組織級 AI 研發范式升級。最終發現，AI 在傳統研發效能基建的基礎上，像放大器一樣增幅了每個環節，為組織帶來研發范式級的躍遷。

如下圖所示，我們基于張樂老師的“研發效能黃金三角”框架之上做了升級，能更清晰的表達出快手的實踐框架：

最后，再把鏡頭拉遠，回到宏觀視角看——2025 年我們所做的種種努力，不過是這場 AI 變革的開端。由 AI 驅動的生產力躍升和生產關系重塑，正在重新定義軟件開發的每一個環節。這不是一場短跑，而是一場馬拉松，不是一次技術升級，而是一次范式革命。

快手已經在這條路上積累了寶貴的經驗，但真正的挑戰和機遇還在前方。未來已來，一起共同探索 AI x 研發效能的無限可能吧！

本文作者

快手研發效能中心：秦巍（研發效能解決方案 & 智能工具產品負責人）
快手主站技術部：胡偉（主站 AIDevOps 項目負責人）、馬坤（主站研發效能項目負責人）

感謝快手研發效能中心與快手主站技術部的授權，使我們有機會系統梳理并總結快手在過去三年中的實踐經驗。

快手向來崇尚“行勝于言”的實干精神，也因此我們往往專注于行動，而疏于對外分享。然而，過去一年間 AI 技術的迅猛發展，正深刻改變著研發效能領域的格局。在與行業同行的交流中，我們既看到層出不窮的創新探索，也注意到在實踐、方法與工具建設方面仍存在不少共性問題。這些問題若不及早重視，很可能導致未來大量返工與資源浪費，甚至偏離客觀規律，影響企業研發效能提升的既定路徑。

為此，我們決定把我們的探索與實踐經驗分享出來——無論是曾經踏過的“坑”，還是有幸跨過的“河”，都希望能為企業與同行們在“AI × 研發效能”的探索中，降低試錯成本，注入更多成功可能。

當然，快手的 AI 研發范式升級仍在沿著這條路徑演進中：L1 AI 輔助（Copilot）→ L2 AI 協同（Agent）→ L3 AI 自主（Agentic）。目前，我們的研發效能體系已經初步完成 AI 化升級，全景圖如下圖所示：

2026 年正在探索 L2 → L3 的躍遷路徑，我們將定期梳理實踐經驗，持續向業界輸出更多有價值的內容，主要包括：

實踐與技術：歡迎關注「快手技術」公眾號。我們將持續分享具體實操方法與技術解析，例如：個人、團隊乃至業務線如何借助 AI 提升效能？有哪些落地案例？研發各環節 Agent 的核心技術及調優方法有哪些？等等。
平臺與工具：我們將智能化 1.0 階段沉淀的產品 Kwaipilot 進行了全面升級與開放，它在快手內部歷經數千名研發同學的反饋與打磨，已完成三代演進：Code Copilot → Code Agent → Multi-Agent & Agentic Coding，目前已在海外發布，產品名為 CodeFlicker，希望服務全球開發者，也歡迎國內同行下載體驗（https://www.codeflicker.ai/）。后續，我們還會持續把快手在智能化 2.0 階段的探索成果融入 CodeFlicker，希望讓更多企業級開發者受益。

最后的最后，如果你也希望一起探索「AI x 研發效能」最前沿的技術、產品、實踐，一起以業界最高標準做有挑戰的事，點擊【閱讀原文】，歡迎加入我們。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.