網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

在參與OpenAI、Google、Amazon的50個(gè)AI項(xiàng)目后，他們總結(jié)出了大多數(shù)AI產(chǎn)品失敗的原因

2026-02-08 10:22:01　來(lái)源: InfoQ

北京舉報(bào)

分享至

編譯｜宇琪

借助 Coding Agent 等工具，如今構(gòu)建一個(gè) AI 產(chǎn)品的技術(shù)門(mén)檻和啟動(dòng)成本已急劇降低。一夜之間，將想法變?yōu)榭山换サ脑妥兊们八从械娜菀住５粋€(gè)刺眼的矛盾也隨之浮現(xiàn)：大多數(shù) AI 產(chǎn)品仍在走向失敗。如果技術(shù)實(shí)現(xiàn)不再是瓶頸，那么問(wèn)題究竟出在哪里？

Aishwarya Naresh Reganti 和 Kiriti Badam 曾在 OpenAI、Google、Amazon、Databricks 等公司參與構(gòu)建并成功推出了 50 多個(gè)企業(yè)級(jí) AI 產(chǎn)品。最近，他們?cè)诓タ凸?jié)目中，與主持人 Lenny 細(xì)致分享了當(dāng)前 AI 產(chǎn)品開(kāi)發(fā)中的常見(jiàn)陷阱與成功路徑。基于該播客視頻，InfoQ 進(jìn)行了部分刪改。

核心觀點(diǎn)如下：

今天構(gòu)建的成本已經(jīng)非常低了，真正昂貴的是設(shè)計(jì)，是你是否真正想清楚了產(chǎn)品要解決什么痛點(diǎn)。對(duì)問(wèn)題本身和產(chǎn)品設(shè)計(jì)的執(zhí)著，是被低估的，而單純追求“快點(diǎn)做出來(lái)”，是被高估的。
AI 不是答案，而是解決問(wèn)題的工具。
領(lǐng)導(dǎo)者需要重新回到“親自上手”的狀態(tài)，并不是要他們親自實(shí)現(xiàn)系統(tǒng)，而是為了重建判斷力，接受“我的直覺(jué)可能不再完全正確”這一事實(shí)。
“忙碌但無(wú)效”的工作時(shí)代正在結(jié)束，你不可能再躲在角落里做對(duì)公司沒(méi)有實(shí)質(zhì)影響的事，而必須思考端到端的流程，以及如何創(chuàng)造更大的影響。
在這個(gè)數(shù)據(jù)隨時(shí)告訴你“你大概率會(huì)失敗”的時(shí)代，保留一點(diǎn)愚蠢的勇氣很重要。

AI 產(chǎn)品構(gòu)建中的挑戰(zhàn)

Lenny：目前 AI 產(chǎn)品構(gòu)建的情況是怎樣的？哪些進(jìn)展順利，哪些地方問(wèn)題依舊明顯？

Aishwarya：首先，懷疑態(tài)度明顯減少。2024 年還有很多領(lǐng)導(dǎo)者認(rèn)為 AI 可能只是又一波“加密貨幣式”的泡沫，因此遲遲不愿真正投入。當(dāng)時(shí)我看到的很多所謂“AI 用例”，更像僅僅是“在你自己的數(shù)據(jù)上套一層 Snapchat 濾鏡”。

而 2025 年，很多公司開(kāi)始真正反思用戶(hù)體驗(yàn)和業(yè)務(wù)流程，逐漸意識(shí)到：如果想構(gòu)建成功的 AI 產(chǎn)品，必須先拆解現(xiàn)有流程，再重新構(gòu)建。而消極的一面在于，執(zhí)行依然非常混亂。這個(gè)領(lǐng)域只有三年左右的歷史，沒(méi)有成熟的方法論，也沒(méi)有教材，大家基本都是邊走邊學(xué)。

同時(shí)，AI 產(chǎn)品的生命周期與傳統(tǒng)軟件截然不同。這導(dǎo)致了以往在 PM、工程師、數(shù)據(jù)團(tuán)隊(duì)之間形成的分工被打破。過(guò)去，PM、工程師各自?xún)?yōu)化各自的指標(biāo)；現(xiàn)在，大家可能需要坐在同一間會(huì)議室里，一起看 agent 的執(zhí)行軌跡，共同決定產(chǎn)品應(yīng)該如何表現(xiàn)。這種協(xié)作更緊密，也更復(fù)雜。

Lenny：你之前說(shuō)構(gòu)建 AI 產(chǎn)品與構(gòu)建非 AI 產(chǎn)品本質(zhì)上非常不同，能具體談?wù)剢幔?/strong>

Aishwarya：構(gòu)建 AI 系統(tǒng)和傳統(tǒng)軟件系統(tǒng)之間確實(shí)存在大量相似之處，但也有一些根本性的差異，足以改變你構(gòu)建產(chǎn)品的方式。其中一個(gè)經(jīng)常被忽視的核心差異，是“非確定性”。

與傳統(tǒng)軟件相比，你幾乎是在與一個(gè)非確定性的 API 打交道。在傳統(tǒng)軟件中，決策引擎和流程往往是清晰、可預(yù)測(cè)的。以 Booking.com 為例：你有一個(gè)明確意圖，比如在舊金山訂兩晚酒店，系統(tǒng)通過(guò)一系列按鈕、選項(xiàng)和表單，把你的意圖轉(zhuǎn)化為具體操作，最終完成目標(biāo)。

但在 AI 產(chǎn)品中，這一層被一種高度流動(dòng)的、以自然語(yǔ)言為主的界面所取代。用戶(hù)可以用無(wú)數(shù)種方式表達(dá)同一個(gè)意圖，這意味著你無(wú)法預(yù)判用戶(hù)的輸入行為。而在輸出端，你面對(duì)的是一個(gè)概率性的、非確定性的 LLM，它對(duì)提示詞極其敏感，本質(zhì)上還是一個(gè)黑箱。你既無(wú)法完全預(yù)測(cè)用戶(hù)會(huì)如何使用產(chǎn)品，也無(wú)法確定模型會(huì)給出怎樣的回應(yīng)。

因此，你同時(shí)面對(duì)輸入、輸出和中間過(guò)程三方面的不確定性，只能在有限理解的基礎(chǔ)上去預(yù)判行為并進(jìn)行設(shè)計(jì)。到了 Agent 系統(tǒng)，這種復(fù)雜性會(huì)進(jìn)一步放大。

這也引出了第二個(gè)關(guān)鍵差異：代理性與控制權(quán)之間的權(quán)衡。很多人執(zhí)著于構(gòu)建高度自治的系統(tǒng)，希望 Agent 能替人完成所有工作。但每當(dāng)你把決策權(quán)交給 AI，你就必然放棄一部分控制權(quán)。因此，只有當(dāng)系統(tǒng)足夠可靠、足以贏得信任時(shí)，才值得賦予它更高的自治能力。這正是“代理性—控制權(quán)權(quán)衡”的核心：自治越高，控制越少，而信任必須通過(guò)時(shí)間和表現(xiàn)來(lái)積累。

Kiriti：類(lèi)比登山：如果你的目標(biāo)是攀登一座高峰，你不會(huì)第一天就直接沖頂，而是先進(jìn)行基礎(chǔ)訓(xùn)練，逐步提升能力，最終才接近目標(biāo)。

構(gòu)建 AI 產(chǎn)品也是如此。你不應(yīng)該在第一天就打造一個(gè)擁有公司全部工具和上下文的全能 Agent，并期待它能正常工作。正確的做法，是刻意從影響范圍小、人工控制強(qiáng)的場(chǎng)景開(kāi)始，逐步理解當(dāng)前能力邊界，再慢慢增加自治性、減少人工干預(yù)。

這樣做的好處在于，你會(huì)逐漸建立信心，清楚 AI 能解決問(wèn)題的哪一部分，以及接下來(lái)需要引入哪些上下文和工具來(lái)改進(jìn)體驗(yàn)。好的一面是，你不必一開(kāi)始就面對(duì)復(fù)雜而炫目的 Agent 體系；挑戰(zhàn)在于，你必須接受“循序漸進(jìn)”的現(xiàn)實(shí)。但幾乎所有成功的案例，都是從極簡(jiǎn)結(jié)構(gòu)起步，再不斷演化而來(lái)的。

Lenny：你們一直強(qiáng)調(diào)“從低自治、高控制開(kāi)始”，再逐步升級(jí)。能否用一個(gè)具體例子說(shuō)明這種路徑？

Kiriti：客戶(hù)支持是一個(gè)非常典型的場(chǎng)景。我們?cè)诎l(fā)布產(chǎn)品時(shí)也經(jīng)歷過(guò)類(lèi)似情況，隨著新功能上線(xiàn)，支持請(qǐng)求會(huì)突然激增，而且問(wèn)題類(lèi)型非常多樣。

一開(kāi)始，并不是把所有支持中心文章一股腦塞進(jìn) Agent 就完事了。更合理的第一步，是讓 AI 為人工客服提供建議，由人類(lèi)判斷哪些建議是有用的、哪些是無(wú)效的。通過(guò)這個(gè)反饋回路，你可以識(shí)別系統(tǒng)的盲點(diǎn)并進(jìn)行修正。

當(dāng)你建立起足夠信心后，才可以讓 AI 直接向用戶(hù)展示答案。接著，再逐步增加復(fù)雜能力，例如自動(dòng)退款、創(chuàng)建功能請(qǐng)求等。如果在第一天就把這些能力全部交給 Agent，系統(tǒng)復(fù)雜度會(huì)迅速失控。因此，我們始終建議按階段構(gòu)建，逐步提升自治水平。

Lenny：一開(kāi)始是高控制、低自治，AI 只給建議，最終決策仍由人來(lái)做；當(dāng)系統(tǒng)被驗(yàn)證可靠后，逐漸賦予更多自治權(quán)，同時(shí)減少人工干預(yù)。只要這一階段進(jìn)展順利，就可以繼續(xù)向前推進(jìn)。

Aishwarya：從更宏觀的角度看，AI 系統(tǒng)的核心在于“行為校準(zhǔn)”。你幾乎不可能在一開(kāi)始就準(zhǔn)確預(yù)測(cè)系統(tǒng)行為，因此關(guān)鍵在于避免破壞用戶(hù)體驗(yàn)和信任。做法是，在不影響體驗(yàn)的前提下，逐步減少人工控制，并以不同方式約束自治邊界。

以醫(yī)療保險(xiǎn)預(yù)授權(quán)為例，某些低風(fēng)險(xiǎn)項(xiàng)目，比如血液檢測(cè)或 MRI，只要患者信息齊全，就可以由 AI 自動(dòng)審批；而高風(fēng)險(xiǎn)項(xiàng)目，如侵入性手術(shù)，則必須保留人工審核。在這個(gè)過(guò)程中，你還需要持續(xù)記錄人類(lèi)的決策行為，構(gòu)建反饋飛輪，用于不斷優(yōu)化系統(tǒng)。這樣既不會(huì)損害用戶(hù)體驗(yàn)，也不會(huì)削弱信任，同時(shí)還能讓系統(tǒng)持續(xù)進(jìn)化。

Lenny：你還給出過(guò)一些很好的分階段示例，比如 Coding Agent：第一階段只做行內(nèi)補(bǔ)全和樣板代碼建議；第二階段生成測(cè)試或重構(gòu)代碼供人審查；第三階段則可以自動(dòng)提交 PR。營(yíng)銷(xiāo)助手也是類(lèi)似路徑：從文案草稿，到完整活動(dòng)執(zhí)行，再到自動(dòng) A/B 測(cè)試和跨渠道優(yōu)化。

Aishwarya：換個(gè)角度看，這種非確定性其實(shí)也是 AI 最迷人的地方。相比點(diǎn)擊復(fù)雜的按鈕，人類(lèi)更習(xí)慣用語(yǔ)言交流，這大大降低了使用門(mén)檻。但問(wèn)題在于，人類(lèi)表達(dá)意圖的方式極其多樣，而你往往需要在非確定性的技術(shù)之上，達(dá)成確定性的業(yè)務(wù)結(jié)果，這正是復(fù)雜性的來(lái)源。

Lenny：所以，當(dāng)人們一上來(lái)就想直接跳到第三階段，往往會(huì)陷入困境：系統(tǒng)既難以構(gòu)建，也不可靠，最終只能被判定為失敗。

Kiriti：在達(dá)到高度自治之前，你需要對(duì)系統(tǒng)能力建立足夠信心。如果一開(kāi)始就從錯(cuò)誤的切入點(diǎn)出發(fā)，你會(huì)面對(duì)成百上千種錯(cuò)誤，卻根本無(wú)從修復(fù)。

從小規(guī)模、低自治開(kāi)始，不僅降低風(fēng)險(xiǎn)，也會(huì)迫使你認(rèn)真思考“我要解決的到底是什么問(wèn)題”。在 AI 快速發(fā)展的環(huán)境下，人們很容易沉迷于復(fù)雜解法，而忽視真正的問(wèn)題本身。通過(guò)逐步提高自治層級(jí)，你可以清晰地拆解問(wèn)題，并為未來(lái)擴(kuò)展做好準(zhǔn)備。

Aishwarya：我最近讀到一篇研究指出，約 75% 的企業(yè)認(rèn)為“可靠性”是他們?cè)?AI 項(xiàng)目中面臨的最大問(wèn)題，這也是他們遲遲不敢將 AI 產(chǎn)品直接面向用戶(hù)的重要原因。正因如此，目前很多 AI 產(chǎn)品更多集中在提升生產(chǎn)力，而不是徹底替代端到端流程。

Lenny：在這期節(jié)目之前，我們還錄了一期，專(zhuān)門(mén)深入討論了提示注入（prompt injection）和越獄（jailbreaking）。在那期討論里，我們意識(shí)到這對(duì) AI 產(chǎn)品來(lái)說(shuō)幾乎是一個(gè)“生存級(jí)風(fēng)險(xiǎn)”：它可能既沒(méi)有成熟解法，甚至在理論上也很難被徹底解決。

Aishwarya：一旦 AI 系統(tǒng)真正進(jìn)入主流應(yīng)用，這會(huì)成為一個(gè)非常嚴(yán)重的問(wèn)題。現(xiàn)在大家還忙著把 AI 產(chǎn)品做出來(lái)，很少有人認(rèn)真對(duì)待安全性，但這遲早會(huì)爆發(fā)。尤其是在面對(duì)非確定性 API 的情況下，你幾乎無(wú)法完全防范。

Lenny：我們當(dāng)時(shí)聊到的一個(gè)核心問(wèn)題是：要誘導(dǎo) AI 去做“不該做的事”，其實(shí)并不難。雖然大家都在構(gòu)建各種護(hù)欄系統(tǒng)，但事實(shí)證明，這些護(hù)欄并不牢靠，總能被繞過(guò)。而正如你所說(shuō)，當(dāng) Agent 越來(lái)越自治、甚至進(jìn)入機(jī)器人系統(tǒng)時(shí)，這種風(fēng)險(xiǎn)會(huì)被成倍放大，確實(shí)讓人感到不安。

Kiriti：我同意這是一個(gè)真實(shí)存在的問(wèn)題。不過(guò)從當(dāng)前 AI 在企業(yè)中的采用階段來(lái)看，大多數(shù)公司甚至還沒(méi)真正走到能充分獲益的程度。2025 年確實(shí)是 AI Agent 和企業(yè)嘗試落地 AI 的一個(gè)高峰期，但整體滲透率依然不高，很多流程還遠(yuǎn)未被真正改造。

在這種情況下，只要在關(guān)鍵節(jié)點(diǎn)引入“人在回路”（human-in-the-loop），其實(shí)可以規(guī)避相當(dāng)一部分風(fēng)險(xiǎn)。我個(gè)人更偏向樂(lè)觀的一側(cè)：與其一開(kāi)始就被潛在的負(fù)面場(chǎng)景嚇退，不如先嘗試去落地、去使用。我們?cè)?OpenAI 接觸過(guò)的企業(yè)中，幾乎沒(méi)有人會(huì)說(shuō)“AI 在這里完全幫不上忙”，更多是發(fā)現(xiàn)它能在某些具體環(huán)節(jié)上帶來(lái)優(yōu)化，然后再思考如何逐步采用。

Lenny：有哪些成功構(gòu)建 AI 產(chǎn)品的模式和工作方式？

Aishwarya：我們合作過(guò)的成功公司，通常都具備三個(gè)維度：優(yōu)秀的領(lǐng)導(dǎo)者、健康的文化，以及持續(xù)推進(jìn)的技術(shù)能力。

首先是領(lǐng)導(dǎo)者。我們參與過(guò)不少企業(yè)的 AI 轉(zhuǎn)型、培訓(xùn)和戰(zhàn)略制定。很多領(lǐng)導(dǎo)者過(guò)去十到十五年積累的直覺(jué)，正是他們成功的基礎(chǔ)，但在 AI 出現(xiàn)之后，這些直覺(jué)往往需要被重新學(xué)習(xí)。領(lǐng)導(dǎo)者必須愿意承認(rèn)這一點(diǎn)，甚至需要一定程度的“脆弱感”。我曾和 Rackspace 現(xiàn)任 CEO Gajen 共事。他每天清晨都會(huì)預(yù)留一個(gè)固定時(shí)段，專(zhuān)門(mén)用來(lái)“補(bǔ)課 AI”——聽(tīng)播客、看最新資料，甚至在周末做白板推演。領(lǐng)導(dǎo)者需要重新回到“親自上手”的狀態(tài)，并不是要他們親自實(shí)現(xiàn)系統(tǒng)，而是為了重建判斷力，接受“我的直覺(jué)可能不再完全正確”這一事實(shí)。很多真正成功的團(tuán)隊(duì)，正是從這種自上而下的轉(zhuǎn)變開(kāi)始的。AI 幾乎不可能靠純粹的自下而上推動(dòng)，如果領(lǐng)導(dǎo)層對(duì)技術(shù)缺乏信任，或者對(duì)能力邊界有誤判，整個(gè)組織都會(huì)受限。

第二個(gè)維度是文化。在傳統(tǒng)企業(yè)中，AI 往往不是核心業(yè)務(wù)，但因?yàn)楦?jìng)爭(zhēng)對(duì)手在用、因?yàn)榇_實(shí)存在可行用例，企業(yè)不得不引入 AI。在這個(gè)過(guò)程中，恐慌文化非常常見(jiàn)，比如“FOMO”“你會(huì)被 AI 取代”等說(shuō)法。問(wèn)題在于，真正做出好 AI 產(chǎn)品，極度依賴(lài)領(lǐng)域?qū)＜遥坏芏鄬?zhuān)家卻拒絕參與，因?yàn)樗麄儞?dān)心自己的崗位被替代。這時(shí)，領(lǐng)導(dǎo)者需要建立一種“賦能型文化”，強(qiáng)調(diào) AI 是用來(lái)增強(qiáng)個(gè)人能力、放大產(chǎn)出的工具，而不是威脅。只有這樣，組織才會(huì)形成合力，而不是人人自危。事實(shí)上，AI 往往會(huì)創(chuàng)造更多機(jī)會(huì)，讓員工做更多、更高價(jià)值的事情。

第三個(gè)維度才是技術(shù)本身。成功的團(tuán)隊(duì)通常對(duì)自身工作流有近乎執(zhí)念般的理解，清楚哪些環(huán)節(jié)適合 AI，哪些地方必須有人參與。幾乎不存在“一個(gè) AI Agent 解決一切”的情況。通常是機(jī)器學(xué)習(xí)模型負(fù)責(zé)一部分，確定性代碼負(fù)責(zé)另一部分。因此，關(guān)鍵不在于迷信技術(shù)，而在于為每個(gè)問(wèn)題選擇合適的工具。

此外，這些團(tuán)隊(duì)也非常清楚自己在和一個(gè)非確定性的 API 打交道，因此會(huì)以完全不同的節(jié)奏推進(jìn)開(kāi)發(fā)。他們迭代得非常快，但前提是不破壞用戶(hù)體驗(yàn)，同時(shí)快速建立反饋飛輪。如今的競(jìng)爭(zhēng)焦點(diǎn)，并不是誰(shuí)最早上線(xiàn) Agent，而是誰(shuí)最早構(gòu)建起持續(xù)改進(jìn)的機(jī)制。凡是有人告訴我，“一個(gè) Agent，兩三天就能在你系統(tǒng)里跑出顯著收益”，我都會(huì)非常懷疑。這不是模型能力的問(wèn)題，而是企業(yè)數(shù)據(jù)和基礎(chǔ)設(shè)施本身就極其混亂。大量技術(shù)債、混亂的接口和命名方式，都需要時(shí)間去消化。真正能產(chǎn)生顯著 ROI，通常至少需要四到六個(gè)月，即便你擁有最好的數(shù)據(jù)和基礎(chǔ)設(shè)施。

Lenny：有些人認(rèn)為評(píng)測(cè)（eval）是解決 AI 問(wèn)題的關(guān)鍵，有些人則覺(jué)得它被嚴(yán)重高估，只要“感覺(jué)對(duì)了”就行。你們?cè)趺纯?eval？它在多大程度上真的能解決你們提到的那些問(wèn)題？

Kiriti：我覺(jué)得大家陷入了一種錯(cuò)誤的二元對(duì)立：要么 eval 能解決一切，要么線(xiàn)上監(jiān)控能解決一切。eval 本質(zhì)上，是把你對(duì)產(chǎn)品的理解、你的價(jià)值判斷，編碼進(jìn)一組數(shù)據(jù)集：什么是重要的，什么是絕對(duì)不能發(fā)生的。而生產(chǎn)環(huán)境監(jiān)控，則是在產(chǎn)品上線(xiàn)后，通過(guò)關(guān)鍵指標(biāo)和用戶(hù)行為，反饋真實(shí)使用情況。

這種監(jiān)控并不新鮮，但在 AI Agent 場(chǎng)景下，顆粒度變得更細(xì)了。除了顯式反饋，比如點(diǎn)贊、點(diǎn)踩，還有大量隱式信號(hào)。例如用戶(hù)不點(diǎn)踩，但反復(fù)要求重新生成回答，這本身就是強(qiáng)烈的負(fù)面反饋。

真正的問(wèn)題不在于“選哪個(gè)”，而在于你想解決什么。如果你的目標(biāo)是構(gòu)建一個(gè)可靠系統(tǒng)，那么上線(xiàn)前必須有底線(xiàn)測(cè)試，這可以是一小組關(guān)鍵問(wèn)題，確保無(wú)論如何都不能出錯(cuò)。上線(xiàn)之后，你不可能人工檢查所有交互軌跡，這時(shí)就需要監(jiān)控來(lái)提示你哪里出了問(wèn)題。當(dāng)你發(fā)現(xiàn)新的失敗模式，再反過(guò)來(lái)構(gòu)建新的 eval 集。這個(gè)循環(huán)缺一不可。認(rèn)為“只靠其中一種就夠了”，在我看來(lái)是站不住腳的。

Aishwarya：我想稍微退一步，談?wù)劄槭裁础癳val”這個(gè)詞在 2025 年下半年被賦予了如此沉重的含義。你去找數(shù)據(jù)標(biāo)注公司，他們說(shuō)專(zhuān)家在寫(xiě) eval；有人說(shuō) PM 應(yīng)該寫(xiě) eval，它們就是新的 PRD；還有人說(shuō) eval 本身就是產(chǎn)品改進(jìn)所需的完整反饋回路。對(duì)初學(xué)者來(lái)說(shuō)，這非常混亂。

事實(shí)上，大家說(shuō)的都不完全錯(cuò)，但指向的是不同層面的事情。律師和醫(yī)生寫(xiě)的“評(píng)估”，并不等于他們?cè)跇?gòu)建 LLM judge；PM 寫(xiě) eval，也不意味著要寫(xiě)一個(gè)可直接上線(xiàn)的評(píng)判模型。很多時(shí)候，你事前根本無(wú)法判斷是否需要 LLM judge，還是只依賴(lài)生產(chǎn)環(huán)境的用戶(hù)信號(hào)。

Martin Fowler 曾提出過(guò)“語(yǔ)義擴(kuò)散”這個(gè)概念：一個(gè)詞被發(fā)明出來(lái)，隨后被不斷濫用，最終失去精確定義。我認(rèn)為 eval 正處在這個(gè)階段。不同人看到的是它的不同側(cè)面。但如果你讓一群實(shí)踐者坐在一起問(wèn)：“AI 產(chǎn)品是否需要一個(gè)可執(zhí)行的反饋回路？”他們一定都會(huì)點(diǎn)頭。至于怎么做，完全取決于具體場(chǎng)景。復(fù)雜用例下，盲目構(gòu)建評(píng)判模型往往得不償失，這時(shí)回到用戶(hù)信號(hào)、快速修復(fù)、確認(rèn)是否回退，反而更有效。最終，所有資深從業(yè)者都會(huì)告訴你一句話(huà)：一切取決于上下文，不要迷信固定方法論。

Lenny：現(xiàn)在“eval”已經(jīng)變成一個(gè)可以指代無(wú)數(shù)不同東西的詞，既包括標(biāo)注、基準(zhǔn)測(cè)試，也包括反饋機(jī)制，討論起來(lái)反而更混亂了。

Aishwarya：我最近就遇到一個(gè)客戶(hù)，說(shuō)他們“在做 eval”。我問(wèn)能不能看看數(shù)據(jù)集，他們說(shuō)只是看了 LLM Arena 和一些第三方榜單，就選了模型。我只能說(shuō)，那不是 eval，那只是模型對(duì)比。

Lenny：Claude Code 的負(fù)責(zé)人 Boris 曾公開(kāi)表示：“我們?cè)?Claude Code 里不做 eval，一切靠感覺(jué)（vibes）。”能不能請(qǐng)你分享一下，Codex 以及 Codex 團(tuán)隊(duì)在 eval 這件事上的具體做法？

Kiriti：在 Codex，我們采取的是一種相對(duì)平衡的方式：eval 是必要的，但同時(shí)必須高度重視用戶(hù)反饋。我們?cè)诋a(chǎn)品上極度強(qiáng)調(diào)“把正確的產(chǎn)品做出來(lái)”，而其中非常重要的一部分，就是認(rèn)真傾聽(tīng)用戶(hù)的聲音。

Coding Agent 和其他領(lǐng)域的 Agent 有一個(gè)本質(zhì)差異：它們是為“可定制性”和“工程師”而生的。Coding Agent 并不是只解決五六個(gè)固定工作流的產(chǎn)品，而是需要以多種方式被定制和擴(kuò)展。這意味著，產(chǎn)品會(huì)被嵌入到各種不同的集成環(huán)境、工具鏈和使用場(chǎng)景中。在這種前提下，幾乎不可能為用戶(hù)的所有交互方式提前構(gòu)建一個(gè)完備的 eval 數(shù)據(jù)集。

但與此同時(shí)，你仍然需要確保，每一次改動(dòng)至少不會(huì)破壞產(chǎn)品中那些最核心的能力。因此，我們確實(shí)會(huì)用 eval 來(lái)守住這些“底線(xiàn)”。同時(shí)，我們也投入大量精力去理解用戶(hù)真實(shí)的使用方式。舉個(gè)例子，我們最近推出了一個(gè)代碼審查產(chǎn)品，增長(zhǎng)非常快，既幫 OpenAI 內(nèi)部發(fā)現(xiàn)了大量問(wèn)題，也被外部客戶(hù)廣泛使用。如果我對(duì)代碼審查相關(guān)的模型、或訓(xùn)練時(shí)采用的強(qiáng)化學(xué)習(xí)機(jī)制做了調(diào)整，在上線(xiàn)之前，我一定會(huì)通過(guò) A/B 測(cè)試來(lái)驗(yàn)證：它是否還能準(zhǔn)確找出關(guān)鍵問(wèn)題，用戶(hù)對(duì)結(jié)果的反應(yīng)如何。

有時(shí)，用戶(hù)一旦被錯(cuò)誤的代碼提示反復(fù)打擾，甚至?xí)苯雨P(guān)閉這個(gè)功能。你需要確保，新版本確實(shí)在“做對(duì)的事情”。但老實(shí)說(shuō)，很多這類(lèi)場(chǎng)景在事前是很難預(yù)判的，也很難提前為它們構(gòu)建對(duì)應(yīng)的 eval 數(shù)據(jù)集。因此，這里面既有一定的“vibes 判斷”，也有大量來(lái)自真實(shí)用戶(hù)的反饋。我們會(huì)非常主動(dòng)地關(guān)注社交媒體，看看是否有人遇到特定問(wèn)題，并盡快修復(fù)。

我并不認(rèn)為有一套萬(wàn)無(wú)一失的 eval 指標(biāo)，可以完全依賴(lài)它，其他什么都不用管。每當(dāng)我們要發(fā)布一個(gè)新模型，團(tuán)隊(duì)都會(huì)聚在一起做集中測(cè)試，每個(gè)人關(guān)注不同的重點(diǎn)。我們手里有一份“高難度問(wèn)題清單”，會(huì)把這些問(wèn)題交給新模型，觀察它的表現(xiàn)。這更像是每位工程師都有一套針對(duì)自身關(guān)注點(diǎn)的定制 eval，用來(lái)幫助大家理解：在這個(gè)新模型下，產(chǎn)品到底發(fā)生了什么變化。

CC/CD 框架

Aishwarya：我們接觸過(guò)大量公司，它們都承受著來(lái)自競(jìng)爭(zhēng)對(duì)手的壓力，因?yàn)椤八腥硕荚谧?Agent”，于是覺(jué)得自己也必須構(gòu)建一個(gè)完全自治的 Agent。但很快發(fā)現(xiàn)一個(gè)問(wèn)題：在一開(kāi)始，你根本無(wú)法預(yù)知用戶(hù)會(huì)如何與系統(tǒng)交互，也無(wú)法預(yù)判 AI 會(huì)給出哪些響應(yīng)或采取哪些行動(dòng)。當(dāng)你的工作流包含四五個(gè)步驟、需要連續(xù)做出大量決策時(shí)，問(wèn)題一旦出現(xiàn)，就會(huì)變得極其難以修復(fù)，結(jié)果往往是無(wú)休止的調(diào)試和熱修復(fù)。

我們?cè)鵀橐粋€(gè)客服場(chǎng)景構(gòu)建系統(tǒng)，后來(lái)，因?yàn)闊嵝迯?fù)多到失控，新的問(wèn)題層出不窮，這個(gè)產(chǎn)品不得不被下線(xiàn)。與此同時(shí)，行業(yè)里也發(fā)生了不少令人警惕的事件，比如前段時(shí)間 Air Canada 的一個(gè) Agent“臆造”了一條并不存在的退款政策，而公司因?yàn)榉稍虿坏貌唤邮苓@個(gè)結(jié)果。這類(lèi)案例讓人意識(shí)到：如果設(shè)計(jì)不當(dāng)，AI 系統(tǒng)可能會(huì)對(duì)企業(yè)本身造成非常嚴(yán)重的風(fēng)險(xiǎn)。

正是在這樣的背景下，我們開(kāi)始思考：如何在不失去用戶(hù)信任的前提下構(gòu)建系統(tǒng)，同時(shí)又能形成一個(gè)持續(xù)改進(jìn)的飛輪？這就是“CC/CD（Continuous Calibration, Continuous Development 持續(xù)校準(zhǔn)、持續(xù)開(kāi)發(fā)）”框架的出發(fā)點(diǎn)。

循環(huán)的一側(cè)是“持續(xù)開(kāi)發(fā)”。你先界定能力邊界，整理數(shù)據(jù)，明確系統(tǒng)的預(yù)期輸入和預(yù)期輸出。在真正動(dòng)手之前，這一步本身就非常有價(jià)值，因?yàn)樗３?huì)暴露出團(tuán)隊(duì)內(nèi)部對(duì)“產(chǎn)品該如何表現(xiàn)”的理解并不一致。此時(shí)，產(chǎn)品經(jīng)理和領(lǐng)域?qū)＜业膮⑴c尤為關(guān)鍵。你并不需要一個(gè)覆蓋所有情況的數(shù)據(jù)集，而是一個(gè)“足夠好”的起點(diǎn)。接下來(lái)，搭建應(yīng)用，并設(shè)計(jì)評(píng)估維度。我刻意使用“評(píng)估指標(biāo)”這個(gè)說(shuō)法，而不是簡(jiǎn)單地說(shuō) eval，是因?yàn)樵u(píng)估是一種過(guò)程，而指標(biāo)只是你在過(guò)程中重點(diǎn)關(guān)注的維度。

另一側(cè)是“持續(xù)校準(zhǔn)”。當(dāng)系統(tǒng)上線(xiàn)后，你一定會(huì)看到大量最初未曾預(yù)料到的用戶(hù)行為模式。評(píng)估指標(biāo)可以幫助你發(fā)現(xiàn)一部分問(wèn)題，但很快你會(huì)意識(shí)到，它們同樣不足以覆蓋所有新出現(xiàn)的錯(cuò)誤模式。這時(shí)，你需要分析真實(shí)行為，識(shí)別新的錯(cuò)誤類(lèi)型，一部分問(wèn)題可以直接修復(fù)，而另一部分則需要催生新的評(píng)估指標(biāo)。這并不意味著每一個(gè)錯(cuò)誤都要轉(zhuǎn)化為新的 eval 維度。有些只是偶發(fā)問(wèn)題，比如工具定義不清導(dǎo)致的調(diào)用錯(cuò)誤，修完即可繼續(xù)前進(jìn)。

整體來(lái)看，這就是一個(gè) AI 產(chǎn)品的典型生命周期。我們還特別強(qiáng)調(diào)，在迭代初期，應(yīng)當(dāng)采用“低自治、高控制”的方式：限制系統(tǒng)可做的決策數(shù)量，引入人在回路；隨著理解加深，再逐步提高自治程度。這樣做的本質(zhì)，是在逐步建立對(duì)系統(tǒng)行為的認(rèn)知飛輪。

以客服 Agent 為例，我們通常會(huì)把演進(jìn)過(guò)程拆成三個(gè)階段。第一階段只是“路由”，即判斷工單該被分配到哪個(gè)部門(mén)。很多人會(huì)低估這個(gè)問(wèn)題的復(fù)雜度，但在大型企業(yè)里，路由往往異常困難。層級(jí)混亂、分類(lèi)標(biāo)準(zhǔn)失序的情況非常普遍，人類(lèi)客服往往依賴(lài)大量隱性經(jīng)驗(yàn)才能做出判斷，而這些規(guī)則通常并未被文檔化。如果直接把問(wèn)題丟給 Agent，而不給足上下文，風(fēng)險(xiǎn)就會(huì)非常高。在路由階段，即便 Agent 分錯(cuò)了部門(mén)，人類(lèi)也可以介入糾正，控制風(fēng)險(xiǎn)。同時(shí)，這個(gè)階段往往會(huì)暴露出大量數(shù)據(jù)問(wèn)題，需要優(yōu)先修復(fù)。

等路由穩(wěn)定之后，下一步是“副駕駛”：Agent 根據(jù)既有的標(biāo)準(zhǔn)操作流程生成回復(fù)草稿，由人工修改和確認(rèn)。在這個(gè)過(guò)程中，你會(huì)自動(dòng)記錄人類(lèi)的修改行為，從而幾乎“免費(fèi)”獲得誤差分析數(shù)據(jù)，并將其反饋到系統(tǒng)中。當(dāng)你發(fā)現(xiàn)，大多數(shù)情況下人工已經(jīng)不需要做太多修改時(shí)，才可以進(jìn)入端到端的自動(dòng)處理階段，讓 Agent 既生成回復(fù)，也完成問(wèn)題的解決。這正是從低自治逐步走向高自治的過(guò)程。

我們還整理了一張表，明確每個(gè)階段你在做什么、能學(xué)到什么，以及這些信息如何被反饋回系統(tǒng)。需要強(qiáng)調(diào)的是，采用 CC/CD 并不意味著問(wèn)題會(huì)一次性被解決。即便已經(jīng)走到較高版本，你仍然可能遇到此前從未見(jiàn)過(guò)的數(shù)據(jù)分布。這個(gè)框架的意義，在于幫助你在完全自治之前，盡可能多地理解用戶(hù)行為，從而降低整體風(fēng)險(xiǎn)。

此外，它還隱含地幫你建立了一套行為日志體系。單純依賴(lài)評(píng)估指標(biāo)，只能捕捉你“已經(jīng)知道”的錯(cuò)誤，而大量新模式，只有在真實(shí)使用中才會(huì)顯現(xiàn)出來(lái)。通過(guò)這種低風(fēng)險(xiǎn)、漸進(jìn)式的方式，你可以理解用戶(hù)，而不至于在問(wèn)題全面爆發(fā)時(shí)手忙腳亂。最終，這一切的核心目標(biāo)只有一個(gè)：在持續(xù)校準(zhǔn)系統(tǒng)行為的同時(shí)，不斷維護(hù)并增強(qiáng)用戶(hù)對(duì)產(chǎn)品的信任。

Lenny：這套方法的核心，在于把一切都設(shè)計(jì)成持續(xù)的、可迭代的過(guò)程，沿著“自治程度不斷提高、控制逐步降低”的路徑前進(jìn)。“持續(xù)校準(zhǔn)、持續(xù)開(kāi)發(fā)”這個(gè)命名，本身就強(qiáng)調(diào)了它的迭代性。順便說(shuō)明一下，這個(gè)名字顯然是在向 CI/CD（持續(xù)集成、持續(xù)部署）致敬，只不過(guò)這是 AI 時(shí)代的對(duì)應(yīng)版本：不再只是不斷跑單元測(cè)試、頻繁部署，而是持續(xù)運(yùn)行 eval、觀察結(jié)果、調(diào)整關(guān)注的指標(biāo)，找出系統(tǒng)失效的地方，再不斷迭代優(yōu)化。

在這個(gè)框架本身上，還有沒(méi)有什么你覺(jué)得特別重要、但我們還沒(méi)提到的點(diǎn)？

Aishwarya：我們最常被問(wèn)到的問(wèn)題之一是：我該如何判斷，系統(tǒng)是否已經(jīng)“校準(zhǔn)得足夠好”，可以進(jìn)入下一個(gè)階段？這件事并沒(méi)有一套明確的規(guī)則手冊(cè)，核心原則只有一個(gè)：盡量減少“意外”。比如說(shuō)，如果你每一兩天就做一次校準(zhǔn)，而發(fā)現(xiàn)沒(méi)有出現(xiàn)新的數(shù)據(jù)分布模式，用戶(hù)的行為也相當(dāng)穩(wěn)定，那你從系統(tǒng)中獲得的新信息就已經(jīng)非常有限了。這往往就是一個(gè)信號(hào)，說(shuō)明你可以考慮進(jìn)入下一階段了。到了這個(gè)時(shí)候，很大程度上其實(shí)是在憑經(jīng)驗(yàn)判斷：你是否感覺(jué)自己已經(jīng)“準(zhǔn)備好了”，是否還在持續(xù)獲得新的洞察。

當(dāng)然，也要意識(shí)到，有些外部事件會(huì)徹底打亂原有的校準(zhǔn)狀態(tài)。比如 GPT-4.0 被棄用，API 層面逐步遷移到 GPT-5，而新模型的行為特性完全不同，這時(shí)你的校準(zhǔn)就會(huì)再次失效，需要重新走一遍流程。用戶(hù)行為本身也會(huì)隨時(shí)間演化。即便是消費(fèi)級(jí)產(chǎn)品，我們今天和 ChatGPT 的交互方式，也和兩年前完全不同，一方面是模型能力提升了，另一方面是用戶(hù)在某個(gè)任務(wù)上嘗到甜頭后，會(huì)自然地把系統(tǒng)用于更多新場(chǎng)景。

我們?cè)鵀殂y行的核保人員構(gòu)建過(guò)一個(gè)系統(tǒng)。核保本身是一項(xiàng)非常繁瑣的工作，貸款申請(qǐng)文件往往有三四十頁(yè)。這個(gè)系統(tǒng)的初衷，是幫助核保人員快速查找政策和內(nèi)部信息，從而更高效地審批貸款。最初三四個(gè)月，反饋都非常積極，核保人員的效率顯著提升。但隨后我們發(fā)現(xiàn)，正是因?yàn)樗麄儗?duì)系統(tǒng)產(chǎn)生了信任，開(kāi)始提出一些我們從未預(yù)料到的深度問(wèn)題，比如直接把整份申請(qǐng)材料丟給系統(tǒng)，問(wèn)：“像這種情況，之前的核保人員通常是怎么處理的？”

從用戶(hù)角度看，這只是一個(gè)非常自然的延伸；但從產(chǎn)品構(gòu)建角度看，底層邏輯卻發(fā)生了質(zhì)變。系統(tǒng)需要理解“類(lèi)似情況”究竟指什么，再去檢索歷史案例、分析文檔，最后給出綜合判斷。這已經(jīng)遠(yuǎn)遠(yuǎn)超出了最初“查找某條政策”的設(shè)計(jì)范圍。正是這種不斷演化的用戶(hù)行為，提醒你：是時(shí)候回到校準(zhǔn)階段，重新審視系統(tǒng)能力邊界了。

AI 的未來(lái)

Lenny：當(dāng)下 AI 領(lǐng)域里，哪些東西被高估了？哪些被低估了？

Kiriti：與其說(shuō)“被高估”，不如說(shuō)有些概念被嚴(yán)重誤解。一個(gè)典型例子是多 Agent 系統(tǒng)。很多人會(huì)覺(jué)得：我有一個(gè)復(fù)雜問(wèn)題，只要拆成幾個(gè)子任務(wù)，分別交給不同的 Agent，再把它們連起來(lái)，就能實(shí)現(xiàn)所謂的“Agent 烏托邦”。現(xiàn)實(shí)并非如此。當(dāng)然，成功的多 Agent 系統(tǒng)確實(shí)存在，但關(guān)鍵在于，你如何限制系統(tǒng)偏離軌道的方式。

例如，用一個(gè)監(jiān)督型 Agent 來(lái)協(xié)調(diào)多個(gè)子 Agent，是一種非常成熟、有效的模式；但如果只是按功能拆分職責(zé)，期望這些 Agent 通過(guò)某種“點(diǎn)對(duì)點(diǎn)協(xié)作”自然形成整體能力，那在當(dāng)前的模型能力和工程范式下，往往行不通。這并不是多 Agent 被高估，而是人們高估了它在現(xiàn)階段能“自發(fā)協(xié)同”的程度。

我覺(jué)得 Coding Agent 仍然被低估了。你在 Twitter 或 Reddit 上會(huì)看到大量討論，但你會(huì)發(fā)現(xiàn)它的真實(shí)滲透率依然很低，而潛在價(jià)值卻極大。我認(rèn)為 2026 年會(huì)是集中優(yōu)化這些流程、釋放巨大生產(chǎn)力的一段時(shí)間。

Lenny：相比預(yù)先設(shè)計(jì)一堆各司其職的 Agent，更現(xiàn)實(shí)的路徑，可能是讓一個(gè)更強(qiáng)的 Agent 自己完成任務(wù)拆解和協(xié)調(diào)？

Kiriti：沒(méi)錯(cuò)。你可以由人來(lái)編排多個(gè) Agent，也可以由一個(gè)更大的 Agent 負(fù)責(zé)統(tǒng)籌。但如果讓多個(gè) Agent 以點(diǎn)對(duì)點(diǎn)的方式自由通信，尤其是在客服這類(lèi)對(duì)輸出高度敏感的場(chǎng)景中，幾乎不可能精細(xì)地控制“到底是哪個(gè) Agent 在對(duì)用戶(hù)說(shuō)話(huà)”，護(hù)欄成本會(huì)急劇上升。

Aishwarya：我認(rèn)為 eval 是被誤解的概念。它當(dāng)然重要，但“不斷切換工具、學(xué)習(xí)新工具”這件事被高估了。我依然是比較傳統(tǒng)的看法：真正值得投入精力的，是對(duì)你要解決的業(yè)務(wù)問(wèn)題保持極度專(zhuān)注，AI 只是工具而已。你當(dāng)然需要了解最新進(jìn)展，但不要把“快速構(gòu)建”本身當(dāng)成目標(biāo)。今天構(gòu)建的成本已經(jīng)非常低了，真正昂貴的是設(shè)計(jì)，是你是否真正想清楚了產(chǎn)品要解決什么痛點(diǎn)。對(duì)問(wèn)題本身和產(chǎn)品設(shè)計(jì)的執(zhí)著，是被低估的，而單純追求“快點(diǎn)做出來(lái)”，是被高估的。

Lenny：從產(chǎn)品視角看，你們覺(jué)得未來(lái)一年 AI 會(huì)走向哪里？

Kiriti：我非常看好“后臺(tái)型”或“主動(dòng)型” Agent。當(dāng)前 AI 難以持續(xù)創(chuàng)造價(jià)值，很大程度上是因?yàn)樗狈ι舷挛模蛟谟谒€沒(méi)有真正接入工作發(fā)生的地方。一旦 Agent 被更深地嵌入真實(shí)工作流，獲得更豐富的上下文，它就能理解你在優(yōu)化什么指標(biāo)、試圖完成哪些活動(dòng)。接下來(lái)順理成章的一步，就是由 Agent 主動(dòng)反過(guò)來(lái)提示你。

我們已經(jīng)在 ChatGPT Pulse 這樣的功能中看到雛形，它每天推送一些你可能關(guān)心的更新，幫助你“喚醒思路”。把這一模式擴(kuò)展到更復(fù)雜的任務(wù)中，比如 Coding Agent 在你一天開(kāi)始時(shí)告訴你：“我已經(jīng)幫你修復(fù)了五個(gè)工單，這是補(bǔ)丁，看看就行。”我認(rèn)為這會(huì)在 2026 年成為非常重要的產(chǎn)品方向。

Aishwarya：我非常期待 2026 年的多模態(tài)體驗(yàn)。2025 年我們已經(jīng)取得了不小進(jìn)展，不只是生成能力，在理解層面也是如此。但到目前為止，LLM 仍然是最常用的模型形態(tài)，而人類(lèi)本身是高度多模態(tài)的。語(yǔ)言其實(shí)是我們進(jìn)化中相對(duì)靠后的表達(dá)方式。即便我們?cè)趯?duì)話(huà)中，也在不斷接收視覺(jué)、表情、語(yǔ)氣等信號(hào)，并據(jù)此調(diào)整表達(dá)。如果能構(gòu)建真正豐富的多模態(tài)交互，將會(huì)更接近人類(lèi)對(duì)話(huà)的真實(shí)復(fù)雜度。

此外，還有大量“枯燥但重要”的任務(wù)等待被自動(dòng)化。如今依然有無(wú)數(shù)手寫(xiě)文檔、雜亂的 PDF，即便是最先進(jìn)的模型也難以處理。一旦多模態(tài)理解能力真正成熟，我們就能解鎖大量此前無(wú)法觸及的數(shù)據(jù)資源。

Lenny：如果有人想提升自己構(gòu)建 AI 產(chǎn)品的能力，你認(rèn)為最值得重點(diǎn)培養(yǎng)的一兩項(xiàng)技能是什么？

Aishwarya：從小處著手、快速迭代、建立正向飛輪等。但如果站在更高的視角來(lái)看，對(duì)于當(dāng)下的產(chǎn)品構(gòu)建者而言，實(shí)施成本在未來(lái)幾年會(huì)變得極低，真正稀缺的將是設(shè)計(jì)能力、判斷力和審美品位。無(wú)論是做產(chǎn)品還是規(guī)劃職業(yè)路徑，早期幾年往往專(zhuān)注于執(zhí)行層面的技術(shù)細(xì)節(jié)，而隨著 AI 大幅降低上手門(mén)檻，幾年之后，每個(gè)人的價(jià)值都會(huì)更多體現(xiàn)在品味、判斷，以及那些“只屬于你”的東西上。

這種能力并不一定來(lái)自年齡或多年經(jīng)驗(yàn)。我們最近招了一位同事，團(tuán)隊(duì)一直在用一款價(jià)格不菲的任務(wù)管理工具，他卻直接帶著自己手寫(xiě)的應(yīng)用來(lái)開(kāi)會(huì)，當(dāng)場(chǎng)把我們?nèi)坷M(jìn)去開(kāi)始用。那種主動(dòng)性和主人翁意識(shí)，敢于重新思考既有體驗(yàn)，正是最能拉開(kāi)差距的地方。當(dāng)然，這類(lèi)自建工具在規(guī)模化后可能有維護(hù)成本，需要替換或升級(jí)，但在小團(tuán)隊(duì)階段，這種“先做出來(lái)再說(shuō)”的態(tài)度讓我非常震驚。很多在 AI 時(shí)代成長(zhǎng)起來(lái)的人，對(duì)“構(gòu)建”的心理成本極低，也更愿意嘗試新工具。這或許也是為什么很多 AI 產(chǎn)品存在留存問(wèn)題，大家都太容易被新工具吸引了。

歸根結(jié)底，真正重要的是主動(dòng)性和責(zé)任感。“忙碌但無(wú)效”的工作時(shí)代正在結(jié)束，你不可能再躲在角落里做對(duì)公司沒(méi)有實(shí)質(zhì)影響的事，而必須思考端到端的流程，以及如何創(chuàng)造更大的影響。

Lenny：這讓我想到我之前請(qǐng)過(guò) Jason Lemkin 上節(jié)目。他把整個(gè)銷(xiāo)售團(tuán)隊(duì)幾乎都替換成了 Agent：原來(lái) 10 個(gè)銷(xiāo)售，現(xiàn)在是 2 個(gè)人加 20 個(gè) Agent。結(jié)果有位銷(xiāo)售直接辭職了，因?yàn)樗l(fā)現(xiàn)自己“什么都沒(méi)干”，很快就會(huì)被系統(tǒng)識(shí)別出來(lái)。這也印證了你的觀點(diǎn)——混日子會(huì)越來(lái)越難。

Kiriti：堅(jiān)持和承受“痛苦”的能力同樣被嚴(yán)重低估。如今信息觸手可及，幾乎任何人都可以在極短時(shí)間內(nèi)學(xué)習(xí)新東西，但真正的差別在于，是否愿意經(jīng)歷反復(fù)試錯(cuò)的過(guò)程——學(xué)習(xí)、實(shí)現(xiàn)、失敗、再調(diào)整，真正理解什么有效、什么無(wú)效。我常說(shuō)“痛苦是新的護(hù)城河”，這種在實(shí)踐中積累的經(jīng)驗(yàn)，無(wú)論對(duì)個(gè)人還是公司，都會(huì)沉淀為難以復(fù)制的優(yōu)勢(shì)。

很多成功的公司，并不是因?yàn)閾屜冗M(jìn)入市場(chǎng)，或擁有多么炫目的功能，而是因?yàn)樗麄兘?jīng)歷了足夠多的痛苦，搞清楚哪些是不可妥協(xié)的核心點(diǎn)，并在模型能力、功能取舍之間不斷權(quán)衡。這沒(méi)有標(biāo)準(zhǔn)答案，也沒(méi)有教科書(shū)，只能靠一輪又一輪的迭代。正是這些過(guò)程中的“痛苦”，最終塑造了個(gè)人能力和公司的長(zhǎng)期競(jìng)爭(zhēng)力。

Aishwarya：專(zhuān)注于問(wèn)題本身。AI 只是工具，關(guān)鍵在于你是否真正理解自己的工作流。很多所謂的 AI 工程師和 AIPM，把大部分時(shí)間花在理解業(yè)務(wù)流程、用戶(hù)行為和數(shù)據(jù)上，而不是追逐最炫的模型。真正的差異化，永遠(yuǎn)來(lái)自對(duì)用戶(hù)和問(wèn)題的深度理解。

閃電問(wèn)答

Lenny：你們最常推薦的書(shū)是什么？

Aishwarya：《當(dāng)呼吸化為空氣》。作者 Paul Kalanithi 是一位神經(jīng)外科醫(yī)生，在三十出頭被診斷出肺癌。這本書(shū)讓我意識(shí)到，我們是否花太多時(shí)間“評(píng)估人生”，卻忘了真正去生活。

Kiriti：我更偏愛(ài)科幻，《三體》三部曲。它不僅討論外星文明，也深入探討科學(xué)、地緣政治與人類(lèi)決策，對(duì)理解技術(shù)與文明的關(guān)系非常有啟發(fā)。

Lenny：如果喜歡科幻和 AI，我還強(qiáng)烈推薦《深淵上的火》（A Fire Upon the Deep）。

Lenny：最近最喜歡的影視作品？

Aishwarya：我在重刷《硅谷》，它出奇地不過(guò)時(shí)，如今的 AI 浪潮和當(dāng)年的情景高度相似。

Kiriti：我選一個(gè)游戲，《Expedition 33》。制作精良，故事、音樂(lè)和玩法都非常出色。

Lenny：最近發(fā)現(xiàn)并非常喜歡的一款產(chǎn)品？

Aishwarya：Whisper Flow。我沒(méi)想到自己會(huì)這么依賴(lài)它，它能把語(yǔ)音自然地轉(zhuǎn)化為指令，體驗(yàn)非常順滑。

Kiriti：我偏好效率工具，比如 Raycast 和 caffeinate，讓我在本地跑長(zhǎng)時(shí)間任務(wù)時(shí)效率更高。

Lenny：你的人生信條？

Aishwarya：“人們說(shuō)這件事做不到，但那個(gè)傻子不知道，于是他做成了。”在這個(gè)數(shù)據(jù)隨時(shí)告訴你“你大概率會(huì)失敗”的時(shí)代，保留一點(diǎn)愚蠢的勇氣很重要。

Kiriti：喬布斯那句話(huà)：你只能回頭看時(shí)，才能把點(diǎn)連成線(xiàn)。所以不斷前進(jìn)、持續(xù)嘗試就好。

Lenny：你最欣賞對(duì)方的一點(diǎn)是什么？

Aishwarya：Kiriti 非常冷靜、踏實(shí)，是我最重要的“回聲板”，而且他是我見(jiàn)過(guò)最好的丈夫。

Kiriti：Aishwarya 最大的特點(diǎn)是，她能把復(fù)雜問(wèn)題講得極其清楚，并且始終保持耐心和堅(jiān)持，這在快速變化的 AI 時(shí)代非常珍貴。

https://www.youtube.com/watch?v=z7T1pCxgvlA

聲明：本文為 InfoQ 整理，不代表平臺(tái)觀點(diǎn)，未經(jīng)許可禁止轉(zhuǎn)載。

會(huì)議推薦

InfoQ 2026 全年會(huì)議規(guī)劃已上線(xiàn)！從 AI Infra 到 Agentic AI，從 AI 工程化到產(chǎn)業(yè)落地，從技術(shù)前沿到行業(yè)應(yīng)用，全面覆蓋 AI 與軟件開(kāi)發(fā)核心賽道！集結(jié)全球技術(shù)先鋒，拆解真實(shí)生產(chǎn)案例、深挖技術(shù)與產(chǎn)業(yè)落地痛點(diǎn)，探索前沿領(lǐng)域、聚焦產(chǎn)業(yè)賦能，獲取實(shí)戰(zhàn)落地方案與前瞻產(chǎn)業(yè)洞察，高效實(shí)現(xiàn)技術(shù)價(jià)值轉(zhuǎn)化。把握行業(yè)變革關(guān)鍵節(jié)點(diǎn)，搶占 2026 智能升級(jí)發(fā)展先機(jī)！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/閱讀下一篇/

返回網(wǎng)易首頁(yè) 下載網(wǎng)易新聞客戶(hù)端

相關(guān)推薦

熱點(diǎn)推薦

表面風(fēng)光之下，OpenAI的“四大困境”

華爾街見(jiàn)聞官方 2026-02-22 11:11:06
25 跟貼 25

谷歌高管放話(huà)：這兩類(lèi)AI初創(chuàng)公司，別輕易涉足了

機(jī)器之心Pro 2026-02-22 17:38:06
1 跟貼 1

告別軟件依賴(lài)：OpenAI 200人團(tuán)隊(duì)押注硬件，打響AI消費(fèi)終端爭(zhēng)奪戰(zhàn)

鈦媒體APP 2026-02-21 14:03:13
10 跟貼 10

谷歌創(chuàng)始人布林：當(dāng)年發(fā)完Transformer論文，我們太不當(dāng)回事了

機(jī)器之心Pro 2025-12-15 10:18:00
35 跟貼 35

三個(gè)和尚沒(méi)水喝！OpenAI星際之門(mén)擱淺，一年過(guò)去壓根沒(méi)動(dòng)工

量子位 2026-02-23 12:41:44
0 跟貼 0

2026年的AI：向人立心，向?qū)嵙⒚?| 2026商業(yè)新愿景

經(jīng)濟(jì)觀察報(bào) 2026-02-14 11:20:06
0 跟貼 0

OpenAI神秘「波蘭軍團(tuán)」曝光！奧特曼：沒(méi)他們就沒(méi)有OpenAI

新智元 2026-02-23 09:18:39
34 跟貼 34

@CEO，你的下一個(gè)私人助理何必是人類(lèi)

量子位 2025-09-17 12:14:47
0 跟貼 0

北大團(tuán)隊(duì)讓AI智能體「入侵」論壇，指揮真實(shí)機(jī)器人執(zhí)行任務(wù)

新智元 2026-02-21 12:03:31
8 跟貼 8

大模型最難的AI Infra，用Vibe Coding搞定

機(jī)器之心Pro 2026-01-07 15:33:06
0 跟貼 0

Anthropic最新報(bào)告，揭示了300個(gè)獨(dú)角獸的創(chuàng)業(yè)機(jī)會(huì)！YC CEO力挺

新智元 2026-02-23 13:03:58
0 跟貼 0

中美AI同步加速：47天30次更新，中國(guó)AI的最強(qiáng)主場(chǎng)究竟在哪？

量子位 2026-02-22 18:31:31
8 跟貼 8

巨大的“智能體藍(lán)海市場(chǎng)”：軟件編程占一半，醫(yī)療、金融、法律等“寥寥無(wú)幾”

華爾街見(jiàn)聞官方 2026-02-23 16:00:04
0 跟貼 0

春節(jié)觀察：“螞蟻阿福”用戶(hù)破億，AI從“熱鬧”走向“日常陪伴”

每日經(jīng)濟(jì)新聞 2026-02-23 13:06:10
0 跟貼 0

行業(yè)最大規(guī)模具身數(shù)據(jù)集：10Kh RealOmni-Open DataSet

量子位 2026-01-06 10:53:25
0 跟貼 0

行業(yè)最大規(guī)模具身數(shù)據(jù)集！出自簡(jiǎn)智機(jī)器人GenRobot.AI

量子位 2026-01-05 17:11:41
0 跟貼 0

39歲員工被公司決策裁員，他坦然接受回家種地，上級(jí)這時(shí)候卻慌了

雪姐故事多 2026-02-22 08:25:00
0 跟貼 0

2月22日（發(fā)布），男子參加“王婆說(shuō)媒”，自稱(chēng)“在政府機(jī)關(guān)上班，家里有賓利、保時(shí)捷、奧迪，房子很多”

中安在線(xiàn) 2026-02-22 19:17:19
513 跟貼 513

劍走偏鋒！美海軍研新導(dǎo)彈，想一招廢掉中俄空中作戰(zhàn)體系

包明說(shuō) 2026-02-22 17:05:12
16 跟貼 16

英偉達(dá)“滯漲”數(shù)月，本周“全球最重要財(cái)報(bào)”拉得動(dòng)嗎？

華爾街見(jiàn)聞官方 2026-02-23 09:26:31
1 跟貼 1

DeepMind負(fù)責(zé)人：2036 AI意識(shí)覺(jué)醒？LeCun怒懟：LLM路線(xiàn)全錯(cuò)！

新智元 2025-12-16 16:55:25
0 跟貼 0

阿里云Coding Plan推優(yōu)惠活動(dòng)，18000次請(qǐng)求最低僅需7.9元

量子位 2026-02-22 10:45:32
35 跟貼 35

谷歌發(fā)布Gemini 3.1 Pro，推理性能翻倍

量子位 2026-02-20 23:26:53
0 跟貼 0

AI廣告，下一個(gè)跨境電商風(fēng)口

DT商業(yè)觀察 2025-12-18 11:55:54
0 跟貼 0

8個(gè)月前AI就知道他要?dú)⑷耍hatGPT員工爭(zhēng)論了很久，選擇沉默… 最后8個(gè)生命消失在這座小鎮(zhèn)

英國(guó)那些事兒 2026-02-22 22:49:40
1239 跟貼 1239

機(jī)器人進(jìn)汽車(chē)廠(chǎng)，給波士頓動(dòng)力，裝上谷歌最強(qiáng)大腦

機(jī)器之心Pro 2026-01-06 19:02:05
3 跟貼 3

硅谷科技大廠(chǎng)的員工們，都在怎么應(yīng)對(duì)AI焦慮？

凱莉彭 2026-02-22 20:46:13
0 跟貼 0

祝賀！谷愛(ài)凌為中國(guó)代表團(tuán)贏下第五金！

北京日?qǐng)?bào)客戶(hù)端 2026-02-22 19:15:31
8933 跟貼 8933

下一代谷歌頭顯，XREAL x Google 定義混合現(xiàn)實(shí)頭顯

愛(ài)范兒 2025-12-10 05:12:08
0 跟貼 0

教育產(chǎn)業(yè)日?qǐng)?bào)(02.21) : 谷歌海底光纜計(jì)劃

億歐 2026-02-22 12:00:05
0 跟貼 0

編程已死，鍵盤(pán)長(zhǎng)草！Claude Code之父對(duì)談Kaparthy，全程爆金句

新智元 2026-02-04 11:41:01
63 跟貼 63

Agent2World來(lái)了，把世界模型做成可運(yùn)行的符號(hào)環(huán)境

機(jī)器之心Pro 2026-02-02 15:24:04
9 跟貼 9

DeepSeek推理分裂出多重人格，越社交越聰明

量子位 2026-02-04 03:32:03
0 跟貼 0

智譜GLM-5技術(shù)全公開(kāi)！完全適配華為等國(guó)產(chǎn)芯片，美國(guó)網(wǎng)友酸了

量子位 2026-02-23 12:56:04
1 跟貼 1

追覓：新質(zhì)生產(chǎn)力的「春晚樣本」

豹變 2026-02-21 08:00:03
0 跟貼 0

歐洲總統(tǒng)驚天決策：主動(dòng)申請(qǐng)鄰國(guó)，亡國(guó)也不愿坐以待斃

王藁侃世界 2026-02-23 03:13:05
0 跟貼 0

蘇翊鳴拒高薪邀約，選擇日本籍教練，展現(xiàn)獨(dú)立決策

超喜歡我的狗子 2026-02-23 02:34:28
1 跟貼 1

彈簧+飛輪自制能量再生裝置，原理超簡(jiǎn)單

呆毛隆隆 2026-02-23 01:45:39
0 跟貼 0

普通車(chē)友的偷懶式洗車(chē)攻略

騎行村 2026-02-22 12:03:20
0 跟貼 0

AWS提供工具幫助客戶(hù)實(shí)現(xiàn)從POC到生產(chǎn)的跨越

量子位 2025-12-11 03:38:33
0 跟貼 0

關(guān)于政治最深度最精辟的解釋
深度報(bào)
2026-02-22 22:47:30

剛剛，春節(jié)殺手锏“源神”登場(chǎng)！
智東西
2026-02-16 19:15:13

美國(guó)海關(guān)停止征收被最高法院裁定為非法的關(guān)稅
財(cái)聯(lián)社
2026-02-23 13:37:12

貝恩36分狀元郎準(zhǔn)三雙，小卡37+8+4+3+2難救主，魔術(shù)險(xiǎn)勝快船
釘釘陌上花開(kāi)
2026-02-23 12:37:54

丈夫負(fù)債30萬(wàn)，妻子有45萬(wàn)存款卻無(wú)動(dòng)于衷，妻子坦言：想陪他吃苦
烙任情感
2026-02-22 11:13:07

界面新聞
2026-02-23 14:05:36

硬核評(píng)測(cè)！博主實(shí)測(cè)44臺(tái)手機(jī)，撕碎行業(yè)遮羞布：國(guó)產(chǎn)廠(chǎng)商集體翻車(chē)
爆角追蹤
2026-02-22 19:30:57

湛江媽祖事件通報(bào)稱(chēng)沒(méi)資本介入！“六個(gè)剛剛好”，成輿論的新焦點(diǎn)
火山詩(shī)話(huà)
2026-02-23 10:49:15

2026年第一對(duì)娛樂(lè)圈“雙強(qiáng)情侶”分手，網(wǎng)友：談了6年，可惜了！
娛人細(xì)品
2026-02-22 15:59:35

打人夫妻被曝光！肥頭大耳一臉橫，走路自帶氣場(chǎng)，文旅社媒淪陷
奇思妙想草葉君
2026-02-22 21:44:19

返程注意！氣溫“跳水”，夜間局部中到大雨 | 天氣早知道
上海楊浦
2026-02-23 07:50:13

1比4慘敗！張本美和遇新克星，舊仇未報(bào)又添新恨
卿子書(shū)
2026-02-23 11:18:26

航天科研人員趙學(xué)軍留學(xué)被策反，回國(guó)后大量搜集核心要害情報(bào)提供給境外間諜，央視披露細(xì)節(jié)：才到國(guó)外就被盯上，請(qǐng)吃燒烤增進(jìn)感情
極目新聞
2026-02-23 15:04:52

上海高速路網(wǎng)近兩天已發(fā)生7起交通事故，G60市區(qū)方向20分鐘內(nèi)發(fā)生3起
上觀新聞
2026-02-23 09:29:05

谷愛(ài)凌發(fā)布會(huì)落淚：剛得知外婆去世，我向她保證過(guò)會(huì)勇敢
澎湃新聞
2026-02-22 23:24:28

滿(mǎn)打滿(mǎn)算，NBA現(xiàn)役僅5人退役后100%會(huì)被塑銅像，杜蘭特也不夠格？
毒舌NBA
2026-02-22 19:58:03

海南離島機(jī)票緊俏，飛京滬僅剩萬(wàn)元公務(wù)艙全價(jià)票，航司建議關(guān)注中轉(zhuǎn)航班
紅星新聞
2026-02-22 12:24:53

女子高鐵如廁不慎沖走50克金手鏈，地勤機(jī)械師手掏40分鐘集便器尋回
大風(fēng)新聞
2026-02-23 14:02:06

美國(guó)被曝已決定對(duì)伊朗發(fā)動(dòng)軍事打擊，預(yù)計(jì)23日或24日
每日經(jīng)濟(jì)新聞
2026-02-23 14:21:22

別看景區(qū)人山人海，仔細(xì)一算全是窮游，人均消費(fèi)露餡，消費(fèi)降級(jí)了
眼光很亮
2026-02-22 10:37:00

2026-02-23 16:07:00

InfoQ

有內(nèi)容的技術(shù)社區(qū)媒體

12068文章數(shù) 51762關(guān)注度

往期回顧全部

科技要聞

騰訊字節(jié)，“火拼”漫劇

馬斯克：星艦每年將發(fā)射超過(guò)10000顆衛(wèi)星

硅谷忠誠(chéng)已死：只要價(jià)碼高，任何人都可以被挖走

美國(guó)載人繞月任務(wù)，又推遲了，原定3月份發(fā)射

智譜上市1月漲5倍，市值超越京東、快手

頭條要聞

特朗普被指考慮對(duì)伊朗先“小打”再“大打”

媒體：特朗普付出慘痛代價(jià) 最高法院裁決給了止損機(jī)會(huì)

谷愛(ài)凌奪冠后得知奶奶去世后落淚最新發(fā)文內(nèi)容披露

越南"特斯拉"瘋狂占領(lǐng)本土市場(chǎng) 背后是中國(guó)公司在供貨

墨西哥毒梟被擊斃販毒集團(tuán)瘋狂報(bào)復(fù) 火燒車(chē)輛飛機(jī)港口

頭條要聞

特朗普被指考慮對(duì)伊朗先“小打”再“大打”

媒體：特朗普付出慘痛代價(jià) 最高法院裁決給了止損機(jī)會(huì)

谷愛(ài)凌奪冠后得知奶奶去世后落淚最新發(fā)文內(nèi)容披露

越南"特斯拉"瘋狂占領(lǐng)本土市場(chǎng) 背后是中國(guó)公司在供貨

墨西哥毒梟被擊斃販毒集團(tuán)瘋狂報(bào)復(fù) 火燒車(chē)輛飛機(jī)港口

體育要聞

哈登版騎士首敗：雷霆的冠軍課

布朗32+8+7綠軍大勝湖人東契奇25+5普理查德30分

國(guó)外記者以為谷愛(ài)凌要退役！后者當(dāng)場(chǎng)回應(yīng)：絕不會(huì)退役，我才22歲

中國(guó)男籃官宣世預(yù)賽14人名單：趙睿領(lǐng)銜趙繼偉余嘉豪回歸

4-1！哲凱賴(lài)什雙響，1.3億巨頭傷退，阿森納大勝，甩開(kāi)曼城5分

娛樂(lè)要聞

谷愛(ài)凌奶奶去世，谷愛(ài)凌淚奔

央視一哥康輝，為什么不再拋頭露面？

孫儷鄧超結(jié)婚16年，人生贏家再傳好消息

遭前妻屢次糾纏的黃景瑜，給內(nèi)娛男星提了醒

陳飛宇新劇爆火，陳凱歌樂(lè)了

財(cái)經(jīng)要聞

結(jié)婚五金邁入10萬(wàn)大關(guān) 年輕人結(jié)婚更難了

特朗普關(guān)稅戰(zhàn)被裁定非法中國(guó)商務(wù)部回應(yīng)

春節(jié)后A股怎么走？三大板塊上漲概率更高

巨虧233億背后！美團(tuán)已顯力不從心

找準(zhǔn)中年男人死穴，韓寒一針扎的真猛

汽車(chē)要聞

續(xù)航1810km！smart精靈#6 EHD超級(jí)電混2026年上市

最高363km純電續(xù)航魏牌V9X遠(yuǎn)山詳解

全新A6L領(lǐng)銜一汽奧迪2026年新車(chē)預(yù)覽

長(zhǎng)安啟源06/阿維塔06GT領(lǐng)銜長(zhǎng)安集團(tuán)新車(chē)前瞻

技術(shù)門(mén)檻很低的增程技術(shù)，為什么越賣(mài)越貴？

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

親子

旅游

數(shù)碼

公開(kāi)課

本地新聞

春花齊放2026：《駿馬奔騰迎新歲》

下一站是嘉禾望崗，請(qǐng)各位乘客做好哭泣準(zhǔn)備

圍觀了北京第一屆黑色羽絨服大賽，我笑瘋了

云游中國(guó)｜撥開(kāi)云霧，巫山每幀都是航拍大片

親子要聞

看劇游園兩不誤，春節(jié)到馬蘭花劇場(chǎng)解鎖親子遛娃新方式

中韓萌娃跟著姥姥姥爺趕大集

這小哥仨真快樂(lè)，今天見(jiàn)到小表弟途途

自從有了倆雙胞胎，我這家庭地位直線(xiàn)下降啊

人類(lèi)幼崽拜年，主打一個(gè)出其不意（胡言亂語(yǔ)）！ #睡個(gè)好覺(jué)

旅游要聞

別跑空！五朵山五峰區(qū)臨時(shí)關(guān)閉！

新春走基層 | 雨林徒步正改變著第56個(gè)民族

昆明“日落山海農(nóng)場(chǎng)”成春節(jié)打卡新地標(biāo)

假期樂(lè)享濱海樂(lè)趣儋州新英灣趕海忙

數(shù)碼要聞

摩爾線(xiàn)程自研筆記本引老外關(guān)注！首發(fā)“長(zhǎng)江”處理器 Linux/安卓/Windows隨心切換

英國(guó)硬盤(pán)價(jià)格高得讓人飛到美國(guó)購(gòu)買(mǎi)：跨越半個(gè)地球竟省一大筆錢(qián)

小米5000mAh金沙江磁吸充電寶有望推橙色版，6毫米“業(yè)內(nèi)最薄”

古爾曼：庫(kù)克近期頻頻提及視覺(jué)智能，蘋(píng)果押注AI可穿戴設(shè)備新品

公開(kāi)課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會(huì)要降低老年人門(mén)檻

為什么人類(lèi)有不同的膚色？

古代的馬真能日行八百里嗎

李彥宏：百度離破產(chǎn)30天

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

在參與OpenAI、Google、Amazon的50個(gè)AI項(xiàng)目后，他們總結(jié)出了大多數(shù)AI產(chǎn)品失敗的原因

騰訊字節(jié)，“火拼”漫劇

哈登版騎士首敗：雷霆的冠軍課

谷愛(ài)凌奶奶去世，谷愛(ài)凌淚奔

結(jié)婚五金邁入10萬(wàn)大關(guān) 年輕人結(jié)婚更難了

續(xù)航1810km！smart精靈#6 EHD超級(jí)電混2026年上市

態(tài)度原創(chuàng)

春花齊放2026：《駿馬奔騰迎新歲》

看劇游園兩不誤，春節(jié)到馬蘭花劇場(chǎng)解鎖親子遛娃新方式

摩爾線(xiàn)程自研筆記本引老外關(guān)注！首發(fā)“長(zhǎng)江”處理器 Linux/安卓/Windows隨心切換