
編譯|宇琪
借助 Coding Agent 等工具,如今構(gòu)建一個(gè) AI 產(chǎn)品的技術(shù)門(mén)檻和啟動(dòng)成本已急劇降低。一夜之間,將想法變?yōu)榭山换サ脑妥兊们八从械娜菀住5粋€(gè)刺眼的矛盾也隨之浮現(xiàn):大多數(shù) AI 產(chǎn)品仍在走向失敗。如果技術(shù)實(shí)現(xiàn)不再是瓶頸,那么問(wèn)題究竟出在哪里?
Aishwarya Naresh Reganti 和 Kiriti Badam 曾在 OpenAI、Google、Amazon、Databricks 等公司參與構(gòu)建并成功推出了 50 多個(gè)企業(yè)級(jí) AI 產(chǎn)品。最近,他們?cè)诓タ凸?jié)目中,與主持人 Lenny 細(xì)致分享了當(dāng)前 AI 產(chǎn)品開(kāi)發(fā)中的常見(jiàn)陷阱與成功路徑。基于該播客視頻,InfoQ 進(jìn)行了部分刪改。
核心觀點(diǎn)如下:
今天構(gòu)建的成本已經(jīng)非常低了,真正昂貴的是設(shè)計(jì),是你是否真正想清楚了產(chǎn)品要解決什么痛點(diǎn)。對(duì)問(wèn)題本身和產(chǎn)品設(shè)計(jì)的執(zhí)著,是被低估的,而單純追求“快點(diǎn)做出來(lái)”,是被高估的。
AI 不是答案,而是解決問(wèn)題的工具。
領(lǐng)導(dǎo)者需要重新回到“親自上手”的狀態(tài),并不是要他們親自實(shí)現(xiàn)系統(tǒng),而是為了重建判斷力,接受“我的直覺(jué)可能不再完全正確”這一事實(shí)。
“忙碌但無(wú)效”的工作時(shí)代正在結(jié)束,你不可能再躲在角落里做對(duì)公司沒(méi)有實(shí)質(zhì)影響的事,而必須思考端到端的流程,以及如何創(chuàng)造更大的影響。
在這個(gè)數(shù)據(jù)隨時(shí)告訴你“你大概率會(huì)失敗”的時(shí)代,保留一點(diǎn)愚蠢的勇氣很重要。
AI 產(chǎn)品構(gòu)建中的挑戰(zhàn)
Lenny:目前 AI 產(chǎn)品構(gòu)建的情況是怎樣的?哪些進(jìn)展順利,哪些地方問(wèn)題依舊明顯?
Aishwarya:首先,懷疑態(tài)度明顯減少。2024 年還有很多領(lǐng)導(dǎo)者認(rèn)為 AI 可能只是又一波“加密貨幣式”的泡沫,因此遲遲不愿真正投入。當(dāng)時(shí)我看到的很多所謂“AI 用例”,更像僅僅是“在你自己的數(shù)據(jù)上套一層 Snapchat 濾鏡”。
而 2025 年,很多公司開(kāi)始真正反思用戶(hù)體驗(yàn)和業(yè)務(wù)流程,逐漸意識(shí)到:如果想構(gòu)建成功的 AI 產(chǎn)品,必須先拆解現(xiàn)有流程,再重新構(gòu)建。而消極的一面在于,執(zhí)行依然非常混亂。這個(gè)領(lǐng)域只有三年左右的歷史,沒(méi)有成熟的方法論,也沒(méi)有教材,大家基本都是邊走邊學(xué)。
同時(shí),AI 產(chǎn)品的生命周期與傳統(tǒng)軟件截然不同。這導(dǎo)致了以往在 PM、工程師、數(shù)據(jù)團(tuán)隊(duì)之間形成的分工被打破。過(guò)去,PM、工程師各自?xún)?yōu)化各自的指標(biāo);現(xiàn)在,大家可能需要坐在同一間會(huì)議室里,一起看 agent 的執(zhí)行軌跡,共同決定產(chǎn)品應(yīng)該如何表現(xiàn)。這種協(xié)作更緊密,也更復(fù)雜。
Lenny:你之前說(shuō)構(gòu)建 AI 產(chǎn)品與構(gòu)建非 AI 產(chǎn)品本質(zhì)上非常不同,能具體談?wù)剢幔?/strong>
Aishwarya:構(gòu)建 AI 系統(tǒng)和傳統(tǒng)軟件系統(tǒng)之間確實(shí)存在大量相似之處,但也有一些根本性的差異,足以改變你構(gòu)建產(chǎn)品的方式。其中一個(gè)經(jīng)常被忽視的核心差異,是“非確定性”。
與傳統(tǒng)軟件相比,你幾乎是在與一個(gè)非確定性的 API 打交道。在傳統(tǒng)軟件中,決策引擎和流程往往是清晰、可預(yù)測(cè)的。以 Booking.com 為例:你有一個(gè)明確意圖,比如在舊金山訂兩晚酒店,系統(tǒng)通過(guò)一系列按鈕、選項(xiàng)和表單,把你的意圖轉(zhuǎn)化為具體操作,最終完成目標(biāo)。
但在 AI 產(chǎn)品中,這一層被一種高度流動(dòng)的、以自然語(yǔ)言為主的界面所取代。用戶(hù)可以用無(wú)數(shù)種方式表達(dá)同一個(gè)意圖,這意味著你無(wú)法預(yù)判用戶(hù)的輸入行為。而在輸出端,你面對(duì)的是一個(gè)概率性的、非確定性的 LLM,它對(duì)提示詞極其敏感,本質(zhì)上還是一個(gè)黑箱。你既無(wú)法完全預(yù)測(cè)用戶(hù)會(huì)如何使用產(chǎn)品,也無(wú)法確定模型會(huì)給出怎樣的回應(yīng)。
因此,你同時(shí)面對(duì)輸入、輸出和中間過(guò)程三方面的不確定性,只能在有限理解的基礎(chǔ)上去預(yù)判行為并進(jìn)行設(shè)計(jì)。到了 Agent 系統(tǒng),這種復(fù)雜性會(huì)進(jìn)一步放大。
這也引出了第二個(gè)關(guān)鍵差異:代理性與控制權(quán)之間的權(quán)衡。很多人執(zhí)著于構(gòu)建高度自治的系統(tǒng),希望 Agent 能替人完成所有工作。但每當(dāng)你把決策權(quán)交給 AI,你就必然放棄一部分控制權(quán)。因此,只有當(dāng)系統(tǒng)足夠可靠、足以贏得信任時(shí),才值得賦予它更高的自治能力。這正是“代理性—控制權(quán)權(quán)衡”的核心:自治越高,控制越少,而信任必須通過(guò)時(shí)間和表現(xiàn)來(lái)積累。
Kiriti:類(lèi)比登山:如果你的目標(biāo)是攀登一座高峰,你不會(huì)第一天就直接沖頂,而是先進(jìn)行基礎(chǔ)訓(xùn)練,逐步提升能力,最終才接近目標(biāo)。
構(gòu)建 AI 產(chǎn)品也是如此。你不應(yīng)該在第一天就打造一個(gè)擁有公司全部工具和上下文的全能 Agent,并期待它能正常工作。正確的做法,是刻意從影響范圍小、人工控制強(qiáng)的場(chǎng)景開(kāi)始,逐步理解當(dāng)前能力邊界,再慢慢增加自治性、減少人工干預(yù)。
這樣做的好處在于,你會(huì)逐漸建立信心,清楚 AI 能解決問(wèn)題的哪一部分,以及接下來(lái)需要引入哪些上下文和工具來(lái)改進(jìn)體驗(yàn)。好的一面是,你不必一開(kāi)始就面對(duì)復(fù)雜而炫目的 Agent 體系;挑戰(zhàn)在于,你必須接受“循序漸進(jìn)”的現(xiàn)實(shí)。但幾乎所有成功的案例,都是從極簡(jiǎn)結(jié)構(gòu)起步,再不斷演化而來(lái)的。
Lenny:你們一直強(qiáng)調(diào)“從低自治、高控制開(kāi)始”,再逐步升級(jí)。能否用一個(gè)具體例子說(shuō)明這種路徑?
Kiriti:客戶(hù)支持是一個(gè)非常典型的場(chǎng)景。我們?cè)诎l(fā)布產(chǎn)品時(shí)也經(jīng)歷過(guò)類(lèi)似情況,隨著新功能上線(xiàn),支持請(qǐng)求會(huì)突然激增,而且問(wèn)題類(lèi)型非常多樣。
一開(kāi)始,并不是把所有支持中心文章一股腦塞進(jìn) Agent 就完事了。更合理的第一步,是讓 AI 為人工客服提供建議,由人類(lèi)判斷哪些建議是有用的、哪些是無(wú)效的。通過(guò)這個(gè)反饋回路,你可以識(shí)別系統(tǒng)的盲點(diǎn)并進(jìn)行修正。
當(dāng)你建立起足夠信心后,才可以讓 AI 直接向用戶(hù)展示答案。接著,再逐步增加復(fù)雜能力,例如自動(dòng)退款、創(chuàng)建功能請(qǐng)求等。如果在第一天就把這些能力全部交給 Agent,系統(tǒng)復(fù)雜度會(huì)迅速失控。因此,我們始終建議按階段構(gòu)建,逐步提升自治水平。
Lenny:一開(kāi)始是高控制、低自治,AI 只給建議,最終決策仍由人來(lái)做;當(dāng)系統(tǒng)被驗(yàn)證可靠后,逐漸賦予更多自治權(quán),同時(shí)減少人工干預(yù)。只要這一階段進(jìn)展順利,就可以繼續(xù)向前推進(jìn)。
Aishwarya:從更宏觀的角度看,AI 系統(tǒng)的核心在于“行為校準(zhǔn)”。你幾乎不可能在一開(kāi)始就準(zhǔn)確預(yù)測(cè)系統(tǒng)行為,因此關(guān)鍵在于避免破壞用戶(hù)體驗(yàn)和信任。做法是,在不影響體驗(yàn)的前提下,逐步減少人工控制,并以不同方式約束自治邊界。
以醫(yī)療保險(xiǎn)預(yù)授權(quán)為例,某些低風(fēng)險(xiǎn)項(xiàng)目,比如血液檢測(cè)或 MRI,只要患者信息齊全,就可以由 AI 自動(dòng)審批;而高風(fēng)險(xiǎn)項(xiàng)目,如侵入性手術(shù),則必須保留人工審核。在這個(gè)過(guò)程中,你還需要持續(xù)記錄人類(lèi)的決策行為,構(gòu)建反饋飛輪,用于不斷優(yōu)化系統(tǒng)。這樣既不會(huì)損害用戶(hù)體驗(yàn),也不會(huì)削弱信任,同時(shí)還能讓系統(tǒng)持續(xù)進(jìn)化。
Lenny:你還給出過(guò)一些很好的分階段示例,比如 Coding Agent:第一階段只做行內(nèi)補(bǔ)全和樣板代碼建議;第二階段生成測(cè)試或重構(gòu)代碼供人審查;第三階段則可以自動(dòng)提交 PR。營(yíng)銷(xiāo)助手也是類(lèi)似路徑:從文案草稿,到完整活動(dòng)執(zhí)行,再到自動(dòng) A/B 測(cè)試和跨渠道優(yōu)化。
Aishwarya:換個(gè)角度看,這種非確定性其實(shí)也是 AI 最迷人的地方。相比點(diǎn)擊復(fù)雜的按鈕,人類(lèi)更習(xí)慣用語(yǔ)言交流,這大大降低了使用門(mén)檻。但問(wèn)題在于,人類(lèi)表達(dá)意圖的方式極其多樣,而你往往需要在非確定性的技術(shù)之上,達(dá)成確定性的業(yè)務(wù)結(jié)果,這正是復(fù)雜性的來(lái)源。
Lenny:所以,當(dāng)人們一上來(lái)就想直接跳到第三階段,往往會(huì)陷入困境:系統(tǒng)既難以構(gòu)建,也不可靠,最終只能被判定為失敗。
Kiriti:在達(dá)到高度自治之前,你需要對(duì)系統(tǒng)能力建立足夠信心。如果一開(kāi)始就從錯(cuò)誤的切入點(diǎn)出發(fā),你會(huì)面對(duì)成百上千種錯(cuò)誤,卻根本無(wú)從修復(fù)。
從小規(guī)模、低自治開(kāi)始,不僅降低風(fēng)險(xiǎn),也會(huì)迫使你認(rèn)真思考“我要解決的到底是什么問(wèn)題”。在 AI 快速發(fā)展的環(huán)境下,人們很容易沉迷于復(fù)雜解法,而忽視真正的問(wèn)題本身。通過(guò)逐步提高自治層級(jí),你可以清晰地拆解問(wèn)題,并為未來(lái)擴(kuò)展做好準(zhǔn)備。
Aishwarya:我最近讀到一篇研究指出,約 75% 的企業(yè)認(rèn)為“可靠性”是他們?cè)?AI 項(xiàng)目中面臨的最大問(wèn)題,這也是他們遲遲不敢將 AI 產(chǎn)品直接面向用戶(hù)的重要原因。正因如此,目前很多 AI 產(chǎn)品更多集中在提升生產(chǎn)力,而不是徹底替代端到端流程。
Lenny:在這期節(jié)目之前,我們還錄了一期,專(zhuān)門(mén)深入討論了提示注入(prompt injection)和越獄(jailbreaking)。在那期討論里,我們意識(shí)到這對(duì) AI 產(chǎn)品來(lái)說(shuō)幾乎是一個(gè)“生存級(jí)風(fēng)險(xiǎn)”:它可能既沒(méi)有成熟解法,甚至在理論上也很難被徹底解決。
Aishwarya:一旦 AI 系統(tǒng)真正進(jìn)入主流應(yīng)用,這會(huì)成為一個(gè)非常嚴(yán)重的問(wèn)題。現(xiàn)在大家還忙著把 AI 產(chǎn)品做出來(lái),很少有人認(rèn)真對(duì)待安全性,但這遲早會(huì)爆發(fā)。尤其是在面對(duì)非確定性 API 的情況下,你幾乎無(wú)法完全防范。
Lenny:我們當(dāng)時(shí)聊到的一個(gè)核心問(wèn)題是:要誘導(dǎo) AI 去做“不該做的事”,其實(shí)并不難。雖然大家都在構(gòu)建各種護(hù)欄系統(tǒng),但事實(shí)證明,這些護(hù)欄并不牢靠,總能被繞過(guò)。而正如你所說(shuō),當(dāng) Agent 越來(lái)越自治、甚至進(jìn)入機(jī)器人系統(tǒng)時(shí),這種風(fēng)險(xiǎn)會(huì)被成倍放大,確實(shí)讓人感到不安。
Kiriti:我同意這是一個(gè)真實(shí)存在的問(wèn)題。不過(guò)從當(dāng)前 AI 在企業(yè)中的采用階段來(lái)看,大多數(shù)公司甚至還沒(méi)真正走到能充分獲益的程度。2025 年確實(shí)是 AI Agent 和企業(yè)嘗試落地 AI 的一個(gè)高峰期,但整體滲透率依然不高,很多流程還遠(yuǎn)未被真正改造。
在這種情況下,只要在關(guān)鍵節(jié)點(diǎn)引入“人在回路”(human-in-the-loop),其實(shí)可以規(guī)避相當(dāng)一部分風(fēng)險(xiǎn)。我個(gè)人更偏向樂(lè)觀的一側(cè):與其一開(kāi)始就被潛在的負(fù)面場(chǎng)景嚇退,不如先嘗試去落地、去使用。我們?cè)?OpenAI 接觸過(guò)的企業(yè)中,幾乎沒(méi)有人會(huì)說(shuō)“AI 在這里完全幫不上忙”,更多是發(fā)現(xiàn)它能在某些具體環(huán)節(jié)上帶來(lái)優(yōu)化,然后再思考如何逐步采用。
Lenny:有哪些成功構(gòu)建 AI 產(chǎn)品的模式和工作方式?
Aishwarya:我們合作過(guò)的成功公司,通常都具備三個(gè)維度:優(yōu)秀的領(lǐng)導(dǎo)者、健康的文化,以及持續(xù)推進(jìn)的技術(shù)能力。
首先是領(lǐng)導(dǎo)者。我們參與過(guò)不少企業(yè)的 AI 轉(zhuǎn)型、培訓(xùn)和戰(zhàn)略制定。很多領(lǐng)導(dǎo)者過(guò)去十到十五年積累的直覺(jué),正是他們成功的基礎(chǔ),但在 AI 出現(xiàn)之后,這些直覺(jué)往往需要被重新學(xué)習(xí)。領(lǐng)導(dǎo)者必須愿意承認(rèn)這一點(diǎn),甚至需要一定程度的“脆弱感”。我曾和 Rackspace 現(xiàn)任 CEO Gajen 共事。他每天清晨都會(huì)預(yù)留一個(gè)固定時(shí)段,專(zhuān)門(mén)用來(lái)“補(bǔ)課 AI”——聽(tīng)播客、看最新資料,甚至在周末做白板推演。領(lǐng)導(dǎo)者需要重新回到“親自上手”的狀態(tài),并不是要他們親自實(shí)現(xiàn)系統(tǒng),而是為了重建判斷力,接受“我的直覺(jué)可能不再完全正確”這一事實(shí)。很多真正成功的團(tuán)隊(duì),正是從這種自上而下的轉(zhuǎn)變開(kāi)始的。AI 幾乎不可能靠純粹的自下而上推動(dòng),如果領(lǐng)導(dǎo)層對(duì)技術(shù)缺乏信任,或者對(duì)能力邊界有誤判,整個(gè)組織都會(huì)受限。
第二個(gè)維度是文化。在傳統(tǒng)企業(yè)中,AI 往往不是核心業(yè)務(wù),但因?yàn)楦?jìng)爭(zhēng)對(duì)手在用、因?yàn)榇_實(shí)存在可行用例,企業(yè)不得不引入 AI。在這個(gè)過(guò)程中,恐慌文化非常常見(jiàn),比如“FOMO”“你會(huì)被 AI 取代”等說(shuō)法。問(wèn)題在于,真正做出好 AI 產(chǎn)品,極度依賴(lài)領(lǐng)域?qū)<遥坏芏鄬?zhuān)家卻拒絕參與,因?yàn)樗麄儞?dān)心自己的崗位被替代。這時(shí),領(lǐng)導(dǎo)者需要建立一種“賦能型文化”,強(qiáng)調(diào) AI 是用來(lái)增強(qiáng)個(gè)人能力、放大產(chǎn)出的工具,而不是威脅。只有這樣,組織才會(huì)形成合力,而不是人人自危。事實(shí)上,AI 往往會(huì)創(chuàng)造更多機(jī)會(huì),讓員工做更多、更高價(jià)值的事情。
第三個(gè)維度才是技術(shù)本身。成功的團(tuán)隊(duì)通常對(duì)自身工作流有近乎執(zhí)念般的理解,清楚哪些環(huán)節(jié)適合 AI,哪些地方必須有人參與。幾乎不存在“一個(gè) AI Agent 解決一切”的情況。通常是機(jī)器學(xué)習(xí)模型負(fù)責(zé)一部分,確定性代碼負(fù)責(zé)另一部分。因此,關(guān)鍵不在于迷信技術(shù),而在于為每個(gè)問(wèn)題選擇合適的工具。
此外,這些團(tuán)隊(duì)也非常清楚自己在和一個(gè)非確定性的 API 打交道,因此會(huì)以完全不同的節(jié)奏推進(jìn)開(kāi)發(fā)。他們迭代得非常快,但前提是不破壞用戶(hù)體驗(yàn),同時(shí)快速建立反饋飛輪。如今的競(jìng)爭(zhēng)焦點(diǎn),并不是誰(shuí)最早上線(xiàn) Agent,而是誰(shuí)最早構(gòu)建起持續(xù)改進(jìn)的機(jī)制。凡是有人告訴我,“一個(gè) Agent,兩三天就能在你系統(tǒng)里跑出顯著收益”,我都會(huì)非常懷疑。這不是模型能力的問(wèn)題,而是企業(yè)數(shù)據(jù)和基礎(chǔ)設(shè)施本身就極其混亂。大量技術(shù)債、混亂的接口和命名方式,都需要時(shí)間去消化。真正能產(chǎn)生顯著 ROI,通常至少需要四到六個(gè)月,即便你擁有最好的數(shù)據(jù)和基礎(chǔ)設(shè)施。
Lenny:有些人認(rèn)為評(píng)測(cè)(eval)是解決 AI 問(wèn)題的關(guān)鍵,有些人則覺(jué)得它被嚴(yán)重高估,只要“感覺(jué)對(duì)了”就行。你們?cè)趺纯?eval?它在多大程度上真的能解決你們提到的那些問(wèn)題?
Kiriti:我覺(jué)得大家陷入了一種錯(cuò)誤的二元對(duì)立:要么 eval 能解決一切,要么線(xiàn)上監(jiān)控能解決一切。eval 本質(zhì)上,是把你對(duì)產(chǎn)品的理解、你的價(jià)值判斷,編碼進(jìn)一組數(shù)據(jù)集:什么是重要的,什么是絕對(duì)不能發(fā)生的。而生產(chǎn)環(huán)境監(jiān)控,則是在產(chǎn)品上線(xiàn)后,通過(guò)關(guān)鍵指標(biāo)和用戶(hù)行為,反饋真實(shí)使用情況。
這種監(jiān)控并不新鮮,但在 AI Agent 場(chǎng)景下,顆粒度變得更細(xì)了。除了顯式反饋,比如點(diǎn)贊、點(diǎn)踩,還有大量隱式信號(hào)。例如用戶(hù)不點(diǎn)踩,但反復(fù)要求重新生成回答,這本身就是強(qiáng)烈的負(fù)面反饋。
真正的問(wèn)題不在于“選哪個(gè)”,而在于你想解決什么。如果你的目標(biāo)是構(gòu)建一個(gè)可靠系統(tǒng),那么上線(xiàn)前必須有底線(xiàn)測(cè)試,這可以是一小組關(guān)鍵問(wèn)題,確保無(wú)論如何都不能出錯(cuò)。上線(xiàn)之后,你不可能人工檢查所有交互軌跡,這時(shí)就需要監(jiān)控來(lái)提示你哪里出了問(wèn)題。當(dāng)你發(fā)現(xiàn)新的失敗模式,再反過(guò)來(lái)構(gòu)建新的 eval 集。這個(gè)循環(huán)缺一不可。認(rèn)為“只靠其中一種就夠了”,在我看來(lái)是站不住腳的。
Aishwarya:我想稍微退一步,談?wù)劄槭裁础癳val”這個(gè)詞在 2025 年下半年被賦予了如此沉重的含義。你去找數(shù)據(jù)標(biāo)注公司,他們說(shuō)專(zhuān)家在寫(xiě) eval;有人說(shuō) PM 應(yīng)該寫(xiě) eval,它們就是新的 PRD;還有人說(shuō) eval 本身就是產(chǎn)品改進(jìn)所需的完整反饋回路。對(duì)初學(xué)者來(lái)說(shuō),這非常混亂。
事實(shí)上,大家說(shuō)的都不完全錯(cuò),但指向的是不同層面的事情。律師和醫(yī)生寫(xiě)的“評(píng)估”,并不等于他們?cè)跇?gòu)建 LLM judge;PM 寫(xiě) eval,也不意味著要寫(xiě)一個(gè)可直接上線(xiàn)的評(píng)判模型。很多時(shí)候,你事前根本無(wú)法判斷是否需要 LLM judge,還是只依賴(lài)生產(chǎn)環(huán)境的用戶(hù)信號(hào)。
Martin Fowler 曾提出過(guò)“語(yǔ)義擴(kuò)散”這個(gè)概念:一個(gè)詞被發(fā)明出來(lái),隨后被不斷濫用,最終失去精確定義。我認(rèn)為 eval 正處在這個(gè)階段。不同人看到的是它的不同側(cè)面。但如果你讓一群實(shí)踐者坐在一起問(wèn):“AI 產(chǎn)品是否需要一個(gè)可執(zhí)行的反饋回路?”他們一定都會(huì)點(diǎn)頭。至于怎么做,完全取決于具體場(chǎng)景。復(fù)雜用例下,盲目構(gòu)建評(píng)判模型往往得不償失,這時(shí)回到用戶(hù)信號(hào)、快速修復(fù)、確認(rèn)是否回退,反而更有效。最終,所有資深從業(yè)者都會(huì)告訴你一句話(huà):一切取決于上下文,不要迷信固定方法論。
Lenny:現(xiàn)在“eval”已經(jīng)變成一個(gè)可以指代無(wú)數(shù)不同東西的詞,既包括標(biāo)注、基準(zhǔn)測(cè)試,也包括反饋機(jī)制,討論起來(lái)反而更混亂了。
Aishwarya:我最近就遇到一個(gè)客戶(hù),說(shuō)他們“在做 eval”。我問(wèn)能不能看看數(shù)據(jù)集,他們說(shuō)只是看了 LLM Arena 和一些第三方榜單,就選了模型。我只能說(shuō),那不是 eval,那只是模型對(duì)比。
Lenny:Claude Code 的負(fù)責(zé)人 Boris 曾公開(kāi)表示:“我們?cè)?Claude Code 里不做 eval,一切靠感覺(jué)(vibes)。”能不能請(qǐng)你分享一下,Codex 以及 Codex 團(tuán)隊(duì)在 eval 這件事上的具體做法?
Kiriti:在 Codex,我們采取的是一種相對(duì)平衡的方式:eval 是必要的,但同時(shí)必須高度重視用戶(hù)反饋。我們?cè)诋a(chǎn)品上極度強(qiáng)調(diào)“把正確的產(chǎn)品做出來(lái)”,而其中非常重要的一部分,就是認(rèn)真傾聽(tīng)用戶(hù)的聲音。
Coding Agent 和其他領(lǐng)域的 Agent 有一個(gè)本質(zhì)差異:它們是為“可定制性”和“工程師”而生的。Coding Agent 并不是只解決五六個(gè)固定工作流的產(chǎn)品,而是需要以多種方式被定制和擴(kuò)展。這意味著,產(chǎn)品會(huì)被嵌入到各種不同的集成環(huán)境、工具鏈和使用場(chǎng)景中。在這種前提下,幾乎不可能為用戶(hù)的所有交互方式提前構(gòu)建一個(gè)完備的 eval 數(shù)據(jù)集。
但與此同時(shí),你仍然需要確保,每一次改動(dòng)至少不會(huì)破壞產(chǎn)品中那些最核心的能力。因此,我們確實(shí)會(huì)用 eval 來(lái)守住這些“底線(xiàn)”。同時(shí),我們也投入大量精力去理解用戶(hù)真實(shí)的使用方式。舉個(gè)例子,我們最近推出了一個(gè)代碼審查產(chǎn)品,增長(zhǎng)非常快,既幫 OpenAI 內(nèi)部發(fā)現(xiàn)了大量問(wèn)題,也被外部客戶(hù)廣泛使用。如果我對(duì)代碼審查相關(guān)的模型、或訓(xùn)練時(shí)采用的強(qiáng)化學(xué)習(xí)機(jī)制做了調(diào)整,在上線(xiàn)之前,我一定會(huì)通過(guò) A/B 測(cè)試來(lái)驗(yàn)證:它是否還能準(zhǔn)確找出關(guān)鍵問(wèn)題,用戶(hù)對(duì)結(jié)果的反應(yīng)如何。
有時(shí),用戶(hù)一旦被錯(cuò)誤的代碼提示反復(fù)打擾,甚至?xí)苯雨P(guān)閉這個(gè)功能。你需要確保,新版本確實(shí)在“做對(duì)的事情”。但老實(shí)說(shuō),很多這類(lèi)場(chǎng)景在事前是很難預(yù)判的,也很難提前為它們構(gòu)建對(duì)應(yīng)的 eval 數(shù)據(jù)集。因此,這里面既有一定的“vibes 判斷”,也有大量來(lái)自真實(shí)用戶(hù)的反饋。我們會(huì)非常主動(dòng)地關(guān)注社交媒體,看看是否有人遇到特定問(wèn)題,并盡快修復(fù)。
我并不認(rèn)為有一套萬(wàn)無(wú)一失的 eval 指標(biāo),可以完全依賴(lài)它,其他什么都不用管。每當(dāng)我們要發(fā)布一個(gè)新模型,團(tuán)隊(duì)都會(huì)聚在一起做集中測(cè)試,每個(gè)人關(guān)注不同的重點(diǎn)。我們手里有一份“高難度問(wèn)題清單”,會(huì)把這些問(wèn)題交給新模型,觀察它的表現(xiàn)。這更像是每位工程師都有一套針對(duì)自身關(guān)注點(diǎn)的定制 eval,用來(lái)幫助大家理解:在這個(gè)新模型下,產(chǎn)品到底發(fā)生了什么變化。
CC/CD 框架
Aishwarya:我們接觸過(guò)大量公司,它們都承受著來(lái)自競(jìng)爭(zhēng)對(duì)手的壓力,因?yàn)椤八腥硕荚谧?Agent”,于是覺(jué)得自己也必須構(gòu)建一個(gè)完全自治的 Agent。但很快發(fā)現(xiàn)一個(gè)問(wèn)題:在一開(kāi)始,你根本無(wú)法預(yù)知用戶(hù)會(huì)如何與系統(tǒng)交互,也無(wú)法預(yù)判 AI 會(huì)給出哪些響應(yīng)或采取哪些行動(dòng)。當(dāng)你的工作流包含四五個(gè)步驟、需要連續(xù)做出大量決策時(shí),問(wèn)題一旦出現(xiàn),就會(huì)變得極其難以修復(fù),結(jié)果往往是無(wú)休止的調(diào)試和熱修復(fù)。
我們?cè)鵀橐粋€(gè)客服場(chǎng)景構(gòu)建系統(tǒng),后來(lái),因?yàn)闊嵝迯?fù)多到失控,新的問(wèn)題層出不窮,這個(gè)產(chǎn)品不得不被下線(xiàn)。與此同時(shí),行業(yè)里也發(fā)生了不少令人警惕的事件,比如前段時(shí)間 Air Canada 的一個(gè) Agent“臆造”了一條并不存在的退款政策,而公司因?yàn)榉稍虿坏貌唤邮苓@個(gè)結(jié)果。這類(lèi)案例讓人意識(shí)到:如果設(shè)計(jì)不當(dāng),AI 系統(tǒng)可能會(huì)對(duì)企業(yè)本身造成非常嚴(yán)重的風(fēng)險(xiǎn)。
正是在這樣的背景下,我們開(kāi)始思考:如何在不失去用戶(hù)信任的前提下構(gòu)建系統(tǒng),同時(shí)又能形成一個(gè)持續(xù)改進(jìn)的飛輪?這就是“CC/CD(Continuous Calibration, Continuous Development 持續(xù)校準(zhǔn)、持續(xù)開(kāi)發(fā))”框架的出發(fā)點(diǎn)。
![]()
循環(huán)的一側(cè)是“持續(xù)開(kāi)發(fā)”。你先界定能力邊界,整理數(shù)據(jù),明確系統(tǒng)的預(yù)期輸入和預(yù)期輸出。在真正動(dòng)手之前,這一步本身就非常有價(jià)值,因?yàn)樗3?huì)暴露出團(tuán)隊(duì)內(nèi)部對(duì)“產(chǎn)品該如何表現(xiàn)”的理解并不一致。此時(shí),產(chǎn)品經(jīng)理和領(lǐng)域?qū)<业膮⑴c尤為關(guān)鍵。你并不需要一個(gè)覆蓋所有情況的數(shù)據(jù)集,而是一個(gè)“足夠好”的起點(diǎn)。接下來(lái),搭建應(yīng)用,并設(shè)計(jì)評(píng)估維度。我刻意使用“評(píng)估指標(biāo)”這個(gè)說(shuō)法,而不是簡(jiǎn)單地說(shuō) eval,是因?yàn)樵u(píng)估是一種過(guò)程,而指標(biāo)只是你在過(guò)程中重點(diǎn)關(guān)注的維度。
另一側(cè)是“持續(xù)校準(zhǔn)”。當(dāng)系統(tǒng)上線(xiàn)后,你一定會(huì)看到大量最初未曾預(yù)料到的用戶(hù)行為模式。評(píng)估指標(biāo)可以幫助你發(fā)現(xiàn)一部分問(wèn)題,但很快你會(huì)意識(shí)到,它們同樣不足以覆蓋所有新出現(xiàn)的錯(cuò)誤模式。這時(shí),你需要分析真實(shí)行為,識(shí)別新的錯(cuò)誤類(lèi)型,一部分問(wèn)題可以直接修復(fù),而另一部分則需要催生新的評(píng)估指標(biāo)。這并不意味著每一個(gè)錯(cuò)誤都要轉(zhuǎn)化為新的 eval 維度。有些只是偶發(fā)問(wèn)題,比如工具定義不清導(dǎo)致的調(diào)用錯(cuò)誤,修完即可繼續(xù)前進(jìn)。
整體來(lái)看,這就是一個(gè) AI 產(chǎn)品的典型生命周期。我們還特別強(qiáng)調(diào),在迭代初期,應(yīng)當(dāng)采用“低自治、高控制”的方式:限制系統(tǒng)可做的決策數(shù)量,引入人在回路;隨著理解加深,再逐步提高自治程度。這樣做的本質(zhì),是在逐步建立對(duì)系統(tǒng)行為的認(rèn)知飛輪。
![]()
以客服 Agent 為例,我們通常會(huì)把演進(jìn)過(guò)程拆成三個(gè)階段。第一階段只是“路由”,即判斷工單該被分配到哪個(gè)部門(mén)。很多人會(huì)低估這個(gè)問(wèn)題的復(fù)雜度,但在大型企業(yè)里,路由往往異常困難。層級(jí)混亂、分類(lèi)標(biāo)準(zhǔn)失序的情況非常普遍,人類(lèi)客服往往依賴(lài)大量隱性經(jīng)驗(yàn)才能做出判斷,而這些規(guī)則通常并未被文檔化。如果直接把問(wèn)題丟給 Agent,而不給足上下文,風(fēng)險(xiǎn)就會(huì)非常高。在路由階段,即便 Agent 分錯(cuò)了部門(mén),人類(lèi)也可以介入糾正,控制風(fēng)險(xiǎn)。同時(shí),這個(gè)階段往往會(huì)暴露出大量數(shù)據(jù)問(wèn)題,需要優(yōu)先修復(fù)。
等路由穩(wěn)定之后,下一步是“副駕駛”:Agent 根據(jù)既有的標(biāo)準(zhǔn)操作流程生成回復(fù)草稿,由人工修改和確認(rèn)。在這個(gè)過(guò)程中,你會(huì)自動(dòng)記錄人類(lèi)的修改行為,從而幾乎“免費(fèi)”獲得誤差分析數(shù)據(jù),并將其反饋到系統(tǒng)中。當(dāng)你發(fā)現(xiàn),大多數(shù)情況下人工已經(jīng)不需要做太多修改時(shí),才可以進(jìn)入端到端的自動(dòng)處理階段,讓 Agent 既生成回復(fù),也完成問(wèn)題的解決。這正是從低自治逐步走向高自治的過(guò)程。
![]()
我們還整理了一張表,明確每個(gè)階段你在做什么、能學(xué)到什么,以及這些信息如何被反饋回系統(tǒng)。需要強(qiáng)調(diào)的是,采用 CC/CD 并不意味著問(wèn)題會(huì)一次性被解決。即便已經(jīng)走到較高版本,你仍然可能遇到此前從未見(jiàn)過(guò)的數(shù)據(jù)分布。這個(gè)框架的意義,在于幫助你在完全自治之前,盡可能多地理解用戶(hù)行為,從而降低整體風(fēng)險(xiǎn)。
此外,它還隱含地幫你建立了一套行為日志體系。單純依賴(lài)評(píng)估指標(biāo),只能捕捉你“已經(jīng)知道”的錯(cuò)誤,而大量新模式,只有在真實(shí)使用中才會(huì)顯現(xiàn)出來(lái)。通過(guò)這種低風(fēng)險(xiǎn)、漸進(jìn)式的方式,你可以理解用戶(hù),而不至于在問(wèn)題全面爆發(fā)時(shí)手忙腳亂。最終,這一切的核心目標(biāo)只有一個(gè):在持續(xù)校準(zhǔn)系統(tǒng)行為的同時(shí),不斷維護(hù)并增強(qiáng)用戶(hù)對(duì)產(chǎn)品的信任。
Lenny:這套方法的核心,在于把一切都設(shè)計(jì)成持續(xù)的、可迭代的過(guò)程,沿著“自治程度不斷提高、控制逐步降低”的路徑前進(jìn)。“持續(xù)校準(zhǔn)、持續(xù)開(kāi)發(fā)”這個(gè)命名,本身就強(qiáng)調(diào)了它的迭代性。順便說(shuō)明一下,這個(gè)名字顯然是在向 CI/CD(持續(xù)集成、持續(xù)部署)致敬,只不過(guò)這是 AI 時(shí)代的對(duì)應(yīng)版本:不再只是不斷跑單元測(cè)試、頻繁部署,而是持續(xù)運(yùn)行 eval、觀察結(jié)果、調(diào)整關(guān)注的指標(biāo),找出系統(tǒng)失效的地方,再不斷迭代優(yōu)化。
在這個(gè)框架本身上,還有沒(méi)有什么你覺(jué)得特別重要、但我們還沒(méi)提到的點(diǎn)?
Aishwarya:我們最常被問(wèn)到的問(wèn)題之一是:我該如何判斷,系統(tǒng)是否已經(jīng)“校準(zhǔn)得足夠好”,可以進(jìn)入下一個(gè)階段?這件事并沒(méi)有一套明確的規(guī)則手冊(cè),核心原則只有一個(gè):盡量減少“意外”。比如說(shuō),如果你每一兩天就做一次校準(zhǔn),而發(fā)現(xiàn)沒(méi)有出現(xiàn)新的數(shù)據(jù)分布模式,用戶(hù)的行為也相當(dāng)穩(wěn)定,那你從系統(tǒng)中獲得的新信息就已經(jīng)非常有限了。這往往就是一個(gè)信號(hào),說(shuō)明你可以考慮進(jìn)入下一階段了。到了這個(gè)時(shí)候,很大程度上其實(shí)是在憑經(jīng)驗(yàn)判斷:你是否感覺(jué)自己已經(jīng)“準(zhǔn)備好了”,是否還在持續(xù)獲得新的洞察。
當(dāng)然,也要意識(shí)到,有些外部事件會(huì)徹底打亂原有的校準(zhǔn)狀態(tài)。比如 GPT-4.0 被棄用,API 層面逐步遷移到 GPT-5,而新模型的行為特性完全不同,這時(shí)你的校準(zhǔn)就會(huì)再次失效,需要重新走一遍流程。用戶(hù)行為本身也會(huì)隨時(shí)間演化。即便是消費(fèi)級(jí)產(chǎn)品,我們今天和 ChatGPT 的交互方式,也和兩年前完全不同,一方面是模型能力提升了,另一方面是用戶(hù)在某個(gè)任務(wù)上嘗到甜頭后,會(huì)自然地把系統(tǒng)用于更多新場(chǎng)景。
我們?cè)鵀殂y行的核保人員構(gòu)建過(guò)一個(gè)系統(tǒng)。核保本身是一項(xiàng)非常繁瑣的工作,貸款申請(qǐng)文件往往有三四十頁(yè)。這個(gè)系統(tǒng)的初衷,是幫助核保人員快速查找政策和內(nèi)部信息,從而更高效地審批貸款。最初三四個(gè)月,反饋都非常積極,核保人員的效率顯著提升。但隨后我們發(fā)現(xiàn),正是因?yàn)樗麄儗?duì)系統(tǒng)產(chǎn)生了信任,開(kāi)始提出一些我們從未預(yù)料到的深度問(wèn)題,比如直接把整份申請(qǐng)材料丟給系統(tǒng),問(wèn):“像這種情況,之前的核保人員通常是怎么處理的?”
從用戶(hù)角度看,這只是一個(gè)非常自然的延伸;但從產(chǎn)品構(gòu)建角度看,底層邏輯卻發(fā)生了質(zhì)變。系統(tǒng)需要理解“類(lèi)似情況”究竟指什么,再去檢索歷史案例、分析文檔,最后給出綜合判斷。這已經(jīng)遠(yuǎn)遠(yuǎn)超出了最初“查找某條政策”的設(shè)計(jì)范圍。正是這種不斷演化的用戶(hù)行為,提醒你:是時(shí)候回到校準(zhǔn)階段,重新審視系統(tǒng)能力邊界了。
AI 的未來(lái)
Lenny:當(dāng)下 AI 領(lǐng)域里,哪些東西被高估了?哪些被低估了?
Kiriti:與其說(shuō)“被高估”,不如說(shuō)有些概念被嚴(yán)重誤解。一個(gè)典型例子是多 Agent 系統(tǒng)。很多人會(huì)覺(jué)得:我有一個(gè)復(fù)雜問(wèn)題,只要拆成幾個(gè)子任務(wù),分別交給不同的 Agent,再把它們連起來(lái),就能實(shí)現(xiàn)所謂的“Agent 烏托邦”。現(xiàn)實(shí)并非如此。當(dāng)然,成功的多 Agent 系統(tǒng)確實(shí)存在,但關(guān)鍵在于,你如何限制系統(tǒng)偏離軌道的方式。
例如,用一個(gè)監(jiān)督型 Agent 來(lái)協(xié)調(diào)多個(gè)子 Agent,是一種非常成熟、有效的模式;但如果只是按功能拆分職責(zé),期望這些 Agent 通過(guò)某種“點(diǎn)對(duì)點(diǎn)協(xié)作”自然形成整體能力,那在當(dāng)前的模型能力和工程范式下,往往行不通。這并不是多 Agent 被高估,而是人們高估了它在現(xiàn)階段能“自發(fā)協(xié)同”的程度。
我覺(jué)得 Coding Agent 仍然被低估了。你在 Twitter 或 Reddit 上會(huì)看到大量討論,但你會(huì)發(fā)現(xiàn)它的真實(shí)滲透率依然很低,而潛在價(jià)值卻極大。我認(rèn)為 2026 年會(huì)是集中優(yōu)化這些流程、釋放巨大生產(chǎn)力的一段時(shí)間。
Lenny:相比預(yù)先設(shè)計(jì)一堆各司其職的 Agent,更現(xiàn)實(shí)的路徑,可能是讓一個(gè)更強(qiáng)的 Agent 自己完成任務(wù)拆解和協(xié)調(diào)?
Kiriti:沒(méi)錯(cuò)。你可以由人來(lái)編排多個(gè) Agent,也可以由一個(gè)更大的 Agent 負(fù)責(zé)統(tǒng)籌。但如果讓多個(gè) Agent 以點(diǎn)對(duì)點(diǎn)的方式自由通信,尤其是在客服這類(lèi)對(duì)輸出高度敏感的場(chǎng)景中,幾乎不可能精細(xì)地控制“到底是哪個(gè) Agent 在對(duì)用戶(hù)說(shuō)話(huà)”,護(hù)欄成本會(huì)急劇上升。
Aishwarya:我認(rèn)為 eval 是被誤解的概念。它當(dāng)然重要,但“不斷切換工具、學(xué)習(xí)新工具”這件事被高估了。我依然是比較傳統(tǒng)的看法:真正值得投入精力的,是對(duì)你要解決的業(yè)務(wù)問(wèn)題保持極度專(zhuān)注,AI 只是工具而已。你當(dāng)然需要了解最新進(jìn)展,但不要把“快速構(gòu)建”本身當(dāng)成目標(biāo)。今天構(gòu)建的成本已經(jīng)非常低了,真正昂貴的是設(shè)計(jì),是你是否真正想清楚了產(chǎn)品要解決什么痛點(diǎn)。對(duì)問(wèn)題本身和產(chǎn)品設(shè)計(jì)的執(zhí)著,是被低估的,而單純追求“快點(diǎn)做出來(lái)”,是被高估的。
Lenny:從產(chǎn)品視角看,你們覺(jué)得未來(lái)一年 AI 會(huì)走向哪里?
Kiriti:我非常看好“后臺(tái)型”或“主動(dòng)型” Agent。當(dāng)前 AI 難以持續(xù)創(chuàng)造價(jià)值,很大程度上是因?yàn)樗狈ι舷挛模蛟谟谒€沒(méi)有真正接入工作發(fā)生的地方。一旦 Agent 被更深地嵌入真實(shí)工作流,獲得更豐富的上下文,它就能理解你在優(yōu)化什么指標(biāo)、試圖完成哪些活動(dòng)。接下來(lái)順理成章的一步,就是由 Agent 主動(dòng)反過(guò)來(lái)提示你。
我們已經(jīng)在 ChatGPT Pulse 這樣的功能中看到雛形,它每天推送一些你可能關(guān)心的更新,幫助你“喚醒思路”。把這一模式擴(kuò)展到更復(fù)雜的任務(wù)中,比如 Coding Agent 在你一天開(kāi)始時(shí)告訴你:“我已經(jīng)幫你修復(fù)了五個(gè)工單,這是補(bǔ)丁,看看就行。”我認(rèn)為這會(huì)在 2026 年成為非常重要的產(chǎn)品方向。
Aishwarya:我非常期待 2026 年的多模態(tài)體驗(yàn)。2025 年我們已經(jīng)取得了不小進(jìn)展,不只是生成能力,在理解層面也是如此。但到目前為止,LLM 仍然是最常用的模型形態(tài),而人類(lèi)本身是高度多模態(tài)的。語(yǔ)言其實(shí)是我們進(jìn)化中相對(duì)靠后的表達(dá)方式。即便我們?cè)趯?duì)話(huà)中,也在不斷接收視覺(jué)、表情、語(yǔ)氣等信號(hào),并據(jù)此調(diào)整表達(dá)。如果能構(gòu)建真正豐富的多模態(tài)交互,將會(huì)更接近人類(lèi)對(duì)話(huà)的真實(shí)復(fù)雜度。
此外,還有大量“枯燥但重要”的任務(wù)等待被自動(dòng)化。如今依然有無(wú)數(shù)手寫(xiě)文檔、雜亂的 PDF,即便是最先進(jìn)的模型也難以處理。一旦多模態(tài)理解能力真正成熟,我們就能解鎖大量此前無(wú)法觸及的數(shù)據(jù)資源。
Lenny:如果有人想提升自己構(gòu)建 AI 產(chǎn)品的能力,你認(rèn)為最值得重點(diǎn)培養(yǎng)的一兩項(xiàng)技能是什么?
Aishwarya:從小處著手、快速迭代、建立正向飛輪等。但如果站在更高的視角來(lái)看,對(duì)于當(dāng)下的產(chǎn)品構(gòu)建者而言,實(shí)施成本在未來(lái)幾年會(huì)變得極低,真正稀缺的將是設(shè)計(jì)能力、判斷力和審美品位。無(wú)論是做產(chǎn)品還是規(guī)劃職業(yè)路徑,早期幾年往往專(zhuān)注于執(zhí)行層面的技術(shù)細(xì)節(jié),而隨著 AI 大幅降低上手門(mén)檻,幾年之后,每個(gè)人的價(jià)值都會(huì)更多體現(xiàn)在品味、判斷,以及那些“只屬于你”的東西上。
這種能力并不一定來(lái)自年齡或多年經(jīng)驗(yàn)。我們最近招了一位同事,團(tuán)隊(duì)一直在用一款價(jià)格不菲的任務(wù)管理工具,他卻直接帶著自己手寫(xiě)的應(yīng)用來(lái)開(kāi)會(huì),當(dāng)場(chǎng)把我們?nèi)坷M(jìn)去開(kāi)始用。那種主動(dòng)性和主人翁意識(shí),敢于重新思考既有體驗(yàn),正是最能拉開(kāi)差距的地方。當(dāng)然,這類(lèi)自建工具在規(guī)模化后可能有維護(hù)成本,需要替換或升級(jí),但在小團(tuán)隊(duì)階段,這種“先做出來(lái)再說(shuō)”的態(tài)度讓我非常震驚。很多在 AI 時(shí)代成長(zhǎng)起來(lái)的人,對(duì)“構(gòu)建”的心理成本極低,也更愿意嘗試新工具。這或許也是為什么很多 AI 產(chǎn)品存在留存問(wèn)題,大家都太容易被新工具吸引了。
歸根結(jié)底,真正重要的是主動(dòng)性和責(zé)任感。“忙碌但無(wú)效”的工作時(shí)代正在結(jié)束,你不可能再躲在角落里做對(duì)公司沒(méi)有實(shí)質(zhì)影響的事,而必須思考端到端的流程,以及如何創(chuàng)造更大的影響。
Lenny:這讓我想到我之前請(qǐng)過(guò) Jason Lemkin 上節(jié)目。他把整個(gè)銷(xiāo)售團(tuán)隊(duì)幾乎都替換成了 Agent:原來(lái) 10 個(gè)銷(xiāo)售,現(xiàn)在是 2 個(gè)人加 20 個(gè) Agent。結(jié)果有位銷(xiāo)售直接辭職了,因?yàn)樗l(fā)現(xiàn)自己“什么都沒(méi)干”,很快就會(huì)被系統(tǒng)識(shí)別出來(lái)。這也印證了你的觀點(diǎn)——混日子會(huì)越來(lái)越難。
Kiriti:堅(jiān)持和承受“痛苦”的能力同樣被嚴(yán)重低估。如今信息觸手可及,幾乎任何人都可以在極短時(shí)間內(nèi)學(xué)習(xí)新東西,但真正的差別在于,是否愿意經(jīng)歷反復(fù)試錯(cuò)的過(guò)程——學(xué)習(xí)、實(shí)現(xiàn)、失敗、再調(diào)整,真正理解什么有效、什么無(wú)效。我常說(shuō)“痛苦是新的護(hù)城河”,這種在實(shí)踐中積累的經(jīng)驗(yàn),無(wú)論對(duì)個(gè)人還是公司,都會(huì)沉淀為難以復(fù)制的優(yōu)勢(shì)。
很多成功的公司,并不是因?yàn)閾屜冗M(jìn)入市場(chǎng),或擁有多么炫目的功能,而是因?yàn)樗麄兘?jīng)歷了足夠多的痛苦,搞清楚哪些是不可妥協(xié)的核心點(diǎn),并在模型能力、功能取舍之間不斷權(quán)衡。這沒(méi)有標(biāo)準(zhǔn)答案,也沒(méi)有教科書(shū),只能靠一輪又一輪的迭代。正是這些過(guò)程中的“痛苦”,最終塑造了個(gè)人能力和公司的長(zhǎng)期競(jìng)爭(zhēng)力。
Aishwarya:專(zhuān)注于問(wèn)題本身。AI 只是工具,關(guān)鍵在于你是否真正理解自己的工作流。很多所謂的 AI 工程師和 AIPM,把大部分時(shí)間花在理解業(yè)務(wù)流程、用戶(hù)行為和數(shù)據(jù)上,而不是追逐最炫的模型。真正的差異化,永遠(yuǎn)來(lái)自對(duì)用戶(hù)和問(wèn)題的深度理解。
閃電問(wèn)答
Lenny:你們最常推薦的書(shū)是什么?
Aishwarya:《當(dāng)呼吸化為空氣》。作者 Paul Kalanithi 是一位神經(jīng)外科醫(yī)生,在三十出頭被診斷出肺癌。這本書(shū)讓我意識(shí)到,我們是否花太多時(shí)間“評(píng)估人生”,卻忘了真正去生活。
Kiriti:我更偏愛(ài)科幻,《三體》三部曲。它不僅討論外星文明,也深入探討科學(xué)、地緣政治與人類(lèi)決策,對(duì)理解技術(shù)與文明的關(guān)系非常有啟發(fā)。
Lenny:如果喜歡科幻和 AI,我還強(qiáng)烈推薦《深淵上的火》(A Fire Upon the Deep)。
Lenny:最近最喜歡的影視作品?
Aishwarya:我在重刷《硅谷》,它出奇地不過(guò)時(shí),如今的 AI 浪潮和當(dāng)年的情景高度相似。
Kiriti:我選一個(gè)游戲,《Expedition 33》。制作精良,故事、音樂(lè)和玩法都非常出色。
Lenny:最近發(fā)現(xiàn)并非常喜歡的一款產(chǎn)品?
Aishwarya:Whisper Flow。我沒(méi)想到自己會(huì)這么依賴(lài)它,它能把語(yǔ)音自然地轉(zhuǎn)化為指令,體驗(yàn)非常順滑。
Kiriti:我偏好效率工具,比如 Raycast 和 caffeinate,讓我在本地跑長(zhǎng)時(shí)間任務(wù)時(shí)效率更高。
Lenny:你的人生信條?
Aishwarya:“人們說(shuō)這件事做不到,但那個(gè)傻子不知道,于是他做成了。”在這個(gè)數(shù)據(jù)隨時(shí)告訴你“你大概率會(huì)失敗”的時(shí)代,保留一點(diǎn)愚蠢的勇氣很重要。
Kiriti:喬布斯那句話(huà):你只能回頭看時(shí),才能把點(diǎn)連成線(xiàn)。所以不斷前進(jìn)、持續(xù)嘗試就好。
Lenny:你最欣賞對(duì)方的一點(diǎn)是什么?
Aishwarya:Kiriti 非常冷靜、踏實(shí),是我最重要的“回聲板”,而且他是我見(jiàn)過(guò)最好的丈夫。
Kiriti:Aishwarya 最大的特點(diǎn)是,她能把復(fù)雜問(wèn)題講得極其清楚,并且始終保持耐心和堅(jiān)持,這在快速變化的 AI 時(shí)代非常珍貴。
https://www.youtube.com/watch?v=z7T1pCxgvlA
聲明:本文為 InfoQ 整理,不代表平臺(tái)觀點(diǎn),未經(jīng)許可禁止轉(zhuǎn)載。
會(huì)議推薦
InfoQ 2026 全年會(huì)議規(guī)劃已上線(xiàn)!從 AI Infra 到 Agentic AI,從 AI 工程化到產(chǎn)業(yè)落地,從技術(shù)前沿到行業(yè)應(yīng)用,全面覆蓋 AI 與軟件開(kāi)發(fā)核心賽道!集結(jié)全球技術(shù)先鋒,拆解真實(shí)生產(chǎn)案例、深挖技術(shù)與產(chǎn)業(yè)落地痛點(diǎn),探索前沿領(lǐng)域、聚焦產(chǎn)業(yè)賦能,獲取實(shí)戰(zhàn)落地方案與前瞻產(chǎn)業(yè)洞察,高效實(shí)現(xiàn)技術(shù)價(jià)值轉(zhuǎn)化。把握行業(yè)變革關(guān)鍵節(jié)點(diǎn),搶占 2026 智能升級(jí)發(fā)展先機(jī)!
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.