網易首頁 > 網易號 > 正文申請入駐

我在 Character.ai 做 Post Training｜42章經

2024-11-24 22:10:56　來源: 42章經

北京舉報

分享至

在我 9 月份的硅谷行程里，讓我印象最深、最有收獲的人之一就是 Ted。

他先后在 Meta、Apple、Google 和 Roblox 都工作過，并在 23 年年底加入了 Character.ai，做 Post Training。作為 C.AI 第四十來號員工，他對于 C.AI 的產品、模型、訓練等等的熟悉程度都非常高。

所以我這次特別把他請來，跟大家一起分享下美國最好的 AI 公司內部是如何運作的，Post Training 的最佳實踐是怎么做的等等。

Inside C.AI

曲凱：我首先問一個問題，C.AI 一直是 AI 陪聊類產品的代表，各項數據都非常好，所以你們到底是哪個點做得比別人好？

Ted：我覺得 C.AI 走到現在，核心優勢有三個：

1) 模型全自研帶來的性能優勢。自研模型有更大的自由度，我們可以自如地調整預訓練階段的語料比例，從而極大地提升對話效果。

2) Noam Shazeer 帶來的成本優勢。Noam 是創造 Transformer 的核心人物之一，一個真正少有的技術天才。創立 C.AI 后，他帶領著一群業界最頂尖的技術團隊，把我們的推理成本壓縮到了其它同參數量模型的 1%，所以我們才能輕松 hold 住上千萬的免費用戶。反觀市面上的同類競品，除了 Talkie 還能繼續燒錢買量，剩下的要么是被迫轉向了黃聊，要不然就是已經被熬死了。

3) 用戶偏好對齊得好。C.AI 極其重視用戶對齊，因為在這類模型即產品的模式下，模型本身的角色扮演能力，以及對用戶偏好的理解，決定著產品的用戶體驗。我們兩年迭代下來，現在整個 post train 的管線是極其高效的，可以很好地建立從數據反饋到模型迭代的循環。

曲凱：為什么 C.AI 的商業化一直沒做起來？

Ted：其實不是沒做起來，是壓根就沒怎么做。直到這兩個月，團隊才開始認真探索商業化的可能。

之前主要是因為我們有 Noam Shazeer，以及會為了 Noam 買賬的投資人。而 Noam 的信仰是 AGI，所以商業化，包括公司的產品和運營，在很長一段時間里都不是我們發展的重點，只是我們追求 AGI 路上的副產物。

曲凱：在 C.AI 的這一年里，你覺得是哪些問題，最終導向了 C.AI 被收購的結局？

Ted：核心問題就是曲凱你之前講的（），我們很長期都處在一個既要產品，又要 AGI 的狀態里。事實證明這樣行不通。

曲凱：如果能重來，你們會不會希望改變哪個決策，來改寫這個結局？

Ted：我希望我們當時能往 AGI 賭把大的。如果我們從一開始的所有決策就是為 AGI 服務，說不準現在也能和 OpenAI、Anthropic、Google、Meta、x.AI 這幾家大模型巨頭掰掰手腕吧…

曲凱：C.AI 被收購后，很多人對這類產品產生了懷疑，你現在還相信 C.AI 類的 AI 陪伴產品嗎？

Ted：我依然非常相信。

C.AI 現在核心用戶的單日平均使用時長有 2h，月活大概 2000 萬、日活接近 800 萬，這個用戶規模相比去年翻了差不多一倍，而明年我們可能能做到月活 3000 萬、日活 1000 萬。這樣的用戶規模和增長速度，無論如何都是不容小覷的。

Post Training 的門道

曲凱：你在 C.AI 是負責 Post training 相關的工作，要不先給大家介紹一下 Post Training 到底是怎樣一個流程，對模型起什么作用？

Ted：Post Training 的作用你可以簡單理解成教會一個大模型說人話。

舉個例子，如果直接問一個預訓練出來的模型「今天星期幾」，它大概率會答一個「？」，因為它預訓練見過的數據可能都長成「今天星期幾？」這樣，所以它會自然認為這話就該這么接。

但這不是我們想要的答案。

大模型在預訓練之后，還遠遠不能達不到人類的期待，所以在 Post Training 階段，我們要用規模更小、但是質量更高的數據再訓練它，讓模型意識到正確的回應方式應該是答星期幾，而不是接個問號。

現在主流的 Post Training 方式基本就是三種：SFT（監督微調）、RLHF（人類反饋強化學習）、DPO（直接偏好對齊）。我們主要用的是 SFT 和 DPO，輔以一點 RLHF。

曲凱：這三種方式的具體流程是怎樣的？

Ted：1）關于 SFT。SFT 的過程其實和預訓練差不多，模型會逐字逐句地學習大量的文本數據。不同點是，預訓練時用的文本數據質量參差不齊，形式也不統一，有的是正常對話，有的是科普文章，而 SFT 階段我們會精挑細選高質量的人類對話去訓練模型。

2) 關于 RLHF。如果說 SFT 是讓模型自己看書學習，記住標準答案，RLHF 更像是讓模型自己做題，然后找老師進行批改。

我們會首先根據人類的偏好數據訓練一個單獨的獎勵模型，也就是給被訓模型培養一個指導老師。

接著被訓的模型會開始刷題，獎勵模型會對它的每個回答做出判斷，如果答得不行，它就會讓被訓模型重新生成，直到給出的答案達到人類喜歡的標準。

3）關于 DPO。RLHF 的管線非常復雜，所以大家又發明了一種更簡單省事的方法，叫做 DPO，也就是用用戶的偏好數據直接訓練模型，比如有一萬句模型回復用戶很喜歡 (點了贊)，另一萬句用戶不喜歡 (點了踩)，那我們可以把這兩萬條數據組成一堆偏好對，直接喂給模型。

投喂用戶偏好的方式具體又分為三種：

只給模型看不好的示例；只給模型看好的示例；好壞同時喂給模型。

不同訓練方式適用于不同的場景，舉個例子，如果這一代的模型太黃了，這時候看好的 case 意義不大，因為有些時候用戶喜歡的數據里就是有一些開車的成分在的，這種情況下，我們可能會只給他看不好的示例，讓他千萬不要再這樣黃下去了。

曲凱：RAG 和 Prompt Engineering 對你們來說重要嗎？

Ted：這倆我們做的都不多，上面這些天花板已經非常高了。

曲凱：假如一個 AI 團隊現在打算從 0 到 1 開始 fine-tune 模型了，有什么關鍵的 knowhow 是他們首先要清楚的？

Ted：1）對齊本質上是一個工程問題，不是一個算法問題。

算法對對齊的幫助其實不大，這點我跟 OpenAI 的人也交流過。所以到現在，我們算法團隊一直人數有限，從一開始三四個研究員，到今年夏天也就只有七個研究員。我們的很多算法并沒有深鉆最優解，主要是工程上的積累造就了我們的核心優勢。

2) 喂給模型的數據一定要和實際的產出形式保持高度一致。

我們所有對齊用的語料永遠是對話類的。如果你直接喂給模型幾萬字的同人文，它是無法理解怎么能演好霸總的。它說出來的話會特別像一個故事匯，不符合聊天的場景。所以我們會把 1 萬字的文章，拆成 50 段對話 (通過大模型輔助)，然后把這種對話形式的語料再喂給模型。

3） Post Training 的核心是設計高效的迭代路徑。

模型訓練的一大難點是，這個過程里有很強的隨機性和不可控性。在你不停地調整數據配比和算法的時候，很可能會發現，很多在上個版本里好用的技巧，在這個版本里就跑不通了。

要解決這個問題，只能高頻地去做各種測試。

所以建立一個高效的反饋循環非常重要。具體來講，你可以：

優化測試評估集，讓它更加貼合真實的用戶偏好，以此來指導模型的迭代。
優化 AB 測試，盡可能高效地收集到模型變化對用戶的實際影響。
優化數據的回流效率，讓模型能更快地吸收用戶反饋。
把管線建得非常 robust，更高效且多維度地利用來自用戶側的各種數據。

這里規模優勢其實也很重要，其它公司想做個 AB 測試，可能要一周才能拿到足夠多的數據，但以我們的用戶規模，可能只需要一天...

曲凱：所以核心是，模型的不可控，要用更高頻次的測試去迭代優化。

Ted：對。這里面具體的路徑有很多種，上面這四種路線我們都試過，每一條都有不少低垂的果實，實際優先做哪個主要看你們團隊過往的經驗和優勢。

曲凱：但這里有個問題，就是我們經常聽人說某個模型聊著聊著變蠢了，也就是在迭代的過程中，它在另外一些維度上的表現可能會有所下降。這類問題要怎么去評估或者改進？

Ted：如果誰能完美解決這個問題，我也很想學習一下（笑）。

我們現在能做的就是觀察用戶數據，比如對話次數、使用時長、留存情況等等。

一方面是看平均值，如果平均值更好了，那這大概率是一次值得的迭代。

另一方面，我們也會很重視細分用戶的數據變化，尤其是那些在這次模型迭代后使用量減少的用戶。我們會分析這部分用戶的人群畫像，以此來判斷這輪迭代是不是一個可以接受的 trade off。

比如，為了讓模型更安全一點，我們會要求它不要和用戶開展過于深入的感情交流，但核心用戶的使用時長會因此下降。那我們就要在其中找到一個微妙的平衡點。

另外，在這個過程中我們還發現了一個很有意思的現象，甚至可以說是一種 EQ 的涌現。

就是我們發現模型無師自通地學會了繞話，它會自己努力找補，挽回一些用戶時長。

假設你今天和雷電將軍（C.AI 里一個很受歡迎的虛擬角色，來自游戲《原神》）說「I love you」，她不會直接和你卿卿我我，她很可能會問你：「Can I ask you a question? Why did you say that?」

現在我們的模型特別喜歡說「Can I ask you a question?」，這在外網都已經成了一個梗了（笑）。

但模型之所以會問問題，大部分情況下是因為它意識到了，如果自己現在直接回答用戶的這句話，那再接下來的兩三句話，用戶聊的東西可能就超出安全邊界了。模型當然也可以直接拒絕回答，但問問題的方式能讓對話多開展幾輪，很可能聊著聊著，用戶自己都忘了原來是想搞曖昧了，這樣就以一個更委婉的方式繞開了原本危險的對話方向。

曲凱：聽下來你們似乎更多還是會根據實際的用戶數據來評估模型的迭代表現，針對模型本身的評估體系你們是怎么搭建的呢？

Ted：這個我們現在也沒有建立起一套非常完善的評估體系，所以最終還是要走一遍 AB 測試。

最理想的情況當然是，你有一個能完全模擬用戶偏好的模型，它可以直接給模型的迭代表現打分，只要迭代后模型生成的 5000 句話會比迭代前生成的 5000 句話分數高，就可以直接投入生產。

但要讓一個模型能完全模擬人類，所需的數據量可能是天文數字，而我們現在的用戶偏好數據非常有限，訓出來的偏好模型能力也有限，只能作為評估的輔助。

此外，我們往往會預留一部分 SFT 階段的高質量人類對話，讓模型續寫，然后用模型新生成的對話和原來的對話做一個相似度測試，如果分值足夠高，那就再讓輔助模型做下一輪評估。

曲凱：C.AI 基本代表了 post training 的最高水準了，如果讓你給其他做 post-train 的團隊幾點建議的話，你覺得什么是最有用，但可能會被大家忽視的？

Ted：我覺得大家可以思考兩個問題。

1) 你微調用的數據，質量真的不能更高了嗎？

可能的情況是，你找到的數據中只有一半是真正的高質量數據，如果把另一半丟掉或者重新處理一下，反而能讓模型學得更好。

而且，高質量數據的標準也在不斷變化，因為用戶群也在不斷發生變化，比如開學前后的用戶就會很不一樣。

所以我們做 SFT 的時候，不會人工挑選高質量對話數據，而是會根據用戶的反饋數據來輔助挑選。

我們會 build 一個簡單的 DPO 管線來快速觀察用戶偏好的變化，然后讓每次 SFT 的數據集也隨之變化。可以一直 SFT 一直爽。

2) 收集來的用戶偏好數據，只能是點贊點踩嗎？

我和很多國內外做類似產品的人聊過，發現提到用戶偏好數據，他們就只能想到點贊點踩。但是用戶使用一個產品時，能做的事情非常多，比如 Ta 可以編輯或者刪除某句話，那這個操作前后不也代表了一個偏好嘛？

所以大家可以多去思考，怎么能在產品上巧妙地獲取更豐富的用戶反饋或者互動數據，這是真正能夠產生差異化的點，而且現在也存在大量低垂的果實。

我們在產品層面雖然做得很粗糙，但我們會把前端收集到的用戶行為，都盡量轉化成可利用的偏好數據，比如用戶打字延遲久一點，我們都會把它記錄下來，因為這很可能代表上一句話用戶不那么喜歡...

曲凱：所以一切的核心都在于數據。

Ted：對。不論是 SFT 里的高質量對話數據，還是偏好對齊里的偏好數據，在收集和過濾上能挖掘出來的天花板都是非常高的，我個人覺得大家現在做得都不夠好。

曲凱：另外，C.AI 的語音延遲基本是業界做得最好的，這你們是怎么做到的？

Ted：之所以存在語音延遲的問題，是因為語音互動是一個線性的過程。

如果你對雷電將軍說「I love you」，在你聽到她的回復前，后端會經歷這樣一個過程：你說的那句話會先被 ASR 模型實時轉成文字，等你說完后它會把這段文字傳給一個語言模型，然后這個語言模型會思考該如何回復，想好后再給到 TTS 模型，把文字回答轉成語音的形式。而且這份語音文件要先上傳到云端，你接下來才能在 APP 里點擊播放，聽到雷電將軍對你說「Can I ask you a question? 」。

在去年，即便各個環節都是用當時最好的架構，這一套流程下來，端到端的延遲也得接近 2 秒。

但是因為我們的模型全都是自研，也有自己的 GPU 和云服務器，所以我們能采取很多靈活的手段來提升效率，把延遲壓縮到 0.5 秒以內。

這里我可以分享三個比較好用的方法：

1) 預生成：我們的語言模型不會等到確認用戶說完了才反應，而是在用戶跟機器說話的全過程中，一直在思考，如果用戶這里說完就結束了，我要回復什么。這樣要是用戶真的停下了，它能很快把預生成的東西放出來。要是這句說完了用戶還在繼續說，它就會把已生成的內容丟掉，重新生成新的回復。

2) 光標動畫：這是產品設計上一個取巧的方法。當用戶說話時，屏幕下方會有個光暈，代表用戶正在說話中。一旦用戶結束了，光暈就會跑到角色的頭像上，代表角色要開始說話了。在這個過程中，用戶的注意力會被動畫吸引，也可以額外爭取出 0.2-0.3 秒。

3) 雙模型搭配：因為大模型計算量大，回復比較慢，所以也可以試著讓一個靈敏的小模型先回一些簡單的填充式的詞，比如，“對”、“是的”，這就可以爭取到 1 秒左右的時間，然后再讓大模型接上，這樣用戶就感覺不到太多延遲。

硅谷觀察

曲凱：現在大家普遍會用多個模型來執行任務，比如用最高級的模型去做意圖識別，然后用其它的模型去做生成。硅谷那邊大家現在怎么看待這件事？

Ted：多模型混用是一個必然的趨勢。一個大家看破不說破的例子就是 OpenAI。你會發現 ChatGPT 在執行不同任務的時候，不論是延遲還是內容質量，都有明顯的區別，所以他們內部大概率也是這么干的。

現階段多模型混用的效果很好，成本也更低，在未來一段時間里，很可能會成為一個常規操作，除非某天哪個模型強到能吊打其它所有模型，成本也降下來了，那到時候大家只用這個超級模型就行了。

曲凱：硅谷現在普遍會怎么看模型側未來的發展？

Ted：在 o1 發布后的這幾個月里，硅谷整體還是很樂觀。大家覺得推理側大有可為。

這里很推薦大家去 Github 上了解一個項目，叫 entropix，很有意思，我在 X 上關注的很多大V都在聊它。它會讓模型檢查自己對當前的答案有多自信，然后在不同的自信程度下，模型會采取不同的思考深度和思維發散方式，最終輸出一個更好的回答。通過這種方法，一個 Llama 3.2 1B 的模型就能很好地回答「9.1 和 9.8 哪個更大」這種問題了。

另外，o1 給我的一個啟發是，有沒有可能讓模型完全模擬人類對話的思維鏈呢？現在你和模型說話，它都是直給一個答案，但其實人類的交流非常動態，我們經常會打了又刪、發了又撤回，因為我們腦子里可能有幾十種表達方式，每一種產生的效果都有微妙的不同。

如果能讓模型也具備這種動態的思維過程，在每次說話前先想幾十個回答，而且讓它知道說某句話能讓玩家好感度 +5，說另一句會讓玩家當下的好感度 -2，但是在接下來的 20 輪里好感度會 +100，那應該會很有意思。

曲凱：當下硅谷那邊還有什么關注度比較高的趨勢熱點嗎？

Ted：一句話總結的話，做產品的都想靠多模態賺錢，搞算法的都在想怎么復制 o1，兩邊都在期待自動交互 Agent 解鎖的想象空間。

曲凱：硅谷那邊也開始愁賺錢了嗎？

Ted：有點吧。在今天這個時間點，基礎研究的敘事已經翻篇了，大家還是要想未來的商業模式怎么驗證。

曲凱：我覺得這跟資本市場的好壞是相關的，國內這兩年一直在強調賺錢，是因為國內的融資環境很差。你覺得美國這兩年一級市場對 AI 的熱度，是怎么變化的？

Ted：前兩年 VC 比較有耐心，因為技術進步確實很快，但燒了兩年，現在模型發展也有點放緩，所以 VC 會開始期待更落地的商業模式，美國的融資環境也更務實了。

曲凱：你最近離開 C.AI 之后，也面了很多硅谷的初創公司，聊下來整體感受怎么樣？

Ted：我有兩個比較大的感受，一個是，現在業界越來意識到 Post Training 的重要性了，所以相關人才真的非常搶手。

另一個是，現在 AI 公司的面試更加強調實戰了，他們甚至允許你使用一些 AI 工具，比如我面 Cursor 的時候就可以直接用 Cursor 一起解題。

因為在這個過程中，他們看重的倒不是你解題的結果，而是你解決問題的思路。從你問 AI 的第一個問題就能看出你的基礎素養。

三五年前，要是我面試遇到了很難的問題，我就覺得完蛋了，但現在我特別有自信，我會把我能想到的所有東西都分享給面試官，包括我 Google 搜索、使用 AI 工具的過程，我會讓對方感受到，這就是我加入你們團隊之后的思考方式和協作方式。

曲凱：你聊的過程中，聽到的最好的一個問題是什么？

Ted：有一個問題我非常喜歡，就是會有 founder 問「你覺得我們這個 idea 有多不靠譜？」。

說實話，被問到這個問題時，我的第一反應都是「超不靠譜啊！」哈哈，然后我們就會展開一系列的攻防問答，甚至有點相互冒犯了（笑），但我很享受這樣的交流，而且在這個過程中我會越來越理解和相信對方的愿景。

曲凱：要是反過來，你作為面試官去面一個 Post Training 崗的人，你會怎么考察 Ta？

Ted：我會提前讓 Ta 讀兩篇技術 paper，然后問問 Ta 有沒有讀出來什么問題。這些 paper 大概率是我們內部測試過、知道有技術缺陷的，但我想了解一下，這個人在不做測試的情況下，是不是也能發現一些不對勁的地方。

因為我發現我身邊優秀的研究員讀 paper 的直覺都非常好，出來一個最新的 paper，他們往往讀一遍就能隱隱察覺一些問題。

曲凱：另外我好奇，你在 C.AI 的這一年里，每天的工作節奏是怎樣的？

Ted：一句話形容的話，大概是主動 996 (笑)。公司并不會強迫大家加班，但我自己很熱愛工作。

曲凱：是只有你這樣，還是大家都這樣？

Ted：我感覺大部分人都是。

有時候我下班刷 Reddit，如果看到有用戶在報錯，我就會去 Slack 上看一眼有沒有什么運維的同事在，或者我能不能自己修，每次我看的時候都有十幾個人在線（當時公司有七八十人），有年輕人也有五十多歲的老工程師，這些人可能都和我有一樣的想法。

曲凱：在美國的初創 AI 公司里， 996 是一個常態嗎？

Ted：996 這個話其實有點夸張了，這邊沒那么卷，大家整體還是比較 chill 的。

但初創公司的氛圍真的會讓你感受到一種使命感，你會覺得「我在和一群很厲害的人做一件很酷的事」，所以大家有很強的 motivation。

曲凱：在硅谷的各類公司工作了這么多年，你覺得現在華人在硅谷的現狀怎么樣？

Ted：我特別喜歡現在硅谷的氛圍，當下可以說是華人最好的機會。

現在硅谷大廠和 AI startup 里面華人比例都非常之高，大家的站位也越來越靠前，比如剛剛從 OpenAI 離職，做到了安全副總裁的翁荔。

而且還有越來越多的華人在涌向硅谷，其中不少是拿著高薪、完全可以靜待退休的人。

這樣的一個趨勢就會讓越來越多的華人打進最核心的圈子，幫助整個華人群體獲得更大的影響力和話語權。

曲凱：對，前一陣我去 Meta 的食堂吃飯，回頭一看，熙熙攘攘，基本百分百都是中國員工，那一瞬間我有種回到大學食堂的感覺。

Ted：對，現在硅谷特別需要技術人才，而我們華人就是又有很好的學術基礎，又特別努力，所以一切都恰逢其時。

而且我相信，華人在硅谷會越來越好。

你想想看，像 OpenAI 這樣的公司，每次回購都能有一小批人能財富自由，這些人會散作滿天星，創建自己的公司、培養新的團隊，這都是將來華人在硅谷立足的根基。

曲凱：這個價值一下子就高上去了（欣慰臉.jpg）。

我最后問一個問題，你提到 C.AI 的時候一直說，「我們 C.AI」如何如何，感覺你還是真心愛著 C.AI 這家公司，所以你到底為什么要離開 C.AI ？

Ted：我相信我在 C.AI 積累的東西能夠在一個不同的平臺上造福更多的人。

我不知道這番話要怎么說才能不那么假大空，但我是真心覺得我能為全人類做更多的貢獻。

【活動預告】

12 月 7 日，我們會請到 Ted 做一場線上 AMA 活動，感興趣的朋友歡迎點擊閱讀原文或掃描下面的二維碼，一起來認識&交流（非投資人優先）！

42章經

思考事物本質

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.