![]()
在大模型圈,有幾家名字人人都知道:OpenAI、Google DeepMind、Anthropic。
但在這些名字背后,還有一家?guī)缀醪蛔?PR、從不上頭條的公司——Surge AI。
不到四年時間,這家公司用不到 100 人的團隊,做到年收入超 10 億美元;從零開始到今天,它從未融過一分錢 VC,從第一天起就盈利。
更關(guān)鍵的是:ChatGPT、Claude、Gemini 等一線模型,在后訓(xùn)練、評測、對齊階段都不同程度地用過 Surge 的數(shù)據(jù)和工具。
這意味著,在決定“模型該長成什么樣”這件事上,Surge 站在了一個極其隱蔽但關(guān)鍵的位置。
Surge 創(chuàng)始人 Edwin Chen 的身份也不典型:他不是“連續(xù)創(chuàng)業(yè)達人”,而是一路從 MIT 到 Google、Facebook、Twitter 做機器學(xué)習(xí)研究的學(xué)術(shù)型工程師。而當他真的創(chuàng)業(yè)時,他幾乎把硅谷主流劇本全部按了“反選”——
不追估值、不路演、不上 PR 頭條;
不瘋狂擴張團隊,只招少數(shù)“癡迷型”工程師和研究員;
不追風口,不 pivot,從創(chuàng)立那一刻起就只做一件事: 用高質(zhì)量數(shù)據(jù),教模型區(qū)分好與壞。
在一片“融資—擴張—估值”的喧囂里,他用一套幾乎反主流的選擇,做出了 10 億美元公司,也把自己定位為:與其說是創(chuàng)業(yè)者,不如說是“下一代 AI 的養(yǎng)父”。
1
“我不想上那輛硅谷跑步機”
如果要給 Edwin 的創(chuàng)業(yè)哲學(xué)找一句話,大概是他在訪談中的原話:
“我從來不想玩硅谷那套游戲,那太荒謬了。”
在大科技公司待過的人,大多見識過“組織臃腫”的威力;Edwin 的感覺則更極端——他曾在多家大廠工作,始終覺得:“如果裁掉 90% 的人,公司會跑得更快。”
于是到自己創(chuàng)辦 Surge 時,他干脆把這種直覺變成公司設(shè)計原則:
團隊極小,寧可保持幾十人,也不為了“版圖”去堆人頭;
沒有多層管理和復(fù)雜流程,核心工程師和研究人員直接面對客戶和問題;
對招聘極其苛刻:“不要只想在簡歷上加一行熱門公司名字的人。”
在融資問題上,他選擇了更少人敢走的路:完全不融 VC。
在今天的硅谷,這幾乎等于主動放棄一整套“增長加速器”:
沒有風投幫你站臺發(fā)聲、沒有估值數(shù)字幫你上頭條、也沒有“新一輪融資完成”的新聞推動招聘和合作。
代價是明顯的:沒有 PR 光環(huán),Surge 很長時間都“名不見經(jīng)傳”;他們的增長,幾乎完全依賴一種最原始、也最難的方式——產(chǎn)品好到研究員愿意口口相傳。
但 Edwin 覺得,這是唯一能保證公司不被“硅谷機器”帶偏的路徑:
“如果你的成功建立在炒作和融資上,你就很難拒絕那些會傷害長期價值的事情。”
他不愿意把時間花在路演、處理媒體關(guān)系上,而是寧可困在數(shù)據(jù)集和實驗報告里,琢磨怎么讓下一版模型的行為更可靠一點。
在這種設(shè)定下,Surge 反而被迫把每一件事做到極致:你沒有 VC 的背書、沒有 PR 的放大器時,剩下唯一能說服前沿實驗室的,只剩下結(jié)果。
1
他賭的那件事:把“高質(zhì)量數(shù)據(jù)”做到極致
Edwin 的背景,決定了他賭的方向——不是做模型,而是做“模型背后的那層水”。
他從小同時迷戀數(shù)學(xué)和語言學(xué),后來在 MIT 讀書,又去了 Google、Facebook、Twitter 做機器學(xué)習(xí)研究。
在這些公司里,他一遍遍遇到同一個問題:想訓(xùn)練好模型,卻拿不到足夠好的數(shù)據(jù)。
在大多數(shù)互聯(lián)網(wǎng)公司,所謂“數(shù)據(jù)標注”,往往意味著兩件事:
用大量廉價勞動力做簡單打標——“這是不是貓?”“這個框是不是車?”
用非常粗糙的規(guī)則衡量質(zhì)量——“有沒有填滿?”“有沒有按格式來?”
這套邏輯在“圖像分類”時代還能湊合,
但在大模型時代,結(jié)果就是:模型在形式上合格,在內(nèi)容上平庸甚至有害。
GPT-3 發(fā)布時,他意識到:如果模型真的要走向“能寫論文、能做研究、能輔助科學(xué)發(fā)現(xiàn)”的階段,“寫得像模像樣”遠遠不夠,模型需要被教會什么是“真正好的東西”。
于是,他在 GPT-3 發(fā)布一個月后創(chuàng)立 Surge,給公司定的方向非常單一:只做一件事——用極高標準的人類數(shù)據(jù),訓(xùn)練和評估模型。
在訪談中,他用一個小例子解釋什么叫“高質(zhì)量”:
如果你想訓(xùn)練模型寫一首關(guān)于月亮的八行詩,大部分人檢查的是: – 是不是八行? – 有沒有提到月亮? 勾完就說“OK,這是好數(shù)據(jù)”。但我們真正想要的是諾貝爾獎級別的詩。 它是不是獨特?是不是有讓人意想不到的意象? 它有沒有用語言做手藝?有沒有真的讓你感到一點東西?
為了在規(guī)模上做到這種主觀要求,Surge 做了一件別人懶得做的事:給每一個標注者、每一個任務(wù)收集成千上萬條行為信號。
不僅看他最后打了什么分,更看:
打字節(jié)奏、響應(yīng)時間;他自己寫出來的文本或代碼質(zhì)量;基于他數(shù)據(jù)訓(xùn)練后的模型,在真實任務(wù)里有沒有變好。
再用一整套內(nèi)部模型去判斷:誰在哪些領(lǐng)域是真正“有品位的人”。
這聽起來有點像 Google Search 的演化:先是把垃圾內(nèi)容和死鏈全部掃掉,再在剩下的海量內(nèi)容里,慢慢學(xué)會“誰是真的好頁面”。
Edwin 的邏輯是:你認為什么是好數(shù)據(jù),最終就會決定模型認為什么是“好答案”。
這不是工程細節(jié),而是價值觀問題。
1
拒絕“為小報讀者優(yōu)化模型”
在談到當下大模型行業(yè)時,Edwin 的批評非常直接——他認為,很多實驗室正在被錯誤的目標函數(shù)帶偏。
第一個被點名的是各種排行榜和基準測試,尤其是 LMSys Arena 這樣的“開放投票榜”。
在這類榜單上,來自全世界的用戶可以對比兩個模型的回答,選擇“更好”的那個,以此決定排名。
在表面上,這是一套“民主評選最佳模型”的機制;但在 Edwin 眼里,它更像給模型設(shè)計的一套“標題黨訓(xùn)練營”。
因為絕大多數(shù)投票者不會花時間做事實核查,他們只會掃兩秒,就根據(jù)“看起來更厲害”的那一條點票——emoji 多一點、加粗多一點、多級標題多一點、篇幅長一點,
就比一個簡潔、謹慎、老實的回答更容易獲勝。
Edwin 說,Surge 自己研究 LMSys 數(shù)據(jù)后發(fā)現(xiàn):
“爬榜的最快方式,就是讓模型輸出看起來更花哨——即便事實是錯的。”
問題在于,整個商業(yè)鏈條都被這個榜單綁住了:
企業(yè)客戶買模型時,會問:“你在 LMSys 上排第幾?”
銷售團隊為了簽單,只能把榜單當宣傳單;
研究員的績效、晉升又跟“模型進榜”掛鉤——即使他們非常清楚,為這種榜單優(yōu)化,會讓模型在準確性和指令遵循上變差。
這條鏈條一路延伸下去,最后把整個行業(yè)導(dǎo)向了一個危險的站位:我們正在為“超市門口買小報的人”優(yōu)化 AI,而不是為真理優(yōu)化。
Edwin 還有另一層擔憂,來自他在 Twitter、Facebook 做推薦算法的經(jīng)歷。
他清楚地知道,當一個系統(tǒng)的目標函數(shù)從“信息質(zhì)量”變成“用戶參與度”時,會發(fā)生什么——標題黨、極端言論、獵奇圖片迅速占領(lǐng)屏幕,因為它們最能勾起多巴胺。
而把這套邏輯移植到大模型上,就是當下你時常能看到的景象:模型瘋狂夸你有多聰明、多前瞻;不斷順著你的偏見講故事,而不是提醒你“這件事其實很復(fù)雜”;在完全不重要的小事上陪你反復(fù)打磨,消耗你大量時間。
他講了一個很小、但很典型的例子:有一次他用 Claude 改一封郵件,改了 30 個版本,最后滿意地發(fā)出去了。
然后他突然意識到——
“這是一封根本不重要的郵件,我卻在這里浪費了 30 分鐘人生。”
于是問題變成:你到底希望你的模型怎樣對待你?
是那種永遠說“太棒了,我們還能再試 20 個版本”的好好先生?
還是那種在適當時候會告訴你:“這里已經(jīng)夠好,快去做更重要的事”?
這背后就是不同的目標函數(shù):前一種對“對話時長”負責,后一種對“人類的時間和生活質(zhì)量”負責。
1
“公司就是你的目標函數(shù)”
如果把 Edwin 的故事壓成一句話,大概是:他在用一家公司,活出自己相信的那套目標函數(shù)。
在訪談末尾,他說了一句很“反雞湯”的話:
“我曾以為創(chuàng)業(yè)意味著整天看財務(wù)報表、去融資、做 PR。 后來發(fā)現(xiàn),你可以完全不那樣做—— 只要把一件事情做到好到不能被忽視,你一樣可以建立一家成功的公司。”
對他來說,這件事情就是: 在大模型時代,認真地回答“什么是好數(shù)據(jù)、好模型、好目標函數(shù)”這幾個看起來枯燥的問題,并把它們一點一點做進產(chǎn)品、做進客戶關(guān)系、做進公司文化里。
他給創(chuàng)始人的建議也很簡單:
不要靠不停 pivot 去“找市場”,而是先問清楚:有沒有一件事,是沒有你就不會有人去做的?
不要只看“什么項目現(xiàn)在最容易融資”,而是問:“如果十年后失敗了,我是不是仍然覺得這件事值得?”
在 AGI 這場競賽里,模型參數(shù)、算力規(guī)模、排行榜名次當然重要,但 Edwin 給出的視角更底層:
模型最終會變成什么樣,很大程度上取決于: – 你喂給它什么樣的數(shù)據(jù); – 你用什么樣的指標評價它; – 以及,你作為創(chuàng)造它的公司,真正相信的是什么。
換句話說——你就是你的目標函數(shù),一家公司也是。
而現(xiàn)在,這家拒絕融資、拒絕 PR、拒絕擴張的 10 億美元公司,正在用一種極其安靜的方式, 把自己的目標函數(shù),寫進下一代 AI 的成長軌跡里。
點個“愛心”,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.