![]()
AI火了,帶火了“買鏟子”的數據標注生意。
Scale AI估值沖到200多億美元,Surge AI也在談一輪10億美元融資。巨頭們搶模型,資本們搶數據,只要能產出高質量訓練數據,就是“印鈔機”。
就在這樣瘋狂的背景下,一位19歲的華裔少女Serena Ge,帶著一個只有10個人的小團隊,拿到了1500萬美元
(約1億人民幣)
Datacurve的投資人里除了Chemistry VC、YC,甚至還包括了來自DeepMind、Anthropic、OpenAI的工程師。
他們看好Datacurve的原因很簡單,這家公司做了一件聽上去不可思議的事情,把高質量數據標注,做成了一款賞金獵人的游戲。
Datacurve搭建了一個叫Shipd的平臺,把算法題、調試任務、代碼理解、測試用例等中高難度的工程挑戰,通通包成一條條“任務關卡”
(Quests)。價格明碼標,工程師通關即可拿錢。
在短期幾個月時間里,就有1.6萬名工程師涌入Shipd。成立兩個月,Datacurve的收入就突破100萬美元,并迅速成為Cohere、Anthropic的數據供應商。
今天,我們就來說說這家神奇的AI公司。
數據標注的“賞金獵人”來了
今年以來,業內一個越來越明確的共識是:
限制大模型繼續往前走的,不再是算力,而是高質量數據。
在代碼、法律、醫療這些高度專業化的領域,“標注”早已不是機械勞動,而變成了一項需要專業知識、結構化能力和推理判斷的腦力活。
數據質量直接決定模型的能力上限,這一點正在被更清晰地看見。
尤其是能提供高質量數據的創業公司,越來越火了。據彭博社報道,今年7月Surge AI就正在進行一輪10億美元的融資,估值高達150~250億美元。
他們做的事情很簡單,就是雇傭了一大批律師、醫生、多語種專家,來做垂直領域的高質量數據標注。
但當行業繼續往前看時,一個更難補齊的空白開始顯露:軟件工程的數據需求,幾乎沒有被滿足。
模型要真正理解編程,不只是理解語法或補全代碼,而是要掌握工程師的“思考過程”:為什么這樣寫?為什么要重構?一次代碼審查是怎么判斷風險的?一個bug是如何定位的?
這些數據天然稀缺,也極難人工合成,更無法靠大規模外包來生產。它需要真實的工程師、真實的推理和真實的判斷。
在這樣背景下,Datacurve就出現了。
作為一家專門提供高質量編程數據的數據標注公司,真正讓它與行業里其他數據標注公司區分開來的,是其獨特的運作方式。
![]()
很多人以為,“數據標注”是低門檻工作。但在AI訓練的高端賽道中,這件事對人的要求極高。
就拿以專業著稱的Surge AI來說,它招聘憲法律師的標準,曾在最高法院、美國司法部任職,或頂級律所的前合伙人;醫學任務需要能做同行評議、具備臨床推理能力的醫學研究員;多語言任務則需要全球稀缺的“小語種+專業背景”人才。
這些人報酬自然不低,往往以承包形式參與,律師的時薪甚至能到500–1000美元。
與Surge AI以外包形式找人不同,Datacurve選擇了另一條路:把數據標注變成了一場賺賞金的競賽游戲。
具體來說,他們打造了一個名為Shipd的平臺,并在平臺上發布包裝好的數據任務,任務覆蓋了軟件工程的關鍵環節,包括DSA算法題與題解
(近似刷題平臺LeetCode的題目)、存儲庫范圍代碼評估、調試與推理軌跡,以及私有代碼庫等等。
為了維持數據質量,Datacurve還設計了一套數據驗證流程。
工程師完成任務后,AI會先進行自動驗證;另一批工程師可以接手代碼審查類任務,通過發現缺陷獲得獎勵;最終結果會經過專家復審。只有互審機制無法判斷的細節,最終再由人類專家做最后評價。
這種“解題-審錯-復查”的閉環,讓平臺能在規模化分發任務的同時保持質量。
工程師可以以挑戰者的身份自行選擇代碼任務,每個任務獎勵80~100美元不等。干得多,賺得多,不設上限。
例如,用戶@James Shi 上線三天,完成四個任務,任務類型包括性能重構、調試、多語言轉換等,已經領取132美元獎勵。
![]()
▲用戶@James Shi的個人控制臺
其官網數據顯示,平臺已吸引超過1.6萬名工程師參與。近期公司披露,平臺累計發放的賞金已超過100萬美元,部分任務的獎勵也被推高至250~350美元。
![]()
Shipd之所以能迅速吸引工程師,不只是因為“能賺錢”。更關鍵的是,它營造了一種接近競技場的氛圍。
在這里,工程師的動機不是典型的打工心態,而是挑戰、聲望和獎勵。他們更像在平臺中游走的“賞金獵人”。
來自Amazon、AMD、DeepMind、OpenAI、Anthropic、Vercel等公司的從業者,以及算法競賽選手和CS學生,都在這里做任務、曬成績、組隊和社交。
![]()
也正因為有這樣的結構化工程數據,Datacurve在成立僅兩個月時,收入便突破百萬美元,并迅速成為Cohere、Anthropic等模型公司的數據供應商。
Chemistry VC合伙人Mark Goldberg稱它是他“投過增長最快的初創公司之一”,并透露公司在融資期間剛剛簽下“史上最大的一筆合同”。
把數據標注,當成消費產品來做
回頭看,Datacurve的真正特殊性在于,它找到了一個更輕、也更容易規模化的數據生產方式:
把數據標注當成一款“面向工程師的消費級產品”來做。
Datacurve團隊規模不到10人,卻能驅動一個超過萬名工程師的社區。這種強烈不對稱的組織結構,是它與傳統外包型數據公司的最大差異:后者依賴線性擴張的人力體系,而Datacurve用的是互聯網平臺邏輯。
公司聯合創始人Serena Ge把這種方式形容為“讓數據生產變成一種消費體驗”。許多工程師在Shipd上花的時間,本質上是從游戲、開源社區和刷題練習中遷移過來。
他們不把自己視為標注者,而是把Shipd當成一個“技能競技場”——在這里挑戰任務、積累聲望、贏獎勵。
Datacurve更像一套能夠自我生長的系統:任務拆解、驗證、評分和復審被流水線化,大部分質量監控由算法完成,而工程師則在激勵機制的驅動下自發承擔審核環節。
平臺的邊際成本因此極低,擴張速度也不再依賴線性增長的人力,是一種典型的“高倍數平臺模型”。
另一個明顯的差異是,它重新定義了“貢獻者”的角色。在多數數據公司,標注者是外包勞動力;在Datacurve,他們是平臺的用戶。
工程師進入Shipd,并不是為了執行瑣碎的重復勞動,而是以挑戰者身份參與算法、調試、推理等高難度任務。能拿錢確實很重要,不過“解決問題帶來的成就感”與“社區聲望”是更強的黏性來源。
Datacurve成立僅一年就完成種子輪
(270萬美元)與A輪
(1500萬美元),總融資1770萬美元。
雖然規模很小,但是勝在速度。
投資陣容包括Chemistry VC、YC等知名機構,以及多位來自DeepMind、OpenAI、Anthropic等AI巨頭的高管以個人身份參與投資。
![]()
▲Datacurve聯合創始人,Serena Ge(左)和人Charley Lee(右)
投資人看中的不是一個新的數據外包公司,而是一個有機會填補“專家數據缺口”的平臺型產品。
Datacurve的擴張不依賴人力堆疊,而是更像互聯網產品那樣具備指數級增長的可能性。它更像是一種新型基礎設施:一個能夠持續吸引高水平專業人士,并將他們的思維過程沉淀為可復用數據資產的系統。
隨著越來越多AI實驗室意識到:模型性能的提升,不再取決于算力,而在于是否能持續獲得高質量人類推理,這種“平臺化的專家網絡”顯得愈發稀缺。
Datacurve想回答的問題也由此從“如何收集數據”,進一步走向一個更大的命題:
如果數據變成智能時代重要的生產要素之一,那么工程師社區與數據基礎設施能否融合成一套全新的工業系統?
文/朗朗
PS:如果你對AI大模型領域有獨特的看法,歡迎掃碼加入我們的大模型交流群。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.