![]()
“高質量數據稀缺時代,人機協同的智能數據標注正改寫AI能力邊界。
當互聯網公開數據的99%被“耗盡”,其邊際紅利必然遞減。隨著AI的飛速發展,大模型已充分“消化”了易于獲取的高質量公開語料,而剩余的互聯網數據要么質量參差、要么重復率高,難以支撐模型能力的實質性躍升。與此同時,模型參數以指數級增長,而能滿足特定任務需求、具備專業深度的“高價值數據”卻只能以線性速度生產。這二者之間的裂痕,已從隱憂演變為深嵌于AI底層邏輯之中的結構性瓶頸。
而高質量的人工標注與審核,是確保數據真實性、專業性與多樣性的可靠保障。這也意味著數據標注正從幕后走向臺前,成為決定AI能力邊界的關鍵基石。
為嘗試在這場關于數據價值的重構與突圍中,探尋變革的源頭與路徑。近日,數據猿采訪到了本原智數CTO林震亞。林震亞的經歷,恰是這個時代的一個注腳:他曾在某國內領先的大模型廠商擔任研發負責人,但他卻做出來一個看似“反常”的決定——加入一家數據標注公司。這場看似“逆行”的職業跨越,實則暗含著大模型與數據關系的根本性位移——當AI的競爭從模型架構的比拼,轉向數據質量的角力,真正懂得模型的人,反而更清楚數據的價值所在。
![]()
從“算力軍備”到“數據精耕”:
AI競賽的邏輯正在被改寫
曾經,誰掌握更多算力,探索出更優訓練策略,誰就能在大模型賽道占據先機。如今,這一邏輯正在被改寫。
林震亞認為,整個行業正逐漸行業正逐漸進入一個高質量數據相對稀缺的發展新階段。想要進一步推動大模型性能的提升,需要聚焦3個核心攻堅方向,精準發力。
提升大模型的“智力表現”是第一個方向,這也是區別于傳統深度學習工具的核心所在。傳統AI僅能解決單一明確的任務,而大模型的核心價值在于具備類人思考能力,能夠更高效地學習垂域知識、理解復雜需求,而非用笨拙的方式完成任務。這一方向的突破,離不開頂級算法人才與高質量認知數據的協同推進。
第二個核心攻堅方向是提升大模型處理“長程復雜任務”的能力。對于人類而言,日常工作生活多是由一系列關聯緊密的細碎任務構成,而非高頻的高難度難題。但當前AI智能體在處理這類連貫、復雜的長程任務時,仍存在諸多瓶頸,難以像人類一樣靈活銜接、高效完成。
因此,無論是日常事務的規劃,還是工作流程的推進,這類長程復雜任務的處理能力直接決定了AI能否真正融入人類生產生活,成為實用的生產力工具。
第三個攻堅方向則是增強大模型的“多模態與世界交互”能力。如今,大模型雖已能攻克頂級數學競賽難題,但卻難以像嬰兒一樣具備基礎的空間理解和世界感知能力,這也是當前硅谷“世界模型”概念持續升溫的核心原因。
提升多模態理解能力,讓大模型能夠精準感知空間關系,理解物體交互邏輯,實現與現實世界的有效聯動,是打破AI“紙上談兵”困境、拓展其應用邊界的關鍵。這一方向的突破,需要對物理世界有深刻理解的專家參與,通過精準定義問題、提供針對性數據,推動模型迭代升級。
隨著AI行業的不斷成熟,以及產業鏈的專業化分工日益清晰,“大模型廠商定目標、數據公司做支撐”的格局逐漸成型。
林震亞認為,LLM大廠憑借自身資源優勢,聚焦于定義AI產品目標、追求市場聲量,一方面通過優化用戶體驗,滿足終端用戶的實際需求,比如大廠關注用戶日常場景中的高價值需求,將其抽象為模型優化目標;另一方面通過“刷榜”提升行業影響力,搶占市場話語權。
與之相對,“頂尖的數據公司則在AI產業鏈中承擔著‘核心支撐’的角色,深度參與評測標準(Benchmark)的構建與落地:一方面,將抽象的研究目標轉化為可執行的數據方案;另一方面,通過高質量數據的規模化生產,為模型優化提供精準適配的燃料。”
從行業現狀來看,數據驅動已成為AI大模型突破的切實路徑,而數據公司的角色愈發不可替代。在AI邁入高質量數據相對匱乏的新階段,數據公司不再是產業鏈的配角,而是決定AI能力上限、推動行業持續向前的核心力量。數據公司的核心競爭力不僅在于數據生產能力,更在于定義問題、明確優化方向的能力。這既是AI產業鏈走向精細化分工的必然趨勢,也為數據服務企業開辟了全新的價值空間。
AI落地垂直領域
定制化數據成破局關鍵
進入到2026年,尤其是以Openclaw為代表的智能體技術的躍遷,加速了AI落地垂直產業的步伐,這對于數據標注也提出了新的要求。
眾多企業雖在積極儲備垂直領域數據,但仍存在顯著短板,如數據主觀性強、難以標準化等。對此,林震亞舉了一個例子,“兩位資深主任醫師對同一病癥的診斷結果可能一致,但診斷過程卻存在差異,且缺乏客觀標準判斷優劣。若直接用于模型訓練,極易導致模型出現偏差,影響應用效果。此外,高端專家資源獲取困難,也進一步加劇了數據質量提升的難度。”
不同于低端數據標注人才可通過高校招募、社會對接等方式集中管理,醫生等高端專家往往難以全職任職,無法長期參與數據處理工作。
今年,搭建高端眾包平臺已成為行業內的重點布局方向,成為破解數據痛點的重要組織創新。通過這種方式可以打破時間與空間的限制,整合各領域頂尖專家資源,讓專家能夠靈活參與數據定義、標注與審核等工作,既能解決高端人才短缺的問題,也能有效提升數據的專業性與準確性,為AI應用的落地掃清人才障礙。
![]()
同時,加速垂直領域數據的建設,核心在于思路的改變,林震亞提出了一個核心策略:以通用數據能力為基石,向高端定制數據持續躍遷。這意味著,企業既需要具備“多場景全覆蓋”的工程化平臺能力——這是服務廣泛客戶需求的基礎;又需要在關鍵垂域構建“專家觸達+智能體輔助”的深度能力——這是構筑競爭壁壘的關鍵。通用數據能力是“面”,高端定制數據是“點”,以面支撐點、以點帶動面。
企業的核心護城河不在于囤積多少通用數據,而在于從0到1定義問題、提供定制化解法的工程能力。聚焦“最難目標”打造定制化數據,不僅能精準解決AI應用的核心需求,在攻克高難度任務的過程中積累的技術與能力,而且還能實現復用,進一步提升數據建設的效率與價值。
“邊學邊標”
人機協同如何提升數據標注效率?
隨著AI行業從通用大模型向行業落地推進,數據標注已擺脫傳統勞動密集型模式,邁入智能標注新階段。
相較于傳統標注,智能數據標注的核心優勢是“邊學邊標”(Active Learning + Auto-labeling)的人機協同模式,即通過預標注算法與人工審核深度融合,在保障數據安全和標注質量的前提下,將標注效率提升數倍、大幅降低成本,成為破解行業痛點、支撐AI高質量發展的關鍵。
“邊學邊標”的穩定運行依賴兩大核心技術支柱。其一為預標注邏輯,由AI先完成數據初步標注,為人工審核搭建基礎框架,大幅減少重復勞動。
其二為自動質檢邏輯,通過專業質檢模型,在人工修正前后提前識別數據問題,規避標注偏差,保障數據準確性。
兩大支柱形成“AI預標—人工修正—質檢校驗—模型優化”的良性循環,真正實現“邊學邊標、邊標邊優”。
![]()
理解智能標注的優勢,需明確核心技術區別。預標注所用模型與行業前沿模型用途迥異。預標注采用“工程化組合模型”,整合市面最優模型接口及開源模型,核心目標是提升標注效率、輔助數據生產,適配各類復雜場景;而前沿模型多為“標準化單模型”,用于基于高質量數據單獨微調,服務于學術研究或特定技術突破,與標注生產需求無關。
“對于我們而言,明確二者區別是清晰的戰略取舍:我們的核心使命是‘生產高質量數據’,而非沉迷前沿模型研發、刷榜單或追求單一指標。實現這一點,在于通過工程化手段將預標注做到極致,憑借高效與質量控制,確立自身在數據供應鏈中的不可替代性,聚焦核心需求、避免技術內卷。”林震亞說道。
本原智數的實踐生動詮釋了“邊學邊標”的價值與“聚焦高質量數據”的戰略。其自動標注平臺實現多場景全覆蓋,涵蓋語音、圖像、文本等領域,依托對算法的深度理解和工程化組合模型,預標注效率與質量遠超同類企業。
在前沿項目承接上,本原智數直接對接大廠基模團隊,跳過不專業的數據部門,承接大量Post-Training等前沿項目,設計類項目產能達其他供應商總和的10倍,質量通過率超95%。
同時,其聯動高校實驗室定義評測標準,推動科研成果規模化落地,依托頂尖專家網絡攻克垂域難題,拒絕“大路貨”數據,為AI前沿發展提供定制化高質量數據支撐。
林震亞進一步闡述說:“需要說明的是,對于規則明確、重復性高的任務,‘邊學邊標’可大幅提升效率;對于高度專業、主觀性強的垂域任務,還需要專家定義標注邏輯與審核標準,智能體負責執行與輔助。”
專家觸達+效能標尺+目標導向
垂直領域AI落地核心
但由專家定義和標注的數據并非無懈可擊。正像前文所言,在醫療、金融、司法等垂直領域,AI落地面臨獨特挑戰:垂域數據缺乏客觀統一標準,直接訓練易引入偏差,導致模型泛化能力差、難以測算實際效能。而高端專家的深度參與,恰恰是破解這一困局的關鍵——但專家的價值不在于逐條標注,而在于建立規則、把控關鍵、迭代標準。
![]()
基于這一認知,本原智數構建了“專家觸達—Benchmark定義—智能體輔助—目標導向”的技術邏輯,鍛造核心競爭力。
專家觸達網絡連接散落的高端智力。摒棄全職雇傭模式,搭建高端眾包平臺,鏈接醫生、律師、金融分析師等資深專家。通過靈活協作,將分散的專業智慧轉化為可復用的“活數據”,避免數據收集的封閉性與偏差。
定義垂域Benchmark,從“合規標準”到“效能標尺”。不盲從政府或機構標準,而是參照SWE-Bench等成熟評測體系,定義能精準測算人效提升的垂直Benchmark。例如,針對醫療診斷場景,設計可量化“模型輔助診斷準確率提升比例”“單病例處理時間縮短幅度”的測試集,直接關聯企業成本與效能。
科研智能體輔助,快速突破模型邊界。利用現有數據與專家資源,開發輕量化科研智能體,無需復雜調研與實驗,直接基于真實數據測試模型能力邊界,針對性標注Bad Case(如誤診案例、風控漏判場景),快速生成高質量垂域數據集,降低數據構建成本。
最后是目標導向,回歸商業本質。所有數據集建設與模型優化,均需錨定“企業降本增效”核心目標,明確“降低多少人力成本”“提升多少業務產能”,通過Benchmark測算智能體表現(如達到人類專家90%水平可替代50%基礎崗位),讓技術落地可感知、可驗證。
垂直領域AI落地的關鍵在于鏈接高端智力、設計可測算標尺、智能體輔助能力的融合。通過最大化專家單位時間價值(如用模型輔助標注提升效率)、以目標倒推數據建設,最終實現從“數據堆砌”到“效能提升”的跨越,讓AI真正成為垂直領域的“生產力工具”。
具身智能
下一輪技術革命的必爭之地
當人工智能從虛擬世界走向物理現實,具身智能(Embodied AI)正在成為下一輪技術革命的必爭之地。
具身智能的核心,是讓AI在開放的物理空間中完成感知、交互與執行。這一切的起點,是物理世界數據的獲取與標注——但這已不再是簡單的文字和圖像標注,而是構建包含多模態、物理交互與時序信息的世界模型。
![]()
而構建世界模型,需要海量、可控、可標注的空間交互數據。物理世界的數據獲取難度大、成本高、規模受限,產業界為此一直在艱難探索。
本原智數在物理世界與人機交互數據方面已形成獨一份的競爭優勢。通過對各類游戲虛擬場景的深度重構,能夠提取純場景的動作數據,剔除血條、裝備欄等無關UI元素,只保留純凈的空間變化與動作邏輯。
這類數據不僅能支撐具身智能的仿真訓練,比如為自動駕駛模型提供虛擬極端場景訓練數據,降低實車測試成本,更是大模型領域稀缺的高壁壘資產。
林震亞認為:“在具身智能的迷霧期,唯有廣度方能抵御不確定性,唯有深度方能構筑長期壁壘。通過前端的廣度覆蓋,適配各類具身智能落地場景,為不同技術路徑提供數據支撐。通過后端的世界模型資產布局,掌握核心稀缺數據,構建難以超越的競爭優勢。”
從通用大模型到垂直產業落地,從物理世界仿真到世界模型構建,數據正以更精準、更智能、更具專業深度的形態,成為AI邁向“真實生產力”的關鍵一躍。
在這場關于數據價值的重構與突圍中,那些既能定義問題、又能規模化生產高質量數據的公司,終將站在AI產業的最前沿,成為撬動技術革命的那個支點。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.