![]()
在AI價(jià)值驗(yàn)證的維度上,金融、工業(yè)、能源、港口等核心場(chǎng)景的深度優(yōu)化,遠(yuǎn)比前端的辦公、客服類應(yīng)用更具說服力——這些場(chǎng)景的門檻更高、容錯(cuò)空間更窄,對(duì)智能體的易用性、安全性、透明度以及可量化的ROI有著真實(shí)且嚴(yán)苛的要求。
在中國豐富的產(chǎn)業(yè)AI土壤里,需要的智能體不僅是一套能覆蓋從數(shù)據(jù)體系建立到模型優(yōu)化到效果方案的AI工具,更重要需要一套能在復(fù)雜工程環(huán)境中真正跑通、能讓企業(yè)看到可量化業(yè)務(wù)結(jié)果的智能體系統(tǒng)。
作者|皮爺
出品|產(chǎn)業(yè)家
最近,一個(gè)成績單再度在海外AI社區(qū)引發(fā)AI人士關(guān)注。在機(jī)器學(xué)習(xí)工程權(quán)威基準(zhǔn)榜單MLE-Bench公布的排名中,百度伐謀Agent 2.0再度登頂,并刷新SOTA成績。
對(duì)MLE-Bench的一個(gè)通俗解釋是,相較于其他AI測(cè)試榜單,其更多的任務(wù)設(shè)定圍繞具體的企業(yè)實(shí)際工程問題,如數(shù)據(jù)體系、特征工程、模型效果和評(píng)估等等。換言之,它真正考察的是智能體解決實(shí)際問題的能力,而非大模型本身的參數(shù)規(guī)模。
這也是這次SOTA成績破圈的原因。過去的幾年,不論是服務(wù)商還是產(chǎn)業(yè)企業(yè),對(duì)于AI的關(guān)注焦點(diǎn)都更多在通用大模型或行業(yè)大模型本身,在2026年的今天,智能體的工程化落地能力,正在取代模型參數(shù),開始成為企業(yè)選型的首要考量。
“其實(shí)在我們看來,‘通用大模型+RAG’能解決80%的問題,但剩下的核心環(huán)節(jié)的20%我們還是希望能有更優(yōu)秀的智能體來解決。”在之前的采訪交流中,一位電力相關(guān)的企業(yè)技術(shù)負(fù)責(zé)人告訴產(chǎn)業(yè)家。
這樣的需求不在少數(shù)。伴隨著2026年龍蝦的爆火,外界對(duì)于企業(yè)級(jí)Agent開始有了更多的期待,即一個(gè)能真正“自進(jìn)化、自執(zhí)行”的最優(yōu)解企業(yè)智能體應(yīng)該是怎樣的?相較于“龍蝦”的不可控、“黑箱”執(zhí)行,對(duì)橫跨41個(gè)產(chǎn)業(yè)鏈類目,場(chǎng)景、環(huán)節(jié)、協(xié)同足夠復(fù)雜的中國產(chǎn)業(yè)企業(yè)而言,到底怎樣的AI范式能轉(zhuǎn)化為最直接的生產(chǎn)力加持?
這次登頂背后,百度伐謀,再次站到產(chǎn)業(yè)舞臺(tái)中心。
一、百度伐謀再登頂MLE-Bench:意味著什么?
首先來看這次登頂本身。根據(jù)MLE-Bench發(fā)布的成績顯示,百度伐謀Agent 2.0繼去年1.0發(fā)布即登頂后,再次刷新了自己的成績。
MLE-Bench,是由OpenAI主導(dǎo)設(shè)立的檢驗(yàn)智能體“動(dòng)手能力”最具含金量的實(shí)戰(zhàn)考場(chǎng),這個(gè)考場(chǎng)主要包含75個(gè)來自Kaggle競(jìng)賽的真實(shí)工程難題,重點(diǎn)考察人工智能在模型訓(xùn)練、數(shù)據(jù)準(zhǔn)備、實(shí)驗(yàn)運(yùn)行等機(jī)器學(xué)習(xí)全流程中的端到端實(shí)戰(zhàn)能力。
![]()
這次最值得關(guān)注的,是伐謀在"高難度任務(wù)"上的表現(xiàn)——在15道最難的題目中,百度伐謀取得9項(xiàng)第一。
如果說普通題目對(duì)應(yīng)的是常規(guī)企業(yè)的真實(shí)內(nèi)部場(chǎng)景,那么“高難度任務(wù)”對(duì)應(yīng)的就是現(xiàn)實(shí)中數(shù)字化基礎(chǔ)薄弱、環(huán)節(jié)流程等更復(fù)雜、更繁瑣的企業(yè)場(chǎng)景,比如
臟亂的歷史數(shù)據(jù)、殘缺的業(yè)務(wù)記錄、多源異構(gòu)的系統(tǒng)對(duì)接。
舉例來看,比如百度伐謀取得高分的“臟數(shù)據(jù)+高缺失值場(chǎng)景”的測(cè)試,其對(duì)應(yīng)的就是真實(shí)企業(yè)業(yè)務(wù)場(chǎng)景中如傳統(tǒng)制造業(yè)老設(shè)備數(shù)據(jù)、線下零售雜亂數(shù)據(jù)、醫(yī)療殘缺病歷、政務(wù)多源異構(gòu)數(shù)據(jù)、IoT亂碼數(shù)據(jù)等難題,其考察的主要是智能體能否可以自主完成數(shù)據(jù)清洗、特征工程提取等能力,幫助企業(yè)以最小的成本自主完成數(shù)據(jù)體系搭建。
再比如“高維時(shí)序預(yù)測(cè)”場(chǎng)景,這個(gè)偏學(xué)術(shù)式的任務(wù)反映到現(xiàn)實(shí)場(chǎng)景就是最真實(shí)的趨勢(shì)預(yù)測(cè),比如電網(wǎng)負(fù)荷預(yù)測(cè)、交通流量預(yù)測(cè)、供應(yīng)鏈銷量以及設(shè)備壽命預(yù)測(cè)等等,能出色完成這類命題,就代表智能體具備解決復(fù)雜趨勢(shì)預(yù)測(cè)的能力;多目標(biāo)結(jié)構(gòu)化優(yōu)化任務(wù),其對(duì)應(yīng)到企業(yè)場(chǎng)景則是最真實(shí)的港口調(diào)度、服務(wù)器機(jī)房調(diào)度等命題,通過對(duì)全局問題的拆解以及不同方案的排列組合得出全局最優(yōu)解。
可以說,相較于整體的SOTA,這些“高難度任務(wù)”的最高分?jǐn)?shù)才更是外界關(guān)注的重點(diǎn)。即這些任務(wù)已足夠貼近企業(yè)真實(shí)場(chǎng)景,尤其是中國復(fù)雜場(chǎng)景的工程環(huán)境,比如金融風(fēng)控,比如港口調(diào)度,比如交通管控等等,百度伐謀的分?jǐn)?shù)表現(xiàn)也對(duì)應(yīng)的是其能夠在這些復(fù)雜、混亂且數(shù)字化基礎(chǔ)不一致的真實(shí)產(chǎn)業(yè)環(huán)境中,得出核心業(yè)務(wù)環(huán)節(jié)的更優(yōu)解方案。
實(shí)際上,關(guān)于這次測(cè)試在海外還有另外一個(gè)小插曲,另一家參賽企業(yè)的Agent在執(zhí)行過程中,接收了來自私有測(cè)試集的反饋信號(hào),以此作為決策依據(jù)——這與真實(shí)業(yè)務(wù)場(chǎng)景的規(guī)則相悖:現(xiàn)實(shí)中不可能把未來的真實(shí)數(shù)據(jù)提前泄漏給Agent。這一做法在GitHub社區(qū)引發(fā)大量討論,最終MLE-Bench維護(hù)者新建了獨(dú)立的"數(shù)據(jù)泄漏嫌疑"賽道,將相關(guān)成績移出主榜。百度伐謀堅(jiān)守了不使用私有測(cè)試集反饋、不引入外部網(wǎng)絡(luò)數(shù)據(jù)的實(shí)驗(yàn)原則,在主榜上的第一位置得以正名。
這個(gè)高分?jǐn)?shù),對(duì)應(yīng)也恰是百度伐謀Agent 2.0相較于1.0的系統(tǒng)性升級(jí)。
其一,增強(qiáng)的演化策略,傳統(tǒng)智能體往往沿單一路徑探索,容易陷入局部最優(yōu);伐謀2.0增強(qiáng)的演化策略能夠讓智能體在多條路徑上并行探索,同時(shí)適時(shí)回溯調(diào)整,讓智能體"想得更全面、走得更聰明"。
長程記憶機(jī)制和基于百度智能云的底層基礎(chǔ)設(shè)施優(yōu)化。前者對(duì)應(yīng)的是保證智能體能在多個(gè)環(huán)節(jié)中保持上下文連貫性,記住之前的分析、決策和中間結(jié)果,在長鏈路任務(wù)中保持思路清晰、一致。
后者則對(duì)應(yīng)的是資源層和算法層的更優(yōu)適配,包括計(jì)算資源調(diào)度、任務(wù)并行執(zhí)行、容錯(cuò)恢復(fù)、資源隔離等等,讓整個(gè)智能體系統(tǒng)"跑得穩(wěn)、跑得快、跑得可靠"。
這三項(xiàng)新技術(shù)也恰共同構(gòu)成了伐謀Agent 2.0最新的TO B場(chǎng)景問題解決能力。演化策略決定"能找到多好的解",長程記憶決定"能做多復(fù)雜的任務(wù)",基礎(chǔ)設(shè)施決定"能跑得多穩(wěn)定可靠"。三者協(xié)同,支撐起智能體在復(fù)雜企業(yè)場(chǎng)景中的端到端問題求解能力。
二、企業(yè)AI下半場(chǎng),被正式吹響的“智能體號(hào)角”
在剛剛過去的3月份,硅谷有幾個(gè)熱詞同樣被人們關(guān)注,比如Harness Engineering,比如Agentic infra,這些熱詞背后對(duì)應(yīng)的人們的核心期待是:AI不應(yīng)該再只停留在模型側(cè)的比拼,而應(yīng)該把智能體放到前臺(tái)。AI應(yīng)該具備解決問題,甚至解決好問題的能力。
即在如今的2026年,一個(gè)共識(shí)是模型側(cè)的能力趨于一致,不論是國外的Claude、GPT,還是國內(nèi)的DeepSeek、千問、豆包、文心等,在通用基礎(chǔ)能力上的差距已大幅收窄。智能體框架的工程化能力,開始成為真正的服務(wù)商價(jià)值衡量點(diǎn)。
為此,企業(yè)已經(jīng)交了不少學(xué)費(fèi)。一份來自咨詢機(jī)構(gòu)RAND發(fā)布的2026年企業(yè)AI落地報(bào)告數(shù)據(jù)顯示,目前全球企業(yè)AI項(xiàng)目整體失敗率高達(dá)80.3%:其中33.8%在開發(fā)階段即被廢棄,未能上線;28.4%雖完成部署但完全無法產(chǎn)生業(yè)務(wù)價(jià)值;僅有19.7%的項(xiàng)目真正實(shí)現(xiàn)預(yù)期目標(biāo)與規(guī)模化ROI。而同樣一組來自Gartner的2026年工業(yè)AI落地報(bào)告顯示,全球85%的工業(yè)AI項(xiàng)目無法跨越從試點(diǎn)到規(guī)模化生產(chǎn)的“死亡谷”。
失敗的原因往往指向同一類問題:數(shù)據(jù)清洗與特征工程不完備導(dǎo)致模型理解能力受限;長記憶能力缺失導(dǎo)致執(zhí)行中途卡殼;部分任務(wù)運(yùn)算過載,成本失控。
在中國的產(chǎn)業(yè)環(huán)境里,AI無法落地還有一個(gè)真實(shí)的底層原因:人才密度不夠。不論是數(shù)據(jù)體系搭建、特征工程還是模型調(diào)優(yōu),常規(guī)的方式每個(gè)環(huán)節(jié)都需要人參與。但對(duì)大部分中國傳統(tǒng)企業(yè)而言,優(yōu)秀的算法工程師的招募和留用都是難題。
這種從智能體落地到人才團(tuán)隊(duì)匱乏的難題疊加最終在中國真實(shí)產(chǎn)業(yè)環(huán)境中呈現(xiàn)出“遲緩的AI進(jìn)度”——大部分AI落地項(xiàng)目仍然只停留在客服、營銷、辦公等通用環(huán)節(jié),而在銷量預(yù)測(cè)、風(fēng)控、調(diào)度等企業(yè)核心競(jìng)爭(zhēng)力場(chǎng)景,AI很難真正扎根。
這也是百度伐謀Agent 2.0再次霸榜引發(fā)產(chǎn)業(yè)界關(guān)注的深層原因。相較于1.0版本,百度伐謀Agent 2.0如今做到了進(jìn)一步“算法平權(quán)”,即使是沒有算法背景的業(yè)務(wù)人員,也可以通過自然語言和數(shù)據(jù)文件發(fā)起需求,系統(tǒng)自動(dòng)交付可解釋、可交互、可落地的決策方案,快速產(chǎn)出企業(yè)級(jí)解決方案。
![]()
在這一邏輯下,不論是產(chǎn)業(yè)鏈的鏈主,還是產(chǎn)業(yè)鏈其它企業(yè),都等同于擁有“最頂尖的算法工程師”,幫助企業(yè)在環(huán)境復(fù)雜、數(shù)據(jù)復(fù)雜的場(chǎng)景中以最小的成本完成從從數(shù)據(jù)清洗到特征工程到模型訓(xùn)練、調(diào)優(yōu),以及方案效果評(píng)估等全部流程。
實(shí)際上,這樣的AI加持的答卷已經(jīng)有了真實(shí)的產(chǎn)業(yè)注腳。
比如在汽車制造領(lǐng)域,阿爾特太乙與伐謀合作研發(fā)御風(fēng)智能預(yù)測(cè)系統(tǒng),單次風(fēng)阻驗(yàn)證時(shí)間從10小時(shí)壓縮至數(shù)分鐘,整車研發(fā)周期平均縮短25%;在金融風(fēng)控領(lǐng)域,中信百信銀行引入伐謀7×24小時(shí)不間斷挖掘風(fēng)險(xiǎn)特征,效率提升100%,風(fēng)控模型風(fēng)險(xiǎn)區(qū)分度提升2.41%。
如今,已經(jīng)有近千家企業(yè)將百度伐謀作為自身AI體系建設(shè)的核心支撐,覆蓋零售、金融、制造、能源、交通等多個(gè)領(lǐng)域。
在產(chǎn)業(yè)落地之外,伐謀在科研場(chǎng)景同樣展現(xiàn)出強(qiáng)勁潛力。北京工業(yè)大學(xué)將伐謀引入中國空間站微型氣相色譜柱設(shè)計(jì),以自動(dòng)化尋優(yōu)代替人工反復(fù)仿真,大幅提升分離效率;天津大學(xué)將伐謀用于災(zāi)害預(yù)測(cè)模型選優(yōu),把原本以"周"為單位的科研探索壓縮至6小時(shí)內(nèi)出成果。
為進(jìn)一步降低科研團(tuán)隊(duì)的使用門檻,百度智能云近期還開源了Famou for Science項(xiàng)目,基于多智能體協(xié)同模式構(gòu)建完整虛擬科研團(tuán)隊(duì),涵蓋團(tuán)隊(duì)負(fù)責(zé)人、實(shí)驗(yàn)管理、文檔管理與評(píng)審等角色,可支持長線程科研任務(wù)的自動(dòng)化推進(jìn)。
三、中國產(chǎn)業(yè)鏈升級(jí),到底需要怎樣的AI助力?
“中國和海外的AI需求其實(shí)是不同的,中國企業(yè)的數(shù)字化基礎(chǔ)較差,底層建設(shè)也比較晚,不論是在軟件時(shí)代還是現(xiàn)在的智能體時(shí)代,其實(shí)需要的都是偏集成服務(wù)、效果服務(wù)的模式。”一位軟件服務(wù)商告訴產(chǎn)業(yè)家。
誠然如此。在剛剛過去的幾個(gè)月時(shí)間里,“龍蝦”熱潮席卷中國企業(yè)級(jí)AI市場(chǎng),與之對(duì)應(yīng)的是盡管不少服務(wù)商幫助企業(yè)落地了“龍蝦”相關(guān)能力,助力企業(yè)在特定環(huán)節(jié)實(shí)現(xiàn)“自執(zhí)行、自進(jìn)化”,但最終仍收效甚微。
本質(zhì)原因恰在于中國產(chǎn)業(yè)環(huán)境的復(fù)雜性。中國是全世界唯一擁有聯(lián)合國產(chǎn)業(yè)分類中全部41個(gè)工業(yè)大類、207個(gè)中類、666個(gè)小類的國家,這代表中國擁有全球最完整、規(guī)模最大的工業(yè)體系——這些復(fù)雜的產(chǎn)業(yè)環(huán)境也恰造就了龍蝦框架下的單線程智能體思考方式很難尋求到細(xì)分環(huán)節(jié)的最優(yōu)解,這種“不確定性”反饋到最終的企業(yè)內(nèi)部則是真實(shí)的“不可用、不可控”。
![]()
而百度伐謀的特殊智能體框架設(shè)計(jì)之初就是面向這種復(fù)雜性的。
無論是車輛路徑規(guī)劃、排產(chǎn)調(diào)度、金融風(fēng)險(xiǎn)預(yù)測(cè),還是復(fù)雜的GPU Kernel優(yōu)化,企業(yè)只需要給出明確的評(píng)價(jià)標(biāo)準(zhǔn),伐謀都能像頂尖算法工程師一樣,自動(dòng)化完成從需求理解到最優(yōu)解輸出的全鏈路,用AI進(jìn)化代替人工試錯(cuò),最終呈現(xiàn)給完備、可執(zhí)行落地的企業(yè)AI方案。
在使用門檻進(jìn)一步降低之外,還尤為一提的是,百度伐謀還兼顧安全和“進(jìn)化”的能力。比如基于企業(yè)對(duì)數(shù)據(jù)隱私和算力成本的顧慮,伐謀上線了本地評(píng)估方案,推出“云端生成算法+本地完成評(píng)估”架構(gòu)。企業(yè)無需上傳敏感業(yè)務(wù)數(shù)據(jù),只需在本地反饋評(píng)估指標(biāo),即可在云端享受伐謀的演化能力。
初步方案完成后,針對(duì)業(yè)務(wù)場(chǎng)景動(dòng)態(tài)變化,伐謀還構(gòu)建了“智能原生”的持續(xù)優(yōu)化能力,在全流程中尋找并維持全局最優(yōu)解,而不是完成一次交付后就原地停滯。
相較于目前市面上的專項(xiàng)智能體,百度伐謀更等同于一個(gè)真實(shí)進(jìn)化的“駐場(chǎng)算法專家”,既能根據(jù)企業(yè)的實(shí)際條件與業(yè)務(wù)環(huán)境實(shí)時(shí)給出最優(yōu)方案,也能在環(huán)境變化時(shí)持續(xù)迭代,而非依賴一次性調(diào)優(yōu)。
在AI價(jià)值驗(yàn)證的維度上,金融、工業(yè)、能源、港口等核心場(chǎng)景的深度優(yōu)化,遠(yuǎn)比前端的辦公、客服類應(yīng)用更具說服力——這些場(chǎng)景的門檻更高、容錯(cuò)空間更窄,對(duì)智能體的易用性、安全性、透明度以及可量化的ROI有著真實(shí)且嚴(yán)苛的要求。
在中國豐富的產(chǎn)業(yè)AI土壤里,需要的智能體不僅是一套能覆蓋從數(shù)據(jù)體系建立到模型優(yōu)化到效果方案的AI工具,更重要需要一套能在復(fù)雜工程環(huán)境中真正跑通、能讓企業(yè)看到可量化業(yè)務(wù)結(jié)果的智能體系統(tǒng)。
從這個(gè)標(biāo)準(zhǔn)來看,百度伐謀,正在成為中國產(chǎn)業(yè)土壤里最接近答案的那個(gè)選項(xiàng)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.