![]()
新智元報(bào)道
編輯:KingHZ
【新智元導(dǎo)讀】「高燒」三年后,AI行業(yè)終于冷靜:Scaling紅利即將耗盡,單純堆參數(shù)絕非良藥。但商湯已胸有成竹。
我們是否已經(jīng)觸碰到了LLM的天花板?
近日,在商湯科技與香港科技園公司聯(lián)合主辦的「模型智未來·2025商湯科技AI論壇」上,商湯科技聯(lián)合創(chuàng)始人、首席科學(xué)家林達(dá)華發(fā)表主題演講《從能力涌現(xiàn)到價(jià)值閉環(huán),多模態(tài)大模型價(jià)值與創(chuàng)新之路》,分享了對AI發(fā)展現(xiàn)狀與未來趨勢的深刻洞察。
林達(dá)華回顧了過去三年人工智能行業(yè)的爆發(fā)式發(fā)展。
ChatGPT問世以來,最初業(yè)界深信「尺度定律」,認(rèn)為通過堆砌算力和數(shù)據(jù)就能通往AGI;但2024年后發(fā)展節(jié)奏放緩,行業(yè)陷入迷茫;直到OpenAI o1及DeepSeek R1的出現(xiàn),通過后訓(xùn)練范式的變革,包括長思維鏈、強(qiáng)化學(xué)習(xí)和Test-Time Scaling,突破了模型能力上升的瓶頸。
![]()
林達(dá)華直言,現(xiàn)在的AI行業(yè)已經(jīng)走到了「十字路口」。
經(jīng)過三年「烈火烹油」式的發(fā)展,「我們再次走到了關(guān)鍵十字路口」,林達(dá)華指出,接下來行業(yè)發(fā)展有兩條重要路徑:一是AI需要真正落地應(yīng)用,以價(jià)值驅(qū)動技術(shù)和應(yīng)用的發(fā)展;二是需要回歸實(shí)驗(yàn)室,探索下一次技術(shù)范式的原始創(chuàng)新。
「每一次突破背后都來自技術(shù)的原始創(chuàng)新,今天我們再一次需要用創(chuàng)新來打破當(dāng)前的技術(shù)發(fā)展瓶頸。」林達(dá)華還分享了商湯在多模態(tài)等領(lǐng)域的多項(xiàng)原創(chuàng)性的底層創(chuàng)新成果。
如下是林達(dá)華的演講內(nèi)容,在這里分享給大家:
AI再迎「十字路口」
雙輪驅(qū)動破局發(fā)展瓶頸
非常榮幸,今天能和大家分享商湯在這個(gè)激動人心、快速演進(jìn)的時(shí)代中的一些觀察、思考,以及我們最近的研發(fā)進(jìn)展。
大家應(yīng)該記憶猶新,2022年11月,ChatGPT橫空出世震撼了全世界。從那時(shí)到現(xiàn)在這三年,可以說是全球科技史上演進(jìn)最快、變化最劇烈的三年。我也很榮幸能與團(tuán)隊(duì)一起,在這樣的浪潮中不斷思考和探索。
在2023年,整個(gè)行業(yè)——無論是學(xué)術(shù)界、工業(yè)界還是投資圈——都在討論一個(gè)名詞叫「尺度定律」(Scaling Law)。當(dāng)時(shí)普遍認(rèn)為,只要有足夠多的GPU和足夠大規(guī)模的數(shù)據(jù),就能訓(xùn)練出最強(qiáng)的模型,從而找到邁向AGI(通用人工智能)的道路。
在隨后幾個(gè)月,OpenAI持續(xù)引領(lǐng)浪潮,從ChatGPT發(fā)展到GPT-4,業(yè)界對尺度定律深信不疑。但到2024年年中之后,大家感覺發(fā)展節(jié)奏放緩,行業(yè)陷入迷茫。
直到2024年第四季度,OpenAI推出o1,通過慢思考和Test-Time Scaling等技術(shù),再次突破了大模型的能力邊界。2025年初,DeepSeek-R1問世,它通過開源和詳實(shí)的技術(shù)報(bào)告展示了達(dá)到高水平推理的路徑。
后訓(xùn)練的Scaling讓大模型推理能力達(dá)到前所未有的高度,在數(shù)學(xué)、編程等方向達(dá)到人類最優(yōu)秀選手的水平。
但是,這代表了技術(shù)的終局么?
而就在近期,OpenAI前首席科學(xué)家伊利亞指出,原來主要依靠大算力Scaling的路徑,都已逐漸走到了瓶頸,無論是預(yù)訓(xùn)練還是后訓(xùn)練都將面臨挑戰(zhàn)。
人工智能經(jīng)過三年「烈火烹油」式發(fā)展,我們再一次走到了十字路口,接下來該往哪去?
在我看來有兩條非常重要的路徑:一是人工智能不能只停留在榜單成績上,而要真正落地應(yīng)用,以價(jià)值驅(qū)動技術(shù)和應(yīng)用發(fā)展;二是如伊利亞再次強(qiáng)調(diào)的,我們應(yīng)該回到實(shí)驗(yàn)室,重新探索下一次技術(shù)范式的變革。
無論是ChatGPT、o1、DeepSeek R1,每一次的突破背后都是技術(shù)的原始創(chuàng)新。今天我們再一次需要用創(chuàng)新,來打破當(dāng)前技術(shù)發(fā)展的瓶頸。
三大趨勢昭示AI進(jìn)入價(jià)值落地爆發(fā)期
![]()
講到落地,我想分享三個(gè)非常重要的趨勢:
第一,人工智能技術(shù)性能的進(jìn)步速度顯著加快。
早期圖像識別從MNIST模型出現(xiàn),到最終突破人臉識別,用了很長時(shí)間。
而現(xiàn)在技術(shù)進(jìn)展幾乎呈垂直上升。例如,2023年GPT-4完全無法應(yīng)對奧賽級別的數(shù)學(xué)題,而幾個(gè)月前Google的Gemini已能拿到國際數(shù)學(xué)奧賽金牌。大半年前,當(dāng)時(shí)全球最強(qiáng)模型在Humanity’s Last Exam(HLE)中只能拿到個(gè)位數(shù)分?jǐn)?shù),而近期推出的最新模型已經(jīng)接近及格線。
可見,AI突破人類極限的速度越來越快。
第二,超越單一榜單,跨越多種任務(wù)來看,大模型處理復(fù)雜任務(wù)的能力顯著提升。
早期,我們考驗(yàn)?zāi)P偷娜蝿?wù)都是普通人在一秒之內(nèi)就能完成的事,比如認(rèn)出照片里面是什么動物。到了后面,發(fā)展為人類需要花幾分鐘才能做完的數(shù)學(xué)題。
到今天,最新的模型已能完成深度搜索、撰寫調(diào)研報(bào)告、分析復(fù)雜問題等原本人類需半小時(shí)才能完成的任務(wù)。
縱觀二十年發(fā)展,在一個(gè)個(gè)評測基準(zhǔn)(benchmark)從低分達(dá)到飽和的進(jìn)程中,AI有了長足的成長,能處理的問題越來越復(fù)雜、耗時(shí)越來越長,從幾秒到半小時(shí),未來將很快能替代人類半天的工作。
第三,成本快速下降。
大模型發(fā)展初期,重心是參數(shù)競賽,模型規(guī)模巨大,有幾千億甚至幾萬億參數(shù),計(jì)算成本非常高昂。
但是,隨著模型訓(xùn)練水平的提升,規(guī)格小一點(diǎn)的模型也能取得越來越好的性能。
疊加上硬件進(jìn)步,單位算力成本下降,以及系統(tǒng)的不斷優(yōu)化,我們現(xiàn)在已經(jīng)可以用低得多的成本獲得好的大模型服務(wù)。但根據(jù)斯坦福大學(xué)2025年的報(bào)告指出,在過去兩年,達(dá)到實(shí)用水平的AI模型推理成本已降至原來的1/280。
這些趨勢說明了什么呢?
一方面,AI在越來越多領(lǐng)域達(dá)到人類水平,能夠承擔(dān)越來越復(fù)雜、耗時(shí)越來越長的任務(wù);
另一方面,它的使用成本正以每年1–2個(gè)數(shù)量級的速度下降。
這意味著,人工智能已經(jīng)從在榜單上秀肌肉的演示Demo,發(fā)展到了一個(gè)爆發(fā)點(diǎn),能夠深入到可替代人類的高價(jià)值場景,為人類提供深層價(jià)值。
這一趨勢將為人工智能與人類社會的關(guān)系帶來深遠(yuǎn)影響。
![]()
從產(chǎn)業(yè)角度看,麥肯錫研究報(bào)告顯示,2017年可能有20%的受訪企業(yè)在有限度采用AI技術(shù);而到了2025年,這個(gè)比例已經(jīng)上升到了88%。這份報(bào)告還將企業(yè)使用人工智能技術(shù)的深入程度分成了4個(gè)不同階段,從簡單實(shí)驗(yàn)、PoC,到規(guī)模化應(yīng)用,再到全流程、全規(guī)模部署。
我們可以看到,各個(gè)企業(yè)正在把對AI的應(yīng)用推向深入——這一趨勢雖然看上去沒有像前沿突破那么令人激動,但是這種趨勢,正是改變未來世界經(jīng)濟(jì)和企業(yè)競爭格局的一種深厚的,不可逆的力量。
對于商湯來說,我們一直致力于達(dá)成的目標(biāo):就是真正推動人工智能技術(shù)在行業(yè)深入落地,給客戶和用戶帶來真正的價(jià)值。這里面,我們關(guān)注的焦點(diǎn)不單是技術(shù)評測,更重要的首先是成熟度,也就是這個(gè)技術(shù)是不是達(dá)到實(shí)用水平;然后是通過提效降本,以及和場景的深度結(jié)合,實(shí)現(xiàn)規(guī)模化的商業(yè)閉環(huán)。
在具體落地方向上,我們的多模態(tài)大模型可以在數(shù)字空間充當(dāng)辦公助手,幫我們撰寫報(bào)告、開發(fā)軟件、分析數(shù)據(jù)等,也可在物理世界幫助機(jī)器人投入到工業(yè)制造、智能駕駛、家居服務(wù)等。
雖然應(yīng)用的形態(tài)很不一樣,但是這兩個(gè)方面的核心價(jià)值是一致的,那就是解放人類時(shí)間,讓人們真正投入更有價(jià)值、更有創(chuàng)造力的工作。
用戶價(jià)值牽引AI迭代,
打通落地「最后一公里」
接下來,我想用一個(gè)例子,講清楚人工智能究竟能夠幫助我們做什么,以及我們?nèi)绾瓮ㄟ^技術(shù)創(chuàng)新,讓AI成為我們更好的助手。
大家可能都接觸過AI PPT的應(yīng)用。寫PPT確實(shí)很耗時(shí),那么我們可以用人工智能幫我們寫PPT嗎?
今天分享用的這份PPT是我自己寫的,花了不少時(shí)間。這是其中一頁,我想講剛才提到的人工智能未來落地的三個(gè)趨勢。我首先嘗試了大家覺得這個(gè)方面做得比較好的Gamma,它基本上是把我的文字復(fù)制上去,而且排版的一致性也不太理想。
然后,下面這個(gè)是我用商湯的小浣熊幫忙做的。雖然離我滿意的水平還有一點(diǎn)差距,但它在美觀度、排版以及信息布置結(jié)構(gòu)等方面,顯然比上面那頁更接近可用狀態(tài);我如果基于這個(gè)版本在進(jìn)行修改就會容易很多,只需要根據(jù)自己的思路尋找更好的配圖。小浣熊這個(gè)最新的版本,我們下周就會正式地發(fā)布給公眾使用。
這個(gè)事情究竟是怎么做到的?
我可以給大家去分享一下我們做AI PPT背后的整個(gè)技術(shù)流程。
![]()
首先,我們會讓模型學(xué)習(xí)各種各樣和PPT相關(guān)的語料,包括配色、文本等,讓模型具備做PPT的基礎(chǔ)知識。
然后,用大量不同類型PPT的任務(wù)提示詞和成品的配對進(jìn)行訓(xùn)練,讓模型學(xué)會模仿生成PPT。但這個(gè)階段做的PPT很多是「形似神不似」,因?yàn)樗豢吹搅薖PT完成的結(jié)果,缺乏對制作者思考過程的理解和訓(xùn)練。
那么我們?nèi)绾芜M(jìn)一步提升呢?
我們可以找人把他們做PPT的全過程思考的全部記錄下來,但這樣的數(shù)據(jù)很難獲得,成本太高。
要克服數(shù)據(jù)瓶頸,我們轉(zhuǎn)變一下思路,從讓人們把思考過程寫下來,變成讓人們告訴我們什么是好或者不好。這樣人就從需要提供完整制作過程,簡化為只需要兩秒鐘快速判斷好壞,極大降低了數(shù)據(jù)收集成本。
在技術(shù)上,將人對PPT的審美和評判轉(zhuǎn)化為獎(jiǎng)勵(lì)模型。我們基于不同的評判維度,比如內(nèi)容結(jié)構(gòu),審美風(fēng)格等等,做了多個(gè)不同的獎(jiǎng)勵(lì)模型,整合在一起,通過強(qiáng)化學(xué)習(xí)(Reinforcement Learning)來牽引模型的迭代,讓它逐漸學(xué)會產(chǎn)生更高質(zhì)量的PPT。
這個(gè)過程中,不僅需要高質(zhì)量數(shù)據(jù),還需要一個(gè)有效的強(qiáng)化學(xué)習(xí)算法流程,以及背后支撐它的多模態(tài)能力。
![]()
這種迭代模型我們已經(jīng)成功應(yīng)用到不同的迭代方向上,AI PPT僅是案例之一。
這一頁幻燈片展示了商湯一整套的系統(tǒng)性方法論:深入行業(yè),以用戶價(jià)值牽引,以強(qiáng)化學(xué)習(xí)為內(nèi)核,以大裝置和強(qiáng)大的多模態(tài)模型為底座,牽引模型快速迭代。
在這個(gè)閉環(huán)模式中,強(qiáng)化學(xué)習(xí)不再是單純的訓(xùn)練算法,而是從研發(fā)延伸到落地,成為整個(gè)產(chǎn)品迭代的核心引擎。
在這個(gè)閉環(huán)中,用戶提出請求,AI智能體輸出結(jié)果,用戶在使用這個(gè)結(jié)果的過程中,我們的系統(tǒng)也會獲得用戶的反饋;然后用戶的反饋也會注入到獎(jiǎng)勵(lì)模型,從而牽引模型的更新。
用戶每一次使用都在促進(jìn)模型迭代,使研發(fā)與應(yīng)用融為一體。這套模式能有效運(yùn)行是需要基礎(chǔ)的,它背后依賴的是,商湯強(qiáng)大的多模態(tài)基礎(chǔ)模型和人工智能基礎(chǔ)設(shè)施商湯大裝置。
以底層創(chuàng)新突破產(chǎn)業(yè)發(fā)展瓶頸
在大規(guī)模商業(yè)化落地過程中,AI仍面臨許多挑戰(zhàn)。比如可靠性不足,尤其專業(yè)思維數(shù)據(jù)依舊非常稀缺;空間智能、多模態(tài)理解存在短板;成本雖已經(jīng)經(jīng)過上百倍的下降,但模型處理復(fù)雜任務(wù)時(shí),需要很長的過程和反復(fù)試錯(cuò),規(guī)模化應(yīng)用時(shí),成本依然非常高昂。
這些都要依靠我們進(jìn)一步的技術(shù)創(chuàng)新去解決,這也是我們技術(shù)創(chuàng)新的機(jī)遇。
回顧大模型浪潮,有兩篇?jiǎng)潟r(shí)代論文:
發(fā)表于2017年的《Attention Is All You Need》提出Transformer架構(gòu),
發(fā)表于2020年的《Scaling Laws for Neural Language Models》提出尺度定律,
它們分別來自Google和OpenAI。
2022年底ChatGPT的誕生,技術(shù)的策源就是從這些學(xué)術(shù)工作開始。所以,當(dāng)我們看到AI產(chǎn)業(yè)化的高歌猛進(jìn),我們不能忘記,任何一次重大的技術(shù)變革,都源自最底層的學(xué)術(shù)創(chuàng)新。
今天我們走到了新的十字路口,國際上一些重要的學(xué)術(shù)先驅(qū),比如伊利亞、李飛飛等最近也都提出,我們走到了新的需要?jiǎng)?chuàng)新的時(shí)間關(guān)口,需要從原來的語言模型走向空間模型、世界模型,訓(xùn)練范式也走到了瓶頸,需要新的突破。
商湯基于視覺與語言模型的長期積累,深耕多模態(tài)模型發(fā)展。我們在今天也看到了主流多模態(tài)的局限和底層創(chuàng)新的機(jī)遇。
傳統(tǒng)多模態(tài)模型的基本結(jié)構(gòu),是視覺感知和以語言為核心的理解和推理的淺層拼接。整個(gè)的理解和思考過程主要是基于文本的,因此缺乏深層次的視覺理解能力。
![]()
舉個(gè)簡單的例子,Grok-4在各種學(xué)科測試都具備非常高的水平,但問它圖中有多少根手指,告訴我5根,而圖中實(shí)際為6根。說明它看到是一只手之后,就開始做語言推理,并沒有真正理解圖片,所以結(jié)果完全錯(cuò)誤。
再如GPT-5,現(xiàn)在世界上最先進(jìn)的模型,你問他這個(gè)東西從上面往下看,問這個(gè)物體的二維結(jié)果,告訴我是A,因?yàn)锳從二維布局角度似乎更像問題中的圖;它完全缺乏對于三維空間的理解。
如果這樣的模型裝到機(jī)器人里面,他在真實(shí)的三維空間里面行動,會鬧出多大的笑話?這是我們要真正推動機(jī)器人落地,需要去解決的一些深層次的問題。
我們近期開源了多模態(tài)大模型的NEO架構(gòu),從根本上革新了多模態(tài)的底層結(jié)構(gòu)。它不是簡單拼接視覺與語言模塊,它的每個(gè)計(jì)算層,每個(gè)細(xì)胞,都具備內(nèi)生的多模態(tài)能力。該架構(gòu)僅用1/10數(shù)據(jù)就達(dá)到同量級最好的多模態(tài)模型水平。
我們還結(jié)合多模態(tài)數(shù)據(jù)整合與突破性的訓(xùn)練范式創(chuàng)新,如跨視角預(yù)測(Cross-View Prediction),去培養(yǎng)模型空間思維能力,這是主流的next token prediction很難做到的。
通過這種架構(gòu)的內(nèi)生突破,各種模態(tài)數(shù)據(jù)整合,以及訓(xùn)練方式上超越next token prediction的創(chuàng)新,我們做到了在多模態(tài)多個(gè)層面的突破,尤其是在空間智能表現(xiàn)上超過了GPT-5甚至最新的Gemini-3 Pro,而且也超過了李飛飛團(tuán)隊(duì)最新發(fā)布的空間智能專用模型Cambrian-S。
上圖中最外邊的六邊形是我們模型的表現(xiàn),中間是其他模型包括GPT-5等,其中綠色是李飛飛團(tuán)隊(duì)近期發(fā)布的空間智能模型。
不僅如此,我們看到模型性能隨著數(shù)據(jù)量增加的成長速度也顯著高于主流方式的訓(xùn)練過程,代表著我們找到了更高效的通向空間智能的范式。這兩個(gè)模型均開源,大家可以去下載試用。
最后是關(guān)于成本的問題。
以生成視頻為例,如果用視頻生成模型去做短劇,最大的問題是成本問題。
比如,生成1分鐘高質(zhì)量視頻,需要1小時(shí)八卡的英偉達(dá)最新GPU計(jì)算,成本非常高,沒有辦法適應(yīng)大規(guī)模落地。并且傳統(tǒng)開源模型,每小時(shí)的計(jì)算只能生成20秒視頻,好一點(diǎn)的商用模型生成80秒。
而用商湯的SekoTalk一個(gè)小時(shí)計(jì)算,能夠生成同樣質(zhì)量的1280秒的視頻,而且人物一致性,口型對齊,長時(shí)穩(wěn)定性這些關(guān)鍵維度也做得更好。
而且,我們最近專門針對對話場景進(jìn)一步優(yōu)化后,現(xiàn)在使用消費(fèi)級5090顯卡,在單個(gè)計(jì)算節(jié)點(diǎn)上可以實(shí)現(xiàn)1小時(shí)計(jì)算生成4500秒視頻,完全突破了實(shí)時(shí)數(shù)字人驅(qū)動生成的紅線,我們在技術(shù)上已經(jīng)做好了大規(guī)模應(yīng)用實(shí)時(shí)數(shù)字人的準(zhǔn)備,我們馬上也會發(fā)布這樣一個(gè)產(chǎn)品。
這些重要的進(jìn)步背后都源于商湯在算法、系統(tǒng)、模型、架構(gòu)多層面的聯(lián)合創(chuàng)新。
首先在算法上面,我們使用了自研的Phased DMD蒸餾技術(shù),將原來的100步的擴(kuò)散過程合并到4步就能夠完成,而且整個(gè)過程是基于嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)推導(dǎo),保持了很好的合成質(zhì)量;
然后,通過模型架構(gòu)創(chuàng)新,提升1.5倍速度;
最后,我們系統(tǒng)和模型的聯(lián)合計(jì)算優(yōu)化,進(jìn)一步提升70%性能,加在一起,我們實(shí)現(xiàn)了64倍的速度優(yōu)化。
這個(gè)產(chǎn)品已經(jīng)可以體驗(yàn)和使用了。
SekoTalk免費(fèi)在線體驗(yàn):https://sekotalk.com/
NEO架構(gòu)項(xiàng)目網(wǎng)址:https://github.com/EvolvingLMMs-Lab/NEO
秒追ASI
?點(diǎn)贊、轉(zhuǎn)發(fā)、在看一鍵三連?
點(diǎn)亮星標(biāo),鎖定新智元極速推送!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.