AI開源狂飆,OpenAI們慌了!GenAI大洗牌,2025趨勢深度解讀
![]()
來源:新智元
【導讀】2025年,ChatGPT依舊領跑,但DeepSeek、Qwen等開源勁敵正加速追趕。從「推理革命」爆發到 DeepSeek開源,一場圍繞算力、架構與生態的戰爭已悄然打響,開源勢力正以星星之火之勢挑戰閉源巨頭。
2025年,AI江湖風云再起!
第一季度過去了,OpenAI仍然處于全球領先地位。
但其他公司正在迅速追趕,尤其是國內開源AI模型緊追不舍,且接近頂尖水平。
獨立機構Artificial Analysis,發布了2025年第一季度AI報告,總結了六大趨勢,涵蓋技術突破與市場格局演變。
![]()
報告亮點如下:
過去兩年中,GPT-4級別推理成本下降了1000倍。
三大驅動力引發AI成本革命:更小的模型、推理優化和新一代硬件。
目前,智商天花板全是推理模型,但非推理模型還是性價比之王。
現在的AI能自主瀏覽代碼庫、創建文件、寫代碼、跑測試,不止補全代碼。
多模態和智能體讓AI從「單一工具」變成「全能助手」,離日常生活越來越近。
根據Artificial Analysis的官方分析,2025年初的AI有六大定義性結論:
1.前沿AI競賽持續升溫:頂級實驗室正以每8-12周的速度推出新模型。
OpenAI仍處于領先地位;在其身后,不僅有谷歌和Anthropic等傳統挑戰者,xAI、DeepSeek和阿里也已加入,形成了緊密的追趕梯隊。
2.推理模型投入實際應用:那些「先思考后回答」的模型,犧牲了一定的速度和成本,換取了更高的智能水平,使用的token數量和成本是非推理模型的10倍左右。
3.MoE模型已無處不在:混合專家模型(MoE)在為每個生成的token進行計算時,僅激活其總參數不到10%。目前,大多數頂級的開源權重模型均采用了MoE架構。
4.中國頂級實驗室差距顯著縮小:DeepSeek等中國公司正紛紛推出極具競爭力的模型,并常常選擇公開模型權重。
5.AI智能體走向實用化:由LLM驅動、能自主行動并使用工具端到端完成任務的系統,正開始在實際工作中顯現成效。新興的AI智能體類別包括編程智能體、深度研究智能體(Deep Research Agent)以及計算機輔助使用智能體。
6.大語言模型原生支持多模態:大語言模型如今的輸出已遠不止于文本。GPT-4o目前在圖像生成方面獨占鰲頭,同時各類語音到語音(Speech to Speech)模型也已相繼問世。
AI大洗牌
推理模型稱王
2024年末,OpenAI利用大規模強化學習訓練的推理模型o1,將性能差距徹底拉開,顛覆了全球AI格局。
![]()
OpenAI全球領先,但競爭對手緊追不舍
如今,Llama Nemotron Ultra、Qwen3等開源模型,已成燎原之勢。
![]()
私有模型和開源模型的差距變化
推理模型能夠逐步拆解任務、自我校驗,尤其在復雜問題如數學推理、研究輔助中表現出明顯優勢。
比如,Gemini 2.5 Pro遇到問題會先拆解步驟、自我糾錯,像解數學題一樣一步步來,雖然花21秒,輸出1967個token,但答案準;而非推理模型(如GPT-4o)4秒輸出185個token,結果答錯了。
![]()
可以看到,在目前的Artificial Analysis智能指數中,最聰明的全是推理模型。
![]()
其中,o4-mini(high)排名第一,谷歌Gemini 2.5 Pro和Grok 3緊隨其后。
![]()
開源模型(如DeepSeek R1、Qwen 3、Llama 3.1)性能雖然落后閉源模型,但兩者非常接近。
![]()
「高情商」的推理模型,背后是高成本:要達到相同的性能,推理模型要使用非推理模型10倍以上的輸出token!
![]()
盡管在效率方面取得了顯著進展,推理速度比過去更快,但推理模型和智能體應用每次請求生成的token是過去一年平均水平的10多倍。
綜合下來,用戶反而要等待更長的時間。
![]()
LLM輸出速度變化
非推理模型也沒被淘汰,需要快速響應或省錢的場景,還是性價比之王。
開發者不能僅看單token定價,還需綜合考慮token總使用量,才能準確評估推理成本。
實際上,如今的頂級AI模型參數規模更大,每次請求需要的token數總更多,現在的AI應用需要更多的算力。
因此,最新的模型開始探索如何在智能和成本之間取得平衡。
![]()
其中,最引人注目的進展來自架構上的權衡優化。
![]()
Epoch AI對每種算法進步的計算等效增益的估計
混合專家
省錢又提速
在本月中旬,DeepSeek創始人梁文峰署名的新文章,全面介紹了DeepSeek-V3的設計靈感和洞見。
DeepSeek-V3的混合專家(MoE)架構,如今已無處不在。
![]()
DeepSeek-V3基本架構
傳統模型像全科醫生,不管啥問題都調動全部知識;MoE像專科門診,遇到不同問題找對應的專家(激活部分參數)。
如果說全連接模型是「廣撒網捕魚」,MoE則是「精準出擊」,不僅能減少參數激活量,還大幅提升推理效率。
近期開源的前沿模型越來越多地使用MoE架構,每次輸入僅激活部分參數。
前沿模型采用更稀疏的MoE設計,僅激活不到10%總參數,早期模型通常激活約25%的參數。
在推理和訓練上,參數規模相同的MoE模型比稠密模型更高效。
![]()
此外,英偉達是算力領導者,Cerebras、SambaNova、Groq這些新玩家將「芯片+云服務」打包賣,通過垂直整合提供高性能推理,輸出速度更快。
![]()
但開發者需要在性能、成本和上下文窗口之間權衡。
雖然服務速度更快,但這些芯片新玩家有時比其他服務商價格更貴,且上下文窗口更短。
![]()
智能體
自主干活的「虛擬員工」
智能體是2025年AI領域的重要趨勢。
憑借LLM的推理能力,通過高效的工具使用和自主流程管理,大幅提升了任務完成的效率和智能化水平。
它們能自主完成復雜任務,尤其是編程、深度研究、操作計算機和客戶支持。
![]()
從自動補全(2021年)到現在能自主瀏覽代碼庫、創建文件,比如讓它搭個OAuth認證系統,它能自己寫代碼、跑測試,還能告訴你改了哪些文件。
![]()
比如問「AI對就業的影響」,它會自己拆分問題、查資料、整合答案。還能批量處理表格,打工人看了想流淚。
原生多模態
圖像、視頻、語音全面升級
OpenAI的GPT-4o畫出的圖又逼真又貼合需求。
![]()
字節跳動的Seedream 3.0、MiniMax的HiDream-I1-Dev一發布就沖進第一梯隊。
![]()
以前OpenAI的Sora是視頻界扛把子,現在谷歌Veo 3超越了它,MiniMax和快手也推出了能追上Sora的模型。
![]()
ElevenLabs的Scribe模型把語音轉文字的錯誤率降到8%,比OpenAI的Whisper還準;文本轉語音也更像真人了。
![]()
大型科技公司持續在所有領域全面發展,而較小的競爭者通常專注于特定的AI領域。
谷歌是AI價值鏈中垂直整合度最高的企業(從TPU加速器到Gemini模型);NVIDIA、微軟、亞馬遜等在硬件、云推理和應用層各有側重。
![]()
未來AI會怎么發展?大概率會更全能、更聰明,也更接地氣。
說不定下次開會,你的會議紀要就是AI智能體幫忙寫的。
開源
大勢所趨
隨著越來越多的企業在業務中構建和部署AI驅動型解決方案,日益豐富的開源技術正成為首選,包括Meta的Llama系列、谷歌Gemma系列、艾倫人工智能研究所Ai2的OLMo系列、英偉達的NeMo系列、DeepSeek-R1等眾多選擇。
Mozilla基金會等機構聯合開展了一項開創性調研,覆蓋41個國家700多位技術負責人和資深開發者。
調研結果顯示,企業在AI工具選擇上日益偏向開源方案:
總體而言,超過四分之三的受訪者預計他們的組織將在未來幾年內增加對開源人工智能技術的使用。
這在一定程度上得益于開源工具在企業軟件生態中的活躍表現,且長期以來始終是開發者社區的基礎資源。
![]()
在Sequoia合伙人Lauren Reeder主持的一場圓桌討論,揭示了關于開源AI模型當前狀況和未來趨勢的諸多關鍵見解。
![]()
目前在OpenRouter平臺上運行的推理任務中,只有大約20%-30%使用的是開源模型。盡管如此,與會者對未來的增長充滿信心。
![]()
本月OpenRouter的token使用總量排行榜
當被問及五年后開源與閉源模型在推理任務中的占比預估時,Jeffrey和Dmytro認為開源AI將和閉源AI分庭抗禮。
Jeffrey預測開源與閉源將各占一半,但也提到可以在開源與閉源模型之間智能切換的技術。
Dmytro也傾向于50/50的預測,但他指出開源生態將更加多樣化:「閉源可能仍由少數幾家主導……而開源則不會只有一個模型,會是更多的模型家族、微調版本和定制化方案。」
獨立機構Artificial Analysis最近的報告,也印證類似的AI發展趨勢。
Artificial Analysis認為雖然閉源推理模型整體上領先,但開源模型和閉源模型與2022年相比,差距已經變小。
而在非推理模型方面,開源模型反而比閉源的商用模型更具優勢。
![]()
特別是國產開源AI模型,已經成為一股不容忽視的力量。
參考資料:
https://x.com/ArtificialAnlys/status/1924845419315777572
2030年前必須實現AGI!谷歌祖師爺現場「催更」DeepMind CEO
![]()
【導讀】在谷歌I/O大會后,創始人謝爾蓋·布林驚喜現身,與Hassabis深入探討AI的推理能力、規模與算法、測試時計算及多模態智能體的應用前景。布林強調AI時代是計算科學家不應退休的黃金期,AI影響將遠超互聯網與手機。
谷歌的I/O大會證明藍星的科技正統還在谷歌。
除了發布Gemini 2.5最新版本繼續遙遙領先OpenAI的奧特曼以外,還掏出兩幅眼鏡來拳打蘋果,腳踢Meta。
會后還把谷歌的「開山老祖」謝爾蓋·布林(Sergey Brin)請了出來,逼Demis Hassabis趕緊在2030年前(也就5年內了)實現AGI。
主持人:AGI在2030年之前實現還是之后?
布林:好吧,如果你真以此為線的話,我認為是在之前實現吧。
Hassabis:我說之后吧。
兩人相視一笑。
Hassabis:那我得回去努力的工作了。
![]()
谷歌I/O大會后,Demis Hassabis和謝爾蓋·布林被叫到一起聊了一會。
涉及到AGI可能的實現日期、建立更多的數據中心、測試時計算讓模型的能力更強、谷歌眼鏡的時機成熟以及謝爾蓋·布林為何選擇這個時機重返谷歌。
謝爾蓋·布林認為當前時期是人類最為特殊的一個時期,他認為:
現在任何的計算機科學家都不應該退休,而是要加入到AI研究中來。
人類世界還從來沒有出現過如此大的機遇和技術突破。
謝爾蓋·布林可以說是互聯網1.0時代的締造者和2.0時代的見證者,但是他依然認為AI時代會完全不一樣。
網絡和手機已經改變了世界,但是AI將會帶來更大的變革,尤其是想到AGI的到來。
主持問謝爾蓋·布林假如回到谷歌后,每天的工作是什么,謝爾蓋·布林說我每天的工作就是「折磨」像Hassabis這樣的人來早日實現AGI。
下面就來看看布林和Hassabis的高能對話。
規模與算法之爭
訪談一開始,主持人Alex提出了最近大家一直在討論的「規模」問題:模型的規模是主要因素還是只是個「配角」?
Hassabis認為數據規模與計算規模兩者缺一不可,目前還沒有發揮到極致。
但他同時認為也得投入大量精力去探索未來的突破,「可能在半年到一年后會有創新,能帶來10倍的飛躍。」
布林也認為,算法的進步和計算能力的提升缺一不可。
更好、更多的芯片、更大的數據中心,這些都很重要。布林猜測,算法的突破可能比計算能力的提升更關鍵。
「不過現在兩者都在快速發展,我們正在享受雙重紅利。」他說。
Hassabis說我們還需要更多的數據中心,不僅僅是為了訓練,大家對模型的需求也非常大,比如Gemini 2.5 Pro。
尤其是最新的Gemini 2.5 Pro「Deep Think」模式,給它更多思考時間,表現會更好。
「這確實需要很多芯片支持。」
![]()
推理范式:測試時計算
推理模型已經成為當前AI的主流范式。
實驗以及模型已經證實,更多的測試時計算,即給予模型更多的時間「思考」,在傳統大型語言模型(LLM)上加入推理機制能帶來提升。
推理范式帶來的改進有多大?
Hassabis表示他一直很相信這種「思考范式」。
回顧谷歌早期在AlphaGo和AlphaZero上的工作,以及在游戲領域的智能體研究,這些系統都有一個「思考」屬性。
這個效果是可以量化的。
以象棋或圍棋為例,Hassabis說他們測試過關閉思考功能的AlphaGo和AlphaZero版本,模型只會直接給出第一個想法,表現也就大概是大師級別。
但一旦開啟思考功能,表現就遠超世界冠軍級別,差距大概有600分。
![]()
這在游戲中已經很顯著了,而現實世界比游戲復雜得多,加入思考范式的潛力可能會更大。
當然,測試時計算的挑戰在于這種對比測試中的基礎模型需要首先是一種「世界模型」,這比建一個簡單游戲模型難得多。
就像Gemini一開始就選擇走多模態的路線,雖然當時文本模型如日中天,但是谷歌DeepMind還是決定做正確但艱難的決定。
謝爾蓋·布林說DeepMind確實在強化學習方面開創了很多先河。
他舉了個例子,就像我們大多數人一樣,思考后再說話總是有好處的,雖然我們并不經常這么做。
AI一旦有了這種「思考」能力,顯然會變得更強大。
謝爾蓋·布林覺得我們現在才剛觸及冰山一角。
這些推理模型真正出現還不到一年(DeepSeek-R1是今年2月的事情)。
關于世界模型,Hassabis也提到了I/O大會上剛剛發布的Veo 3。
Veo 3能直覺地理解光線和重力的物理規律,以前制作電腦游戲,記得那時候得手動編程所有的光影效果、物理計算,超級復雜。
現在模型居然能自己「領悟」這些,真的很不可思議。
AGI
提到AGI,Hassabis認為這更像是一個理論上的概念:它指的是人類大腦這種結構本身,到底具備什么樣的能力?
人類大腦之所以是一個重要的參照點,是因為它可能是宇宙中唯一證明了通用智能存在的證據。
那么,要達到這個標準,就必須證明系統能夠做到那些歷史上最杰出的人類——比如愛因斯坦、莫扎特、居里夫人等等——能夠做到的各種事情。
Hassabis說,現在的系統顯然還沒到這步。
另外,他也覺得AGI的炒作有點過頭了。因為現在的系統還不夠穩定,不足以被稱為「通用」。
它們能做很多事情,但你很容易在幾分鐘之內就能發現一些顯而易見的缺陷。比如解不出一道高中數學題,或者玩不好某些簡單的游戲。
對于Hassabis而言,一個系統要想被稱為AGI,需要在各個方面都表現得比現在穩定一致得多,也許得讓一個專家團隊花上好幾個月才能在里面找到一個明顯的漏洞。
「而現在呢,普通人幾分鐘就能發現問題了。」
接著主持人問了一個更適合布林的問題:AGI會是一家公司「一統江湖」,還是谷歌、OpenAI、Anthropic等等人手一個?
布林說這是個好問題。他認為AGI不是一個特別精確的點,可能會有多個玩家同時接近那個水平。
之后會咋樣呢?很難預測。
布林認為,AI領域現在競爭很激烈,一旦一家公司有了突破,其他公司很快就會跟上。這種競爭會讓更多公司跨過門檻。
主持人Alex比較感興趣的問題則是:AI需要有情感才能算是AGI嗎?
Hassabis覺得AI可以理解情感,但是否需要模仿情感,需要選擇。
Alex接著提到他上周看到Alpha Evolve的新聞,「嚇得差點從椅子上掉下來。」
這個AI能幫助設計出更好的算法,甚至改進大模型的訓練方式。
「你是想搞個『智能爆炸』嗎?」他問Hassabis。
Hassabis大笑著說,這是個很有趣的實驗,把進化編程技術跟最新的基礎模型結合,確實有意思。
他希望看到更多組合式的探索。
確實,自我改進式的發現可能會讓事情加速。
Hassabis之前在AlphaZero上見過類似的事情。它能從零開始,在不到24小時內自學國際象棋、圍棋等雙人游戲。
不過,那些都是規則清晰的游戲領域。現實世界則復雜得多,這種方法到底能不能更通用,還得看。
布林重回谷歌
主持人Alex問到布林,現在有很多很厲害的AI,大家都在賽跑,這就是你回谷歌的原因嗎?
正如開頭所說,布林說作為一個計算機科學家,現在是個很特別的歷史時刻。
「任何一個搞計算機科學的人,現在都不應該退休,應該投身AI。」
布林說他重回谷歌倒不是因為競賽——雖然他們絕對想讓Gemini第一個實現AGI,但能參與這場技術革命,就足以激動人心了。
「我經歷過Web 1.0,那會兒覺得挺激動,后來還有移動互聯網什么的,也挺熱鬧。但AI從科學角度看,興奮度完全不是一個級別!」布林說。
他認為AI對世界的影響會比網絡和智能手機大得多。網絡和手機已經改變了很多,但AI的變革會更徹底。
布林調侃他在谷歌的主要事情是「折磨」像Hassabis這樣的人。
他表示自己每天都與Gemini文本模型、預訓練、后訓練的工作團隊混在一起,偶爾也會摻和一些多模態的工作,比如Veo 3。
關于智能體
其他的科技公司做智能體,展示的通常是能理解上下文、語音交互、主要在屏幕上操作的系統。
但谷歌的演示常常是通過攝像頭,特別強調視覺。
對此,Hassabis解釋說DeepMind一直都對智能體很感興趣,目標是打造AGI。
顯然,這種智能體得理解你周圍的世界。
![]()
在Hassabis看來,這有兩個超級重要的應用場景:
一個真正有用的助理。能在你的日常生活中跟著你,而不是困在電腦或者某個設備上。它得在各種場景下都好用,理解你的物理環境。
機器人。隨著最新版本的Gemini 2.5 Pro及即將推出的視頻技術等,Hassabis覺得終于有了讓機器人真正「開竅」的算法了,能夠釋放出巨大的潛力。
最終,AGI能做到所有這些事。
DeepMind一開始就定下了這個方向,所以Gemini從最早的版本就是多模態的。
「一開始做多模態比純文本難多了,但現在我們開始看到回報了。」
關于谷歌最新的「八卦消息」
在這次采訪中,謝爾蓋和Hassabis也分享了一些關于谷歌的其他消息。
谷歌眼鏡:時機成熟了嗎?
雖然蘋果發布了AppleVision,Meta發布了Meta Rayban,但要說起來第一家搞智能眼鏡還是谷歌。
![]()
謝爾蓋·布林承認那個時候犯了很多錯誤,謝爾蓋說最大的問題是第一代的谷歌眼鏡「太不像」眼鏡。
![]()
現在的AI眼鏡就沒有過去那個復雜的臃腫的部分。
而且確實當時存在比較大的技術壁壘,2013年發布第一代谷歌眼鏡時,大模型連影子都看不到。
另一個方面就是謝爾蓋·布林承認他當時對電子供應鏈一無所知。(這就不得不想到庫存大師庫克,蘋果后來的成功很大一部分真的是依賴于庫克的供應鏈能力。)
現在谷歌在I/O發布了Android XR系列的AI眼鏡,一個是對標蘋果Apple Vision Pro的頭戴設備,一個是對標Meta的正常眼鏡。
![]()
Hassabis趕緊安慰老板,谷歌過去在玻璃眼鏡上的經驗都很有幫助,他們準備在產品完全準備好以后,再進行發布。
Hassabis解釋說,為什么現在推出谷歌眼鏡的時機成熟。
因為通用AI助手才是智能眼鏡的殺手級應用,過去即使是硬件準備好,但是軟件不夠用。
而現在「模型即產品」的大模型能力加上越來越成熟的硬件技術,真正的智能眼鏡馬上就會到來。
數據管理
Hassabis也提到谷歌對于數據管理是非常嚴格的。
谷歌給他們所有的AI生成的視頻都附加了一種隱形水印,可以用工具檢測出來,并且這個工具也會同時公布出來。
這對于打擊虛假和深度偽造信息非常重要。
最后主持問謝爾蓋·布林,你覺得十年后的網絡會是什么樣子?
不管是謝爾蓋還是Hassabis都覺得按照現在AI的發展速度,沒有人能夠想象10年后會是什么樣子。
回望互聯網走過的這三十年,似乎一切都是為了AI的到來做準備,是否人類是活在一種更高維生物制定的「模擬」之中?
Hassabis是如此認為的,他覺得物理學的終點就是信息論,人類生活在一個計算模擬宇宙之中,但目前還無法解釋。
他說他將會在未來寫一篇文章來介紹這么多年AlphaGo、AlphaFold以及AlphaEvolve系列真正意味著什么,以及他對模擬的看法。
謝爾蓋說如果人類生活在模擬之中,那遞歸的想,模擬人類的物種也生活在另一個模擬之中,那么這個系統將無限遞歸下去,所以需要一個停止標準,但這個標準是什么?所以他并不認為人類活在這種模擬中。
從另一個角度,如果真的有一個比我們更高級的智慧生命在操縱人類,他具備某種和人類相似的欲望和意識,謝爾蓋說如果現實真是這樣,他還是挺失望的。
也許AGI的最終實現能幫他回答這個問題。
參考資料:
https://www.youtube.com/watch?v=M2ZtBQI2-GY&list=PLADd6sStSis77HKfbf4KCY6SvthfxeUgn&index=2
來源:新智元
為偉大思想而生!
AI+時代,互聯網思想(wanging0123),
第一必讀自媒體
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.