文 | 劃重點KeyPoints,作者|林易,編輯|重點君
上周,騰訊混元Hy3 preview發布并開源。坦白講,第一波行業討論并沒有想象中熱烈,畢竟在GPT-5.5和DeepSeek V4前后腳上線的夾擊下,一個不到300B參數的預覽版似乎很難激起太多水花。
我們拿著這款模型,在復雜推理、代碼開發、智能體落地三大核心場景做了幾天的深度實測,最終得出一個結論:行業普遍低估了這次更新的分量。
在我們看來,這是騰訊大模型徹底重構的拐點,是屬于騰訊的Gemini 2.5時刻。
大家一定記得谷歌大模型曾經的窘境。2023年底初代Gemini高調發布,本欲對標GPT-4改寫行業格局,卻因演示內容爭議、實測能力不及預期陷入口碑泥潭,在此后一年多時間始終被GPT系列全面壓制,這家AI領域的老牌巨頭一度被行業唱衰 “掉隊”。但隨著DeepMind創始人哈撒比斯全面接管AI核心研發,對AI業務從組織架構到技術路線的全鏈路推倒重構,打破算法研發與算力基建的部門壁壘、砍掉冗余管理層級、推翻初代模型的路徑依賴、重構訓練體系與研發范式,最終憑借Gemini 2.5實現了核心能力的飛躍,重回全球大模型第一梯隊。
現在,騰訊正在經歷類似的時刻。據我們了解,Hy3 preview之后,騰訊下一代基礎大模型參數將更大,綜合能力將大幅提升。
實測之后,最強的感受是“穩了”
先說復雜推理。
我們給Hy3 preview的第一類題,是多條件、多輪推翻的推理任務:一家公司有5個部門、8個項目、12個人員,項目之間存在排期依賴、預算約束和人員沖突,要求模型給出可執行排期,并解釋為什么某些方案不可行。
這類題最容易暴露模型的問題,前面算對,后面忘條件;局部合理,整體沖突;看起來寫了一大段,真正落到執行表格里全是漏洞。
![]()
Hy3 preview的表現不算驚艷到碾壓,但有兩個明顯變化:一是它會主動拆任務,把約束條件先列出來;二是在發現沖突時,會回到原條件里重新校準,而不是硬編一個答案。
這一點很關鍵,畢竟在Agent時代,模型最怕是太會說,錯了還說得很完整。
第二類是代碼。
我們讓它寫一個小型數據分析腳本:讀取多張表,清洗異常值,按照不同維度生成統計結果,并給出可視化建議。進一步提高難度后,又讓它根據報錯信息修復依賴、字段缺失和邊界條件。
![]()
這部分最明顯的變化是,Hy3 preview不再像過去一些通用模型那樣只會寫一段看起來像代碼的代碼。它能理解任務結構,也能在報錯后定位問題,修復思路比較清楚。
雖然在復雜工程項目里還不能說已經達到頂級Coding Agent水平,但對騰訊自己的開發者工具、辦公智能體而言,已經到了可用性明顯提高的區間。
第三類是智能體。
我們設計了一個更接近真實辦公的場景:用戶只說一句“幫我整理這周競品動態,輸出一頁匯報提綱”,模型需要自己拆成搜索、篩選、去重、歸納、生成標題、壓縮成匯報提綱結構等步驟。測試重點是它能不能在長鏈路中不跑偏。
![]()
Hy3 preview在這類任務上給人的感覺是開始有執行感了。它會區分哪些信息該進入正文,哪些只是背景;會把任務拆成階段;也能在中間結果不完整時提示需要補充,而不是直接腦補到底。
這就是我們說的Gemini 2.5時刻,可以說是底層能力終于能支撐真實應用往前走。
三個月完成推倒重來
很多人不知道,Hy3 preview從預訓練啟動到正式發布,只用了短短三個月。
而在大模型行業,完成一次完整的底座模型訓練與迭代,行業常規周期至少在6個月以上,當年Meta、谷歌完成模型體系的重構,更是花了6-12個月的時間。
能在三個月完成這場極限挑戰,核心原因在于,騰訊對混元大模型做了一場徹頭徹尾的推倒重來,而非在上一代版本上的縫縫補補。
這場重構始于組織與人才體系的徹底洗牌。前OpenAI明星研究員姚順雨出任騰訊首席AI科學家后,首先收攏了分散的AI研發力量,撤銷原有AI Lab,將AI Infra部與大語言模型部合二為一,打破了算法研發與基礎設施割裂的壁壘。
![]()
同時,團隊推行極致的扁平化管理,取消總經理、總監等管理層級頭銜,全面實行方向負責人制,決策鏈路大幅縮短,跨部門協作效率實現了質的飛躍。
其次是技術底座與訓練范式的全面重建。
Hy3 preview沒有沿用任何上一代的訓練框架,Agent系統幾乎從零搭建,預訓練與強化學習的AI Infra基礎設施、數據集全部重新開發。技術路線上,團隊選擇了經過行業驗證的MoE混合專家架構,總參數295B,激活參數僅21B,在保證能力的同時,把推理效率做到了極致,全棧優化后推理效率較上一代提升40%。
更關鍵的是訓練范式的底層轉向:從過去重度依賴SFT監督微調,全面轉向以RL強化學習為核心的后訓練體系。如果說SFT是給模型灌輸標準答案,那RL就是教會模型獨立判斷、解決未知問題。
這讓模型擺脫了刷榜強、實戰弱的困境,在千變萬化的真實場景中,擁有了持續進化的能力。
三個月完成全鏈路重構,不僅證明了騰訊團隊的工程化能力,更意味著這套全新的研發體系已經跑通。后續的正式版、更大參數的迭代版本,都能在這套體系里實現快速落地,騰訊的模型迭代速度,只會越來越快。
預覽版還只是開胃菜
很多人只盯著Hy3 preview的參數和榜單數字,卻忽略了一個關鍵信息:這只是一個預覽版,真正的重頭戲還在后面。
而騰訊能在大模型賽道實現長期追趕,最核心的底牌,是國內無人能及的全場景應用生態。
目前,Hy3 preview已經成為騰訊十余款核心產品的首選模型,這在混元的歷史上還是第一次。從C端的元寶、QQ、騰訊文檔、微信讀書,到B端的CodeBuddy、WorkBuddy、騰訊云,再到垂類場景的和平精英AI NPC、微信公眾號AI分身、騰訊智能客服,這款預覽版模型已經完成了全場景的快速落地。
在元寶對話場景,模型帶來了更具活人感的交互體驗,不僅能精準理解用戶的模糊需求,還能在多輪對話中保持情商在線、內容貼合語境;在騰訊文檔AI PPT 場景,模型生成成功率提升20%,耗時縮短20%,徹底解決了過往內容幻覺、主題偏離的問題;在和平精英的游戲場景,AI NPC不僅能精準完成人設扮演,還能適配局內復雜的對戰場景,回復節奏完全貼近真實玩家;在企業辦公場景,CodeBuddy、WorkBuddy憑借模型的能力升級,首Token延遲降低54%,端到端時長降低47%,能穩定驅動數百步的復雜Agent工作流。
而這只是開始。騰訊手握微信、QQ兩大國民級入口,覆蓋社交、游戲、廣告、金融、辦公、生活服務等幾乎所有互聯網場景,每天觸達十億級用戶。一旦“真實場景- 用戶反饋 - 模型訓練 - 能力升級 - 更多場景”的正向飛輪徹底轉起來,騰訊大模型的長期進化潛力,是純做底座的模型廠商無法比擬的。
AI大模型的競爭,是一場曠日持久的馬拉松。這個賽道里,從來沒有永遠的領先者,也沒有永遠的落后者。真正決定長期勝負的,是能不能找對正確的方向,能不能完成持續的自我迭代,能不能把模型能力轉化為真實的用戶價值。
Hy3 preview的發布,可以說是讓騰訊重回牌桌的起點。它證明了騰訊已經找對了實用為王的正確路線,完成了從組織到技術的全鏈路重構。
騰訊有領先的人才隊伍,不缺數據,正在補齊算力短板,還有豐富的應用場景,隨著時間推移,做不出頂尖大模型的概率只會越來越小。
接下來,當模型能力與騰訊的場景生態完成深度咬合,這場屬于騰訊的AI反擊,才剛剛拉開序幕。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.