網易首頁 > 網易號 > 正文申請入駐

被低估的Hy3 preview：騰訊基模能力正在重回牌桌

2026-04-27 19:41:22　來源: 鈦媒體APP

北京舉報

分享至

文 | 劃重點KeyPoints，作者｜林易，編輯｜重點君

上周，騰訊混元Hy3 preview發布并開源。坦白講，第一波行業討論并沒有想象中熱烈，畢竟在GPT-5.5和DeepSeek V4前后腳上線的夾擊下，一個不到300B參數的預覽版似乎很難激起太多水花。

我們拿著這款模型，在復雜推理、代碼開發、智能體落地三大核心場景做了幾天的深度實測，最終得出一個結論：行業普遍低估了這次更新的分量。

在我們看來，這是騰訊大模型徹底重構的拐點，是屬于騰訊的Gemini 2.5時刻。

大家一定記得谷歌大模型曾經的窘境。2023年底初代Gemini高調發布，本欲對標GPT-4改寫行業格局，卻因演示內容爭議、實測能力不及預期陷入口碑泥潭，在此后一年多時間始終被GPT系列全面壓制，這家AI領域的老牌巨頭一度被行業唱衰 “掉隊”。但隨著DeepMind創始人哈撒比斯全面接管AI核心研發，對AI業務從組織架構到技術路線的全鏈路推倒重構，打破算法研發與算力基建的部門壁壘、砍掉冗余管理層級、推翻初代模型的路徑依賴、重構訓練體系與研發范式，最終憑借Gemini 2.5實現了核心能力的飛躍，重回全球大模型第一梯隊。

現在，騰訊正在經歷類似的時刻。據我們了解，Hy3 preview之后，騰訊下一代基礎大模型參數將更大，綜合能力將大幅提升。

實測之后，最強的感受是“穩了”

先說復雜推理。

我們給Hy3 preview的第一類題，是多條件、多輪推翻的推理任務：一家公司有5個部門、8個項目、12個人員，項目之間存在排期依賴、預算約束和人員沖突，要求模型給出可執行排期，并解釋為什么某些方案不可行。

這類題最容易暴露模型的問題，前面算對，后面忘條件；局部合理，整體沖突；看起來寫了一大段，真正落到執行表格里全是漏洞。

Hy3 preview的表現不算驚艷到碾壓，但有兩個明顯變化：一是它會主動拆任務，把約束條件先列出來；二是在發現沖突時，會回到原條件里重新校準，而不是硬編一個答案。

這一點很關鍵，畢竟在Agent時代，模型最怕是太會說，錯了還說得很完整。

第二類是代碼。

我們讓它寫一個小型數據分析腳本：讀取多張表，清洗異常值，按照不同維度生成統計結果，并給出可視化建議。進一步提高難度后，又讓它根據報錯信息修復依賴、字段缺失和邊界條件。

這部分最明顯的變化是，Hy3 preview不再像過去一些通用模型那樣只會寫一段看起來像代碼的代碼。它能理解任務結構，也能在報錯后定位問題，修復思路比較清楚。

雖然在復雜工程項目里還不能說已經達到頂級Coding Agent水平，但對騰訊自己的開發者工具、辦公智能體而言，已經到了可用性明顯提高的區間。

第三類是智能體。

我們設計了一個更接近真實辦公的場景：用戶只說一句“幫我整理這周競品動態，輸出一頁匯報提綱”，模型需要自己拆成搜索、篩選、去重、歸納、生成標題、壓縮成匯報提綱結構等步驟。測試重點是它能不能在長鏈路中不跑偏。

Hy3 preview在這類任務上給人的感覺是開始有執行感了。它會區分哪些信息該進入正文，哪些只是背景；會把任務拆成階段；也能在中間結果不完整時提示需要補充，而不是直接腦補到底。

這就是我們說的Gemini 2.5時刻，可以說是底層能力終于能支撐真實應用往前走。

三個月完成推倒重來

很多人不知道，Hy3 preview從預訓練啟動到正式發布，只用了短短三個月。

而在大模型行業，完成一次完整的底座模型訓練與迭代，行業常規周期至少在6個月以上，當年Meta、谷歌完成模型體系的重構，更是花了6-12個月的時間。

能在三個月完成這場極限挑戰，核心原因在于，騰訊對混元大模型做了一場徹頭徹尾的推倒重來，而非在上一代版本上的縫縫補補。

這場重構始于組織與人才體系的徹底洗牌。前OpenAI明星研究員姚順雨出任騰訊首席AI科學家后，首先收攏了分散的AI研發力量，撤銷原有AI Lab，將AI Infra部與大語言模型部合二為一，打破了算法研發與基礎設施割裂的壁壘。

同時，團隊推行極致的扁平化管理，取消總經理、總監等管理層級頭銜，全面實行方向負責人制，決策鏈路大幅縮短，跨部門協作效率實現了質的飛躍。

其次是技術底座與訓練范式的全面重建。

Hy3 preview沒有沿用任何上一代的訓練框架，Agent系統幾乎從零搭建，預訓練與強化學習的AI Infra基礎設施、數據集全部重新開發。技術路線上，團隊選擇了經過行業驗證的MoE混合專家架構，總參數295B，激活參數僅21B，在保證能力的同時，把推理效率做到了極致，全棧優化后推理效率較上一代提升40%。

更關鍵的是訓練范式的底層轉向：從過去重度依賴SFT監督微調，全面轉向以RL強化學習為核心的后訓練體系。如果說SFT是給模型灌輸標準答案，那RL就是教會模型獨立判斷、解決未知問題。

這讓模型擺脫了刷榜強、實戰弱的困境，在千變萬化的真實場景中，擁有了持續進化的能力。

三個月完成全鏈路重構，不僅證明了騰訊團隊的工程化能力，更意味著這套全新的研發體系已經跑通。后續的正式版、更大參數的迭代版本，都能在這套體系里實現快速落地，騰訊的模型迭代速度，只會越來越快。

預覽版還只是開胃菜

很多人只盯著Hy3 preview的參數和榜單數字，卻忽略了一個關鍵信息：這只是一個預覽版，真正的重頭戲還在后面。

而騰訊能在大模型賽道實現長期追趕，最核心的底牌，是國內無人能及的全場景應用生態。

目前，Hy3 preview已經成為騰訊十余款核心產品的首選模型，這在混元的歷史上還是第一次。從C端的元寶、QQ、騰訊文檔、微信讀書，到B端的CodeBuddy、WorkBuddy、騰訊云，再到垂類場景的和平精英AI NPC、微信公眾號AI分身、騰訊智能客服，這款預覽版模型已經完成了全場景的快速落地。

在元寶對話場景，模型帶來了更具活人感的交互體驗，不僅能精準理解用戶的模糊需求，還能在多輪對話中保持情商在線、內容貼合語境；在騰訊文檔AI PPT 場景，模型生成成功率提升20%，耗時縮短20%，徹底解決了過往內容幻覺、主題偏離的問題；在和平精英的游戲場景，AI NPC不僅能精準完成人設扮演，還能適配局內復雜的對戰場景，回復節奏完全貼近真實玩家；在企業辦公場景，CodeBuddy、WorkBuddy憑借模型的能力升級，首Token延遲降低54%，端到端時長降低47%，能穩定驅動數百步的復雜Agent工作流。

而這只是開始。騰訊手握微信、QQ兩大國民級入口，覆蓋社交、游戲、廣告、金融、辦公、生活服務等幾乎所有互聯網場景，每天觸達十億級用戶。一旦“真實場景- 用戶反饋 - 模型訓練 - 能力升級 - 更多場景”的正向飛輪徹底轉起來，騰訊大模型的長期進化潛力，是純做底座的模型廠商無法比擬的。

AI大模型的競爭，是一場曠日持久的馬拉松。這個賽道里，從來沒有永遠的領先者，也沒有永遠的落后者。真正決定長期勝負的，是能不能找對正確的方向，能不能完成持續的自我迭代，能不能把模型能力轉化為真實的用戶價值。

Hy3 preview的發布，可以說是讓騰訊重回牌桌的起點。它證明了騰訊已經找對了實用為王的正確路線，完成了從組織到技術的全鏈路重構。

騰訊有領先的人才隊伍，不缺數據，正在補齊算力短板，還有豐富的應用場景，隨著時間推移，做不出頂尖大模型的概率只會越來越小。

接下來，當模型能力與騰訊的場景生態完成深度咬合，這場屬于騰訊的AI反擊，才剛剛拉開序幕。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.