網易首頁 > 網易號 > 正文申請入駐

實測混元Hy3 preview：騰訊AI，終于能打了？

2026-04-26 15:15:26　來源: 鈦媒體APP

北京舉報

分享至

文 | AIX財經，作者 | 雷晶，編輯 | 金玙璠

AI圈近期動作頻頻，騰訊混元Hy3 preview也正式亮相。

4月23日，騰訊混元正式發布并開源了新一代語言模型Hy3 preview。據官網介紹，該模型采用快慢思考融合的混合專家架構，總參數295B、激活參數21B，最大支持256K上下文長度。這是被官方稱為混元迄今最智能的模型。

三個月前，姚順雨帶著ReAct框架和OpenAI的實戰經驗加入騰訊，主導完成了預訓練和強化學習基礎設施的重構。Hy3 preview是重建后的首份答卷。官方表示，該模型在復雜推理、指令遵循、上下文學習、代碼生成及智能體等能力均實現大幅提升。

從官方披露的數據和評測結果來看，Hy3 preview在多項基礎測試中展現出亮眼的實力，雖然未必在所有維度都達到行業頂尖水準，但足以滿足多數場景下的實用需求。

在實際運行效率和穩定性方面，Hy3 preview也有所突破。官方數據顯示，這款模型的首Token延遲降低54%，端到端時長降低47%，大幅提升了響應速度。同時，任務成功率也有所提升，已能穩定驅動復雜的Agent工作流，覆蓋文檔處理、數據分析等多種業務場景。

此外，它的推理成本也有所下降。在騰訊云API輸入低至1.2元/百萬Tokens，個人套餐最低28元/月，在同尺寸模型中屬于最低價梯隊。目前，Hy3 preview已在騰訊云、元寶、WorkBuddy等騰訊核心產品中上線。

接下來，我們將根據官方提到的四個方向，實測混元大模型在實際應用中的表現。

推理能力：復雜邏輯能拆解，陷阱識別仍需加強

我們首先測試了模型的推理能力。邏輯推理題是網友最喜歡拿來測模型“智商”的類型之一。在這一環節中，我們先用經典的“洗車問題”在元寶內進行測試。

在這個經典陷阱題中，Hy3 preview起初并未答對。它給出了條理清晰的推理來建議步行，而忽視了重點在于“洗車”。在再次提醒需要洗車后，它才給出正確答案。

需要注意的是，在其他網友的實測中，Hy3 preview出現過能直接答對的情況，說明它的陷阱識別能力穩定性不足。

我們再來試一道腦筋急轉彎題。在這個問題中，需要理解現實邏輯，碎了、煎了、吃了的是同一批雞蛋。但Hy3 preview沒有意識到這一點，它認為煎了的雞蛋依然存在，可以吃掉。

隨后，我們加大難度，用一道推導過程更為復雜的邏輯題來考驗它。這道題的難點在于沒有直接的定位信息，需要靠隱性條件來做排除，容易遺漏關鍵信息。

在這一場景中，Hy3 preview給出了正確答案。它先逐條拆解線索、提煉人物與職業的互斥關系，再通過排除法鎖定身份。接著，它依次確定部分崗位的歸屬，再結合規則逐步補全。

綜合來看，Hy3 preview常規理性邏輯推演能力較強，但逆向思維、陷阱識別與生活場景變通思考能力仍有不足。面對陷阱類腦筋急轉彎時，容易局限于字面常規邏輯，忽略題目陷阱與現實場景，反應欠佳。但在面對條件隱蔽、推導繁瑣的復雜邏輯推理題時，它能夠拆解線索，層層推演，邏輯分析和分步推導能力表現扎實。

上下文學習和指令遵循：提取信息，干擾場景下表現穩定

這一環節考驗模型的兩個基本功：能否抓住真正的指令，以及能否快速理解指令。

騰訊在官方博客中給出了項目規劃、旅游總結、讀書記錄等五個場景，我們選取兩個場景來實測。

場景一：內容雜亂的會議紀要信息提取

我們給了一段混亂的會議錄音轉寫，混雜著插話、跑題、反復修正等情況，要求其摘錄三類信息。

Hy3 preview給出的答案準確地列出了這三類信息，信息抓取能力表現不錯。

場景二：理解并遵循新的語言規則

我們自創了一個簡單的語言，通過實例向它展示規則，并給它三個新的句子讓它翻譯。

在這一輪中，Hy3 preview能夠準確完成相關要求，每個細節都能按規則執行。

綜合來看，Hy3 preview能理解指令要求，有效排除干擾信息，適合繁雜信息干擾、信息抓取等實用場景。

代碼和智能體：工具調用較成熟，任務交付完整性不足

代碼能力與智能體能力，是評判一款AI助手是否好用的重要維度。這既考驗模型對用戶需求的理解深度，也檢驗Agent在多步驟任務中的規劃、工具調用及任務閉環能力。這一環節，我們為WorkBuddy（騰訊旗下AI助手）設計了三個任務。

第一個任務，我們要求WorkBuddy爬取五個城市近一年的空氣狀況，并基于空氣質量數據生成一份分析報告。

從頁面呈現來看，成品表現合格。季節切換、雷達圖、趨勢圖、相關性熱力圖等板塊結構完整，視覺呈現有序，圖表也具備基本的交互功能。這表明它在前端呈現這一層面的執行力達標。

但問題主要有兩個，一是由于數據獲取階段受阻，Hy3 preview只拿到了224天的有效數據，缺口較大，影響了后續表格的可信度；二是提示詞中明確要求寫一段分析結論，Hy3 preview雖在頁面上保留了對應板塊的區域，但實際內容是一片空白。這意味著，它有任務閉環意識，但最終的交付能力仍有不足。

第二個任務，我們讓它搭建一個貪吃蛇小游戲。

最終結果較為成熟，畫面精美、邏輯完整，可以正常運行。但需要指出的是，貪吃蛇屬于規則封閉類任務，需求明確且無需調用外部數據，評價標準比較明確，是智能體較擅長的應用場景。WorkBuddy在該任務中的表現只能體現在舒適區內的能力，驗證了其具有一定的實用價值。

第三個任務，我們將難度提高，讓它分析一個開放式復雜任務：分析AI Coding行業的商業模式演變，盤點2023年至今的發展歷程，并找出行業關鍵轉折點及核心驅動因素。

這是一個開放式復雜任務，沒有統一的標準答案，成果質量取決于Agent的判斷力、信息篩選能力與表達能力。

在執行層面，WorkBuddy能夠自動調用多個工具，先修訂執行計劃、再落地推進計劃，整個過程大概耗時半個小時。

但最終結果并不算驚艷，它只是搭建了一個基礎框架，實際內容不夠扎實。可以看出，雖然它掌握了拆解研究問題的方法，卻不懂得如何將這些維度進一步提煉為有價值的研究論點。

總的來說，WorkBuddy已具備日常編碼助手該有的能力，但在復雜任務的深度執行和最終交付上，還有提升空間。

自然對話：AI味明顯減弱

最后，我們再來看看元寶有沒有“人味”。這一輪通過兩個場景來測試：閑聊對話與創意寫作。

場景一：閑聊對話

官方文檔中提到，Hy3 preview更能理解用戶的傾訴意圖，能承接用戶情緒，避免說教式、模板化的回復。

實際測試下來，Hy3 preview的表現確實貼合這一定位。它沒有一上來就羅列一堆建議，而是先客觀分析背后的可能原因，再詢問是否遇到什么事情。整體語氣溫和，較有分寸，有閑聊場景里的自然感。

場景二：創意寫作

在這一環節中，我們設計了兩個任務，考驗它的敘事與表達能力。

我們先讓它寫一個主角全程未出場，但讀者讀完能清晰知道他是誰、經歷了什么、為何重要的故事。

元寶交出的成品，全文邏輯自洽、敘事流暢，完成度較高，幾乎讀不出AI寫作常見的套路感。

接著，我們再讓它模仿《明朝那些事兒》的文風，撰寫其他朝代的人物歷史故事。

AI寫作時容易將文風復刻表現為刻板的模仿，僅停留照搬行文框架，而不能吃透文章風格。但從生成結果來看，Hy3 preview文風復刻能力較強，整體符合要求。它抓住了原書通俗講史的風格，較好地呈現了整個故事。

這一輪評測，最讓人意外。整體來看，Hy3 preview在自然語言的表達上，已經擺脫了正確卻無味的套路腔，能夠寫出可讀性較高的文本。

結語

四個維度測下來，Hy3 preview給人的感覺是“穩而不驚”。

它沒有在某一項上拿出碾壓式的表現，但它也幾乎沒有明顯的短板。放在整個國內大模型的排位里，它未必是最驚艷的一款，但符合能干活的實用型模型標準。

把視角拉遠一點，Hy3 preview真正的意義或許并不在模型本身。

過去兩年，騰訊在大模型戰場上較為被動。今年1月底，馬化騰在年會上公開承認，騰訊AI動作慢了。技術節奏相對較慢、沒有一個能讓外界記住的標桿模型，是騰訊面臨的兩大問題。而Hy3 preview的發布，讓騰訊的AI故事有了轉折點，也讓騰訊有了整個生態都能用的AI模型。

目前Hy3 preview還只是一個預覽版本，開源社區的反饋還在收集中，元寶、QQ、騰訊文檔等產品的實際調用體驗也還需要時間檢驗。據官方披露，后續會發布參數規模更大的模型。

但至少，騰訊AI已經開始撕掉過去兩年“被動”的標簽了。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

騰訊28歲首席AI科學家交卷

財天COVER 2026-04-26 11:22:35
3 跟貼 3
賴清德竄訪斯威士蘭失敗背后的三重邏輯

井芹仁小菜 2026-04-26 02:57:51
0 跟貼 0

南方多省電價突然飆升專家：與霍爾木茲海峽局勢有關

每日經濟新聞 2026-04-25 20:30:11
15832 跟貼 15832

今天起，DeepSeek V4成OpenClaw默認模型！

新智元 2026-04-26 11:28:20
3 跟貼 3
羅納爾多的接球邏輯，獨屬于外星人的無解調整！

愛笑無厘頭 2026-04-26 12:03:51
1 跟貼 1

沒有智駕的會議室不是好KTV！地平線KaKaClaw車載智能體上手

呆呆羊駝 2026-04-25 23:41:05
0 跟貼 0

半掛模型玩具車買菜，要是超重了怎么辦，雷軍都不敢這么設計！

宇宙搞笑生活 2026-04-23 14:10:00
4 跟貼 4
蘇超最新積分榜出爐！

無錫博報 2026-04-25 21:51:59
150 跟貼 150

美國富豪非洲打獵被5頭大象踩死

看看新聞Knews 2026-04-25 19:38:18
4282 跟貼 4282
GPT-Image-2 人物一致性！在視頻制作中的核心優勢！與實戰價值！

AI次世代 2026-04-24 20:41:27
0 跟貼 0
翻完DeepSeek報告，我們發現了中國AI的默契

機器之心Pro 2026-04-26 13:21:55
2 跟貼 2
現場視頻：遼寧艦曾遭遇外軍兩個航母編隊跟蹤監視，我軍殲-15掛彈起飛，從高度8000米一直纏斗至2000米，最終成功驅離外軍機

北京青年報 2026-04-25 18:58:06
1450 跟貼 1450
前高管怒懟吉姆瑞恩:戰略全錯!索尼必須馬上重組止損

游民星空 2026-04-26 16:16:22
0 跟貼 0
內地旅客買6000港元蟲草磨粉后結賬竟變成7.1萬

看看新聞Knews 2026-04-25 19:24:12
4975 跟貼 4975
“月薪1.6萬招人放羊”老板再發聲：多人通過初選，但擔心條件艱苦留不住人；稱就算降薪也要交社保

極目新聞 2026-04-25 16:12:24
2416 跟貼 2416
在OpenAI把Chronicle做成訂閱功能48小時后，一群00后把它開源了

機器之心Pro 2026-04-26 13:23:34
0 跟貼 0
打造可進化的車載“大腦”，智能座艙進入超級智能體時代

文匯報 2026-04-26 13:46:58
0 跟貼 0
閃電快訊｜商湯絕影發布艙駕一體全場景智能體系列產品

電廠 2026-04-26 00:28:23
0 跟貼 0
重達7530噸！全球單機容量最大，開始安裝

環球網資訊 2026-04-25 19:52:08
1223 跟貼 1223
制作直升機遙控模型，阿帕奇AH-64

制造科技 2026-04-22 16:29:03
0 跟貼 0
英偉達 CEO 黃仁勛：AI 智能體不會取代軟件公司，反而會使軟件需求暴增！

知了3C 2026-04-22 03:24:06
0 跟貼 0
你以為練完拳就完事了？很多人都敗在這一步

太極拳 2026-04-24 15:03:52
1 跟貼 1
自然界不遵循直線規則

奇奇趣世界 2026-04-25 09:46:04
3 跟貼 3
直言是錯誤！前高管暗諷索尼《星鳴特攻》式戰略

游民星空 2026-04-26 16:16:22
1 跟貼 1
趙心童兩階段9-7領先丁俊暉 “中國德比”今日17時決勝負

齊魯壹點 2026-04-26 07:18:18
514 跟貼 514
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
沒電腦做不了PPT？手機2步搞定PPT，10分鐘完美交差！

秋葉PPT 2026-04-25 08:21:57
2 跟貼 2
告別收費，深圳水官高速迎來全新起點，市民熱議未來變化

南方都市報 2026-04-26 13:28:30
18 跟貼 18
未來五年最熱門的工作，將是智能體運營師

樂依愛分享 2026-04-26 05:09:32
0 跟貼 0
PackingStar雙智能體博弈，攻克14維難題

量子位 2026-02-16 13:12:43
0 跟貼 0
爆火！把智能體當游戲角色來玩，一個人就是一個公司

機器之心Pro 2026-02-12 18:04:44
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
老黃100%免費開源！老照片炸成可漫游3D宇宙

新智元 2026-04-26 15:03:13
0 跟貼 0
泡泡瑪特推出Labubu冰箱，售價5999元，上千人預約

大象新聞 2026-04-26 13:01:02
414 跟貼 414
“記者臥底桂林六日游低價團”后續：地接旅行社被罰30萬并停業整頓

極目新聞 2026-04-24 08:03:58
550 跟貼 550
罕見！超級牛散，進入中信證券前十大股東！

證券時報 2026-04-26 14:12:15
56 跟貼 56
金屬件中空外壁的內部結構，金屬模型加工，中空外壁內層設計

小明不講理 2026-04-26 10:27:03
1 跟貼 1
異地戀女友日常報備：ai訓練模型+空腹普拉提1.5h

YYz 2026-04-24 19:19:18
0 跟貼 0
隨槍而動的精密維護倉 56式半自動附件盒的操作邏輯與保障價值

武器知識 2026-04-26 11:36:16
0 跟貼 0
特斯拉中國車機將接入豆包大模型

商學院雜志 2026-04-24 21:30:14
0 跟貼 0

鈦媒體APP

獨立財經科技媒體

132799文章數 862118關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

數碼

親子

旅游

軍事航空

手機 / 數碼

房產 / 家居

實測混元Hy3 preview：騰訊AI，終于能打了？

漲價浪潮下，DeepSeek推動AI“價格戰”

金店電子稱旁現拇指大小遙控器 商家可遠程遙控改重量

金店電子稱旁現拇指大小遙控器 商家可遠程遙控改重量

森林狼3比1掘金：逆境中殺出了多孫穆？！

《八千里路云和月》大結局意難平

DeepSeek V4背后，梁文鋒的轉身

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

新一輪教育大爆發來了！海口，開始瘋狂建學校！

紅魔游戲平板5 Pro 5月發布！行業最強游戲平板 唯一超高刷OLED

媽媽懷孕時高血壓，孩子易患癌？

濟南有禮蘊泉城

伊朗總統：不會在壓力、威脅下進行談判

金店電子稱旁現拇指大小遙控器商家可遠程遙控改重量

金店電子稱旁現拇指大小遙控器商家可遠程遙控改重量

預售19.38萬元起哈弗猛龍PLUS七座版亮相

紅魔游戲平板5 Pro 5月發布！行業最強游戲平板唯一超高刷OLED