<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>

色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3

<blockquote id="rhqb3"></blockquote>

<p id="rhqb3"><li id="rhqb3"><menuitem id="rhqb3"></menuitem></li></p>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

今天，姚順雨在DeepSeek V4前交卷了

2026-04-23 18:47:10　來源: 智東西

北京舉報

0

分享至

智東西
作者江宇
編輯心緣

姚順雨第一場“大考”交卷！

智東西4月23日報道，今日，騰訊發布并開源新一代大模型混元Hy3 preview，這是混元體系重建后的首個旗艦版本，也是姚順雨掌舵混元后首次對外亮相的模型成果。

新一代Hy3 preview是混元迄今最智能的模型，該模型采用快慢思考融合的混合專家架構，總參數295B，激活參數21B，支持最長256K上下文。

從測評結果來看，Hy3 preview在復雜推理、指令遵循、代碼與智能體能力等關鍵維度實現整體提升。在復雜推理任務中，其在FrontierScience-Olympiad拿下70.0分、IMO Answer Bench達到84.3分，整體表現已超過GLM-5、Kimi-K2.5，接近Gemini 3.1 Pro與GPT-5.4，并在清華求真書院數學博士資格考試中取得88.4分的國內最高成績。

在代碼與搜索能力上，其在SWE-Bench Verified達到74.4%，已逼近GLM-5與Kimi-K2.5，在Terminal-Bench 2.0、BrowseComp、WideSearch等基準中也進入第一梯隊，但與Claude Opus-4.6等頂級閉源模型仍有差距。

在ClawEval、WildClawBench等Agent評測中，Hy3 preview的綜合執行能力明顯提升。在涵蓋16項基準的綜合評測中，其平均得分約56分，顯著高于上一代Hy2（約35分），并進入當前主流Agent模型的競爭區。

目前，Hy3 preview已率先接入騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ等多條核心產品線。另外，Hy3 preview還支持接入流行的開源智能體產品，如OpenClaw、OpenCode、KiloCode等，并已上架騰訊云大模型服務平臺TokenHub。

在推理效率與成本層面，其首token延遲降低54%、端到端時長下降47%，整體推理效率提升40%；API價格進一步下探至輸入最低1.2元/百萬tokens、輸出最低4元/百萬tokens，并提供最低28元/月的Token套餐，主打一個“高性價比”。

而近期，國內外大模型賽道可謂是“動作頻頻”。

上周五，Anthropic發布了新一代旗艦模型Claude Opus 4.7；4月20日，阿里發布了其下一代旗艦模型的早期預覽版Qwen3.6-Max-Preview；4月21日，Kimi正式發布并開源旗艦模型K2.6；4月23日，小米MiMo大模型家族一口氣官宣4款新模型，其中旗艦推理模型MiMo-V2.5也開啟公測。

而行業最期待的“開源猛獸” DeepSeek V4也有望在本周內降臨。這一波國內外旗艦模型的集體“上桌”，或意味著大模型格局的洗牌時刻即將到來。

面對如此激烈的神仙打架局面，定位“全面實用性”的Hy3 preview究竟具備怎樣的真實戰斗力？我們第一時間對其進行了實測。

開源地址：https://github.com/Tencent-Hunyuan/Hy3-preview

一、挑戰復雜SVG與互動HTML，代碼與邏輯能力一手實測

為了全面驗證其能力，我們從邏輯推理、前端代碼生成以及多模態表現等維度，對Hy3 preview進行了實測。

首先，我們拋出了兩個經典的“陷阱題”。

提示詞：我要去洗車，洗車的地方離家就100米，我是開車去呢，還是走著去呢？

提示詞：父親和母親可以結婚嗎？

實測結果來看，Hy3 preview不負眾望，成功完成了測試并準確繞過了文字陷阱。對于洗車問題，模型還幽默地補充了“代駕取車”的特殊情況。

在代碼生成維度，我們首先選擇了一個高難度的SVG繪制任務。

提示詞：生成一個Xbox 360控制器的SVG代碼。

Xbox 360控制器不僅具有復雜的人體工學非對稱曲線，還包含了豐富的搖桿與按鍵布局。這能極具針對性地考驗大模型在沒有視覺反饋的情況下，對二維空間坐標、圖層疊加關系及幾何數學計算的精準控制能力。

從實測結果來看，Hy3 preview在首次生成時遭遇了失敗，雖然系統很快進行了重新生成，但最終的視覺效果并不理想。搖桿、按鍵等核心組件出現了明顯的坐標錯位。

接下來，我們進一步測試了其生成帶有交互邏輯的復雜HTML代碼的能力。

提示詞：用一個HTML代碼塊編寫一個3D精靈球，它應該是可交互的，并且在打開時會有隨機的寶可夢從里面出來。

實測發現，Hy3 preview輸出的精靈球并沒有達到預期的3D視覺效果，整體呈現依然比較粗糙。在交互體驗層面，當觸發召喚寶可夢的動作時，前端圖層渲染邏輯出現了瑕疵，導致精靈球的UI元素直接遮擋了內部彈出的精靈形象。

最后一個體驗案例是創建一個像素風格的前端頁面。

提示詞：創建一個騎自行車的鵜鶘的3D像素藝術作品。盡可能將場景刻畫得非常細致，注意主體模型上的每一個小細節，同時也要考慮周圍環境的細節。在一個HTML代碼塊中完成制作，將代碼寫得足夠優秀，以展示你的水平超越其他作品。我賦予你完全的創作自由，盡情發揮。

在這一案例中，Hy3 preview在靜態結構的理解上表現尚可，鵜鶘的身體結構與自行車形態也相對完整。但遺憾的是，代碼生成的畫面中鵜鶘并沒有如預期般呈現出動態騎行效果，且在細節刻畫上缺失了自行車鏈條這一部件。

總體而言，Hy3 preview在代碼框架構建和基本意圖理解上展現出了不錯的潛力。但在涉及復雜空間坐標系、前端深度交互渲染時，仍需持續進化與打磨。

除了圖形與交互測試，我們還驗證了Hy3 preview在財務分析上的表現。我將騰訊2023、2024、2025年的財報輸入模型，讓它生成財報分析報告。

模型能夠準確提取核心財務數據，并呈現三年的同比變化趨勢。同時，按年報披露的業務分部，生成收入結構對比圖和業務板塊占比變化圖，整體分析報告清晰可讀，數據整合能力令人印象深刻。

總體而言，Hy3 preview在代碼框架構建、基本意圖理解及數據分析上展現出了不錯的潛力。但在涉及復雜空間坐標系、前端深度交互渲染時，仍需持續進化與打磨。

二、多項核心基準躋身第一梯隊，Agent能力逼近主流旗艦模型

從測評表現來看，Hy3 preview在多個關鍵能力維度上進入第一梯隊。

以長上下文與指令遵循為例，在自建的CL-bench與CL-bench Life評測中，其得分分別達到22.8和15.7，明顯高于GLM-5、Kimi-K2.5等同類模型，但與GPT-5.4級別模型相比仍存在差距，整體處于開源陣營前列位置。

在復雜推理能力上，Hy3 preview在FrontierScience-Olympiad中取得70.0分，高于GLM-5和Kimi-K2.5，接近Gemini 3.1 Pro與GPT-5.4。

在IMO Answer Bench上達到84.3分，超過Kimi-K2.5和GLM-5，但仍低于Gemini 3.1 Pro與GPT-5.4。

在清華求真書院數學博士資格考試中，其得分為88.4，顯著高于Kimi-K2.5和GLM-5，但與頂級閉源模型仍有差距；在CHSBO 2025生物競賽中，其87.8的表現同樣領先多數開源模型，接近GPT-5.4的水平。

代碼與Agent能力是其提升最明顯的方向。

在后端工程任務集Hy-Backend上，Hy3 preview得分達到54.7，超過GLM-5和Kimi-K2.5；在更貼近用戶交互的Hy-Vibe評測中，其表現同樣領先Kimi-K2.5；在高難度軟件工程任務Hy-SWE Max上，Hy3 preview達到30，明顯高于Kimi-K2.5、接近GLM-5，但與Claude Opus-4.6仍存在差距。

這類內部評測更強調“真實開發環境中的完成能力”，相比標準化榜單，更能反映模型在復雜工程任務中的實際可用性。

在SWE-Bench Verified上，Hy3 preview達到74.4%，已經逼近GLM-5和Kimi-K2.5，但與Claude Opus-4.6仍有差距；在Terminal-Bench 2.0上，其54.4%的成績超過GLM-4.7等模型，進入第一梯隊。

在搜索與信息整合能力上，Hy3 preview在BrowseComp上達到67.1%，接近GLM-5與Kimi-K2.5；在WideSearch上取得70.2%，超過GLM-5，但仍低于Claude Opus-4.6。

這類能力直接決定模型在開放環境中的“找信息+做判斷”能力，是Agent落地的關鍵基礎。

進一步看整體Agent能力，在涵蓋16項基準的綜合評測中，Hy3 preview以約56分的綜合得分，顯著高于Hy2（約35分），并與GLM-4.7、DeepSeek-V3.2等模型拉開差距，接近GLM-5與Kimi-K2.5所在區間。

在更細分的Agent專項評測中，Hy3 preview也呈現出類似趨勢。在WildClawBench（text-only）中，其得分為45.3，高于Kimi-K2.5、接近GLM-5；在ClawEval評測中達到55.0，超過Kimi-K2.5、接近GLM-5，但與Claude Opus-4.6同樣存在差距。

這類評測更關注模型在多步調用、工具協同與任務拆解中的穩定性，直接對應Agent在真實環境中的執行能力。

在參數規模僅295B的前提下，這一表現也能看出其追求“性價比最優”，成為當前少數在成本與能力之間取得平衡的模型之一。

三、推理效率提升40%，輸入1.2元/百萬tokens起，256K長上下文成本壓低

在能力之外，Hy3 preview此次更直接的變化體現在推理效率與成本結構上。

得益于模型架構與推理框架的深度協同，以及算子優化與量化策略的整體調整，其整體推理效率提升約40%，將單位調用成本進一步壓縮。

從實際定價來看，在0-16K上下文范圍內，Hy3 preview輸入價格最低為1.2元/百萬tokens，命中緩存后可降至0.4元，輸出價格為4元。

在更長上下文（最高256K）場景下，Hy3 preview輸入價格逐步提升至2元/百萬tokens，輸出價格為8元。

這意味著，在長文本、復雜Agent任務中，其成本仍處于可控范圍。

除了按量計費，騰訊云還推出了面向開發者的Token套餐方案，將成本進一步前置與打包。以個人版為例，Lite套餐月費28元，對應約3500萬tokens額度，折合單價約0.8元/百萬tokens；Standard、Pro、Max套餐則分別提供100M、320M、650M tokens，對應單價逐步下降至0.72元/百萬tokens。

這一梯度設計，對更高頻、更長鏈路的調用場景更加友好，適用于需要持續運行的Agent應用。

結語：混元重建后的第一步，把重心放回真實場景

從某種意義上看，Hy3 preview是騰訊混元在團隊、架構與基礎設施全面重建之后的一個起點版本。它沒有繼續沿著“更大參數”的路徑走下去，而是選擇以295B的規模，注重打磨推理、代碼、Agent等能力。

這一方向也對應姚順雨提出的“AI下半場”判斷——模型的價值，不在榜單，而在復雜場景中的可用性。從目前的落地情況來看，無論是元寶、WorkBuddy，還是QQ助手與AI客服，這一版本已經開始在騰訊內部多條業務線上持續“跑起來”，并通過實際反饋反向推動模型迭代。

放在更大的時間線上看，Hy3 preview或許是騰訊在這一輪大模型競爭中重新找到節奏的信號。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Agent中的“愛馬仕”來啦：100k+ Star 的開源AI Agent ，正在偷偷給自己升級

鈦媒體APP 2026-04-23 09:27:15
0 跟貼 0
剛剛，姚順雨帶隊「重建」混元，首個大模型上線了

機器之心Pro 2026-04-23 17:07:34
0 跟貼 0

神秘模型「大象」：僅100B拿下SOTA，Token效率超高！

量子位 2026-04-22 18:26:33
2 跟貼 2

OpenAI推Workspace Agents，GPTs成為過去式

智東西 2026-04-23 20:11:52
0 跟貼 0
ICLR 2026 | ProSafePrune：一剪見效，告別大模型過度防御

機器之心Pro 2026-04-22 12:26:18
0 跟貼 0

實測混元Hy3 preview：混元再出發，中型模型的務實之戰

鈦媒體APP 2026-04-23 17:22:18
0 跟貼 0

00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
OpenAI最新生圖模型，馬斯克直播賣老干媽？

量子位 2026-04-21 04:17:17
0 跟貼 0

普華永道金軍：無人駕駛爆發點在 Robotaxi，明年將成市場亮點

每日經濟新聞 2026-04-23 20:48:04
0 跟貼 0
破局“智駕雙雄”，千里科技如何以AI之力重塑行業格局

36氪 2026-04-23 20:16:06
0 跟貼 0
真正的龍蝦平權，是零門檻的全民生產力

虎嗅APP 2026-04-22 20:37:14
8 跟貼 8
項目總延期？問題可能出在寫代碼之前

全棧遛狗員 2026-04-22 16:23:42
0 跟貼 0
俄副外長：俄方獲邀以最高級別參加美國G20峰會

財聯社 2026-04-23 11:20:05
17629 跟貼 17629
剛剛，DeepSeek開始頻繁更新：Tile Kernels、DeepEP V2

機器之心Pro 2026-04-23 19:58:20
0 跟貼 0
從人工到機器，插秧邏輯已經變了！

秘密大爆炸 2026-04-22 10:16:34
1 跟貼 1
梁文鋒的驚險一躍：當DeepSeek撞上算力賬單與組織重構

鈦媒體APP 2026-04-23 16:50:17
1 跟貼 1
戰后日本首次在境外發射進攻型導彈

北京青年報 2026-04-22 22:28:46
10609 跟貼 10609
VinciCoder：多模態統一代碼生成框架和視覺反饋強化學習

機器之心Pro 2025-11-17 14:12:38
0 跟貼 0
V8發動機模型

制造科技 2026-04-19 17:41:19
0 跟貼 0
數據分析師的Excel替代方案：Pandas的五個真相

閃存獵手 2026-04-23 15:18:54
0 跟貼 0
這個152星項目，把PPT工程師逼到墻角

我是一個養蝦人 2026-04-19 12:00:03
0 跟貼 0
美國街道展示這樣的尸體模型，路過的人目睹此景，表情太無助

萌力暴擊 2026-04-22 16:26:18
1 跟貼 1
不會寫代碼的文科生耗時一月，用AI靈光做應用軟件賺了三萬元

星視頻 2026-04-22 15:21:34
0 跟貼 0
誰說工科生只會寫代碼？

中國網資訊 2026-04-22 10:15:39
0 跟貼 0
港媒：江旻憓已放棄加拿大護照

澎湃新聞 2026-04-23 13:06:27
1235 跟貼 1235
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
河北保定通報蠡縣部分灌溉井出水呈紅色調查處置情況

齊魯壹點 2026-04-22 18:27:11
92 跟貼 92
龍蝦軍團有了最強「視力」！一眼看圖直接寫代碼-1

機器之心Pro 2026-04-02 16:56:32
0 跟貼 0
為什么我不再把計劃說出口

晚風也遺憾 2026-04-22 17:47:53
0 跟貼 0
半掛模型玩具車買菜，要是超重了怎么辦，雷軍都不敢這么設計！

宇宙搞笑生活 2026-04-23 14:10:00
1 跟貼 1
快充挑樁、續航虛、迭代快？現在買電車得選900V ？ | 吳佩頻道

吳佩頻道 2026-04-20 18:06:22
5 跟貼 5
TechWeb微晚報：騰訊、阿里洽談投資DeepSeek，理想汽車辟謠“走私”

TechWeb 2026-04-23 17:11:04
0 跟貼 0
它喊著防止追尾，卻又有意急剎，設計這個邏輯的公司真無敵了！

旅行指南者 2026-04-20 09:47:38
0 跟貼 0
中介稱"杭州600萬房子355萬急出" 有人看房被"丟路邊"

錢江晚報 2026-04-23 14:45:39
1048 跟貼 1048
一鍵生成PPT和科研繪圖，北大開源Paper2Any，全流程可編輯

機器之心Pro 2026-01-04 17:32:26
4 跟貼 4
PS5迎來重磅系統更新！超關鍵內容改進上線

游民星空 2026-04-23 19:10:16
1 跟貼 1
中際旭創市值破1萬億元，近1年股價飆漲超10倍，實控人為75歲煙臺首富

紅星資本局 2026-04-23 13:11:15
88 跟貼 88
【硬核拆解Claude Code】為什么Claude是最強 Agent？四層架構 + 記憶壓縮 +

盧菁老師 2026-04-20 11:08:43
0 跟貼 0
我們拷打了小米最新大模型：全模態很驚艷，但聯網檢索仍是短板

雷科技 2026-04-23 20:44:21
0 跟貼 0
一覺醒來伊朗亮出另一張王牌！或切斷霍爾木茲光纜！比封鎖更管用

阿訊說天下 2026-04-23 08:09:23
3 跟貼 3

美國11名頂尖科學家連續離奇失蹤或死亡，特朗普：相當嚴重

美國11名頂尖科學家連續離奇失蹤或死亡，特朗普：相當嚴重

新民周刊

2026-04-23 18:56:16

“19歲女生受邀去泰國潑水節被轉賣電詐園”最新消息：園區初步同意放人，可遲遲不給具體位置，雙方仍在協商接人事宜

“19歲女生受邀去泰國潑水節被轉賣電詐園”最新消息：園區初步同意放人，可遲遲不給具體位置，雙方仍在協商接人事宜

三湘都市報

2026-04-23 17:18:29

中央定調！4月起公務員退休徹底取消彈性延遲，體制內真繃不住了

中央定調！4月起公務員退休徹底取消彈性延遲，體制內真繃不住了

愛下廚的阿椅

2026-04-22 17:30:09

震驚！廣州一互聯網公司招5名文員，收到4000余份簡歷，HR慌了…

震驚！廣州一互聯網公司招5名文員，收到4000余份簡歷，HR慌了…

火山詩話

2026-04-23 16:46:58

用扣子捏了個“財經翻譯官”，最簡單的財報打開方式

用扣子捏了個“財經翻譯官”，最簡單的財報打開方式

一點財經

2026-04-18 13:56:22

全球最毒的10大垃圾食物榜單，泡面沒上榜，“真兇”很多人每天吃

全球最毒的10大垃圾食物榜單，泡面沒上榜，“真兇”很多人每天吃

小談食刻美食

2026-04-23 07:54:50

76歲的萬科創始人王石，最近徹底成了全網焦點。

76歲的萬科創始人王石，最近徹底成了全網焦點。

夢錄的西方史話

2026-04-23 14:36:39

上海警方通報“女子機場兩次拒幫陌生人帶行李”：3人購買大量免稅品欲帶至境外販賣，反復糾纏10余名旅客要求“分擔行李”，已被行拘

上海警方通報“女子機場兩次拒幫陌生人帶行李”：3人購買大量免稅品欲帶至境外販賣，反復糾纏10余名旅客要求“分擔行李”，已被行拘

極目新聞

2026-04-23 14:36:35

太慘了！燃油車再迎大降價：最大跌幅50%，豪華車帶頭“跳水”

太慘了！燃油車再迎大降價：最大跌幅50%，豪華車帶頭“跳水”

混沌錄

2026-04-23 16:50:14

廣東美女泰國消失最新！被囚禁13天，細節曝光，難怪20萬也救不出

廣東美女泰國消失最新！被囚禁13天，細節曝光，難怪20萬也救不出

閱微札記

2026-04-23 11:35:46

單身越久，死亡風險越高？中國科學家：每周2次性生活是安全線

單身越久，死亡風險越高？中國科學家：每周2次性生活是安全線

思思夜話

2026-04-23 11:30:19

痛心！西華縣公安局民警范志勇因公犧牲

痛心！西華縣公安局民警范志勇因公犧牲

大象新聞

2026-04-23 20:21:11

澤連斯基：美國，不要忘記烏克蘭

澤連斯基：美國，不要忘記烏克蘭

第一財經資訊

2026-04-23 20:19:36

最新公布：韓國兩戰機“空中碰撞”，原因竟是飛行員拍照記錄自己“最后一次飛行”

最新公布：韓國兩戰機“空中碰撞”，原因竟是飛行員拍照記錄自己“最后一次飛行”

環球時報國際

2026-04-23 20:42:17

老兵更新動態，保安被辭退處境堪憂，老兵一番話讓保安無地自容

老兵更新動態，保安被辭退處境堪憂，老兵一番話讓保安無地自容

離離言幾許

2026-04-23 07:41:27

加拿大歌手取消原定于北京的巡演，主辦方：藝人未買到高鐵票，怕影響接下來的行程

加拿大歌手取消原定于北京的巡演，主辦方：藝人未買到高鐵票，怕影響接下來的行程

東方不敗然多多

2026-04-23 16:50:42

剛剛，全線跳水！美軍，動手了！

剛剛，全線跳水！美軍，動手了！

中國基金報

2026-04-23 14:34:47

王維當選蘇州市市長

揚子晚報

2026-04-23 15:36:35

港媒：江旻憓已完成放棄加拿大護照

港媒：江旻憓已完成放棄加拿大護照

澎湃新聞

2026-04-23 13:06:27

教育部新規落地！9月上學全變了，家長趁早看

教育部新規落地！9月上學全變了，家長趁早看

笑熬漿糊111

2026-04-23 00:05:18

智東西，AI產業新媒體，專注報道人工智能的前沿技術發展，和技術應用帶來的千行百業產業變革。

11676文章數 117037關注度

往期回顧全部

科技要聞

馬斯克喊出"史上最大產品"，但量產難預測

頭條要聞

男子被境外虛擬貨幣黑平臺騙30萬躺平不上班滿頭白發

頭條要聞

男子被境外虛擬貨幣黑平臺騙30萬躺平不上班滿頭白發

體育要聞

萊斯特城降入英甲，一場虧麻了的豪賭

娛樂要聞

王大陸因涉黑討債被判女友也一同獲刑

財經要聞

關于AI算力鏈"瓶頸" 這是高盛的最新看法

汽車要聞

令人驚艷的奇瑞車風云A9可不只是樣子貨

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

數碼

親子

藝術

公開課

PS輸麻了？幫對手狂賺數億美元再也不需死守獨占

數碼要聞

全球首款SGS卓越可靠性認證！榮耀筆記本X16 Plus評測：大屏輕薄本竟如此抗造

親子要聞

我宣布：我再也不怕喝牛奶了！

藝術要聞

她辭掉高管，花20年自費100萬：這本書，救了山西“正在消失的壁畫”

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版

<sub id="1f792"></sub>

<p id="1f792"></p>