<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      今天,姚順雨在DeepSeek V4前交卷了

      0
      分享至


      智東西
      作者 江宇
      編輯 心緣

      姚順雨第一場“大考”交卷!

      智東西4月23日報道,今日,騰訊發布并開源新一代大模型混元Hy3 preview,這是混元體系重建后的首個旗艦版本,也是姚順雨掌舵混元后首次對外亮相的模型成果


      新一代Hy3 preview是混元迄今最智能的模型,該模型采用快慢思考融合的混合專家架構總參數295B激活參數21B,支持最長256K上下文

      從測評結果來看,Hy3 preview在復雜推理、指令遵循、代碼與智能體能力等關鍵維度實現整體提升。在復雜推理任務中,其在FrontierScience-Olympiad拿下70.0分、IMO Answer Bench達到84.3分,整體表現已超過GLM-5、Kimi-K2.5,接近Gemini 3.1 Pro與GPT-5.4,并在清華求真書院數學博士資格考試中取得88.4分的國內最高成績

      在代碼與搜索能力上,其在SWE-Bench Verified達到74.4%,已逼近GLM-5與Kimi-K2.5,在Terminal-Bench 2.0、BrowseComp、WideSearch等基準中也進入第一梯隊但與Claude Opus-4.6等頂級閉源模型仍有差距

      在ClawEval、WildClawBench等Agent評測中,Hy3 preview的綜合執行能力明顯提升。在涵蓋16項基準的綜合評測中,其平均得分約56分,顯著高于上一代Hy2(約35分),并進入當前主流Agent模型的競爭區。

      目前,Hy3 preview已率先接入騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ等多條核心產品線。另外,Hy3 preview還支持接入流行的開源智能體產品,如OpenClaw、OpenCode、KiloCode等,并已上架騰訊云大模型服務平臺TokenHub。


      在推理效率與成本層面,其首token延遲降低54%、端到端時長下降47%,整體推理效率提升40%;API價格進一步下探至輸入最低1.2元/百萬tokens、輸出最低4元/百萬tokens,并提供最低28元/月的Token套餐,主打一個“高性價比”。

      而近期,國內外大模型賽道可謂是“動作頻頻”。

      上周五,Anthropic發布了新一代旗艦模型Claude Opus 4.7;4月20日,阿里發布了其下一代旗艦模型的早期預覽版Qwen3.6-Max-Preview;4月21日,Kimi正式發布并開源旗艦模型K2.6;4月23日,小米MiMo大模型家族一口氣官宣4款新模型,其中旗艦推理模型MiMo-V2.5也開啟公測。

      而行業最期待的“開源猛獸” DeepSeek V4也有望在本周內降臨。這一波國內外旗艦模型的集體“上桌”,或意味著大模型格局的洗牌時刻即將到來。

      面對如此激烈的神仙打架局面,定位“全面實用性”的Hy3 preview究竟具備怎樣的真實戰斗力?我們第一時間對其進行了實測。

      開源地址:https://github.com/Tencent-Hunyuan/Hy3-preview

      一、挑戰復雜SVG與互動HTML,代碼與邏輯能力一手實測

      為了全面驗證其能力,我們從邏輯推理、前端代碼生成以及多模態表現等維度,對Hy3 preview進行了實測。

      首先,我們拋出了兩個經典的“陷阱題”

      提示詞:我要去洗車,洗車的地方離家就100米,我是開車去呢,還是走著去呢?


      提示詞:父親和母親可以結婚嗎?


      實測結果來看,Hy3 preview不負眾望,成功完成了測試并準確繞過了文字陷阱。對于洗車問題,模型還幽默地補充了“代駕取車”的特殊情況。

      在代碼生成維度,我們首先選擇了一個高難度的SVG繪制任務

      提示詞:生成一個Xbox 360控制器的SVG代碼。


      Xbox 360控制器不僅具有復雜的人體工學非對稱曲線,還包含了豐富的搖桿與按鍵布局。這能極具針對性地考驗大模型在沒有視覺反饋的情況下,對二維空間坐標、圖層疊加關系及幾何數學計算的精準控制能力。

      從實測結果來看,Hy3 preview在首次生成時遭遇了失敗,雖然系統很快進行了重新生成,但最終的視覺效果并不理想。搖桿、按鍵等核心組件出現了明顯的坐標錯位

      接下來,我們進一步測試了其生成帶有交互邏輯的復雜HTML代碼的能力。

      提示詞:用一個HTML代碼塊編寫一個3D精靈球,它應該是可交互的,并且在打開時會有隨機的寶可夢從里面出來。


      實測發現,Hy3 preview輸出的精靈球并沒有達到預期的3D視覺效果,整體呈現依然比較粗糙。在交互體驗層面,當觸發召喚寶可夢的動作時,前端圖層渲染邏輯出現了瑕疵,導致精靈球的UI元素直接遮擋了內部彈出的精靈形象。

      最后一個體驗案例是創建一個像素風格的前端頁面

      提示詞:創建一個騎自行車的鵜鶘的3D像素藝術作品。盡可能將場景刻畫得非常細致,注意主體模型上的每一個小細節,同時也要考慮周圍環境的細節。在一個HTML代碼塊中完成制作,將代碼寫得足夠優秀,以展示你的水平超越其他作品。我賦予你完全的創作自由,盡情發揮。


      在這一案例中,Hy3 preview在靜態結構的理解上表現尚可,鵜鶘的身體結構與自行車形態也相對完整。但遺憾的是,代碼生成的畫面中鵜鶘并沒有如預期般呈現出動態騎行效果,且在細節刻畫上缺失了自行車鏈條這一部件。

      總體而言,Hy3 preview在代碼框架構建和基本意圖理解上展現出了不錯的潛力。但在涉及復雜空間坐標系、前端深度交互渲染時,仍需持續進化與打磨。

      除了圖形與交互測試,我們還驗證了Hy3 preview在財務分析上的表現。我將騰訊2023、2024、2025年的財報輸入模型,讓它生成財報分析報告

      模型能夠準確提取核心財務數據,并呈現三年的同比變化趨勢。同時,按年報披露的業務分部,生成收入結構對比圖和業務板塊占比變化圖,整體分析報告清晰可讀,數據整合能力令人印象深刻


      總體而言,Hy3 preview在代碼框架構建、基本意圖理解及數據分析上展現出了不錯的潛力。但在涉及復雜空間坐標系、前端深度交互渲染時,仍需持續進化與打磨。

      二、多項核心基準躋身第一梯隊,Agent能力逼近主流旗艦模型

      從測評表現來看,Hy3 preview在多個關鍵能力維度上進入第一梯隊。

      長上下文與指令遵循為例,在自建的CL-bench與CL-bench Life評測中,其得分分別達到22.8和15.7,明顯高于GLM-5、Kimi-K2.5等同類模型,但與GPT-5.4級別模型相比仍存在差距,整體處于開源陣營前列位置。


      復雜推理能力上,Hy3 preview在FrontierScience-Olympiad中取得70.0分,高于GLM-5和Kimi-K2.5,接近Gemini 3.1 Pro與GPT-5.4。

      在IMO Answer Bench上達到84.3分,超過Kimi-K2.5和GLM-5,但仍低于Gemini 3.1 Pro與GPT-5.4。

      在清華求真書院數學博士資格考試中,其得分為88.4,顯著高于Kimi-K2.5和GLM-5,但與頂級閉源模型仍有差距;在CHSBO 2025生物競賽中,其87.8的表現同樣領先多數開源模型,接近GPT-5.4的水平。


      代碼與Agent能力是其提升最明顯的方向

      后端工程任務集Hy-Backend上,Hy3 preview得分達到54.7,超過GLM-5和Kimi-K2.5;在更貼近用戶交互的Hy-Vibe評測中,其表現同樣領先Kimi-K2.5;在高難度軟件工程任務Hy-SWE Max上,Hy3 preview達到30,明顯高于Kimi-K2.5、接近GLM-5,但與Claude Opus-4.6仍存在差距。


      這類內部評測更強調“真實開發環境中的完成能力”,相比標準化榜單,更能反映模型在復雜工程任務中的實際可用性。

      在SWE-Bench Verified上,Hy3 preview達到74.4%,已經逼近GLM-5和Kimi-K2.5,但與Claude Opus-4.6仍有差距;在Terminal-Bench 2.0上,其54.4%的成績超過GLM-4.7等模型,進入第一梯隊。

      搜索與信息整合能力上,Hy3 preview在BrowseComp上達到67.1%,接近GLM-5與Kimi-K2.5;在WideSearch上取得70.2%,超過GLM-5,但仍低于Claude Opus-4.6。


      這類能力直接決定模型在開放環境中的“找信息+做判斷”能力,是Agent落地的關鍵基礎。

      進一步看整體Agent能力,在涵蓋16項基準的綜合評測中,Hy3 preview以約56分的綜合得分,顯著高于Hy2(約35分),并與GLM-4.7、DeepSeek-V3.2等模型拉開差距,接近GLM-5與Kimi-K2.5所在區間。


      更細分的Agent專項評測中,Hy3 preview也呈現出類似趨勢。在WildClawBench(text-only)中,其得分為45.3,高于Kimi-K2.5、接近GLM-5;在ClawEval評測中達到55.0,超過Kimi-K2.5、接近GLM-5,但與Claude Opus-4.6同樣存在差距。


      這類評測更關注模型在多步調用、工具協同與任務拆解中的穩定性,直接對應Agent在真實環境中的執行能力。

      在參數規模僅295B的前提下,這一表現也能看出其追求“性價比最優”,成為當前少數在成本與能力之間取得平衡的模型之一。

      三、推理效率提升40%,輸入1.2元/百萬tokens起,256K長上下文成本壓低

      在能力之外,Hy3 preview此次更直接的變化體現在推理效率與成本結構上。

      得益于模型架構與推理框架的深度協同,以及算子優化與量化策略的整體調整,其整體推理效率提升約40%,將單位調用成本進一步壓縮。

      從實際定價來看,在0-16K上下文范圍內,Hy3 preview輸入價格最低為1.2元/百萬tokens,命中緩存后可降至0.4元,輸出價格為4元。

      在更長上下文(最高256K)場景下,Hy3 preview輸入價格逐步提升至2元/百萬tokens,輸出價格為8元。


      這意味著,在長文本、復雜Agent任務中,其成本仍處于可控范圍。

      除了按量計費,騰訊云還推出了面向開發者的Token套餐方案,將成本進一步前置與打包。以個人版為例,Lite套餐月費28元,對應約3500萬tokens額度,折合單價約0.8元/百萬tokens;Standard、Pro、Max套餐則分別提供100M、320M、650M tokens,對應單價逐步下降至0.72元/百萬tokens


      這一梯度設計,對更高頻、更長鏈路的調用場景更加友好,適用于需要持續運行的Agent應用。

      結語:混元重建后的第一步,把重心放回真實場景

      從某種意義上看,Hy3 preview是騰訊混元在團隊、架構與基礎設施全面重建之后的一個起點版本。它沒有繼續沿著“更大參數”的路徑走下去,而是選擇以295B的規模,注重打磨推理、代碼、Agent等能力。

      這一方向也對應姚順雨提出的“AI下半場”判斷——模型的價值,不在榜單,而在復雜場景中的可用性。從目前的落地情況來看,無論是元寶、WorkBuddy,還是QQ助手與AI客服,這一版本已經開始在騰訊內部多條業務線上持續“跑起來”,并通過實際反饋反向推動模型迭代。

      放在更大的時間線上看,Hy3 preview或許是騰訊在這一輪大模型競爭中重新找到節奏的信號。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美國11名頂尖科學家連續離奇失蹤或死亡,特朗普:相當嚴重

      美國11名頂尖科學家連續離奇失蹤或死亡,特朗普:相當嚴重

      新民周刊
      2026-04-23 18:56:16
      “19歲女生受邀去泰國潑水節被轉賣電詐園”最新消息:園區初步同意放人,可遲遲不給具體位置,雙方仍在協商接人事宜

      “19歲女生受邀去泰國潑水節被轉賣電詐園”最新消息:園區初步同意放人,可遲遲不給具體位置,雙方仍在協商接人事宜

      三湘都市報
      2026-04-23 17:18:29
      中央定調!4月起公務員退休徹底取消彈性延遲,體制內真繃不住了

      中央定調!4月起公務員退休徹底取消彈性延遲,體制內真繃不住了

      愛下廚的阿椅
      2026-04-22 17:30:09
      震驚!廣州一互聯網公司招5名文員,收到4000余份簡歷,HR慌了…

      震驚!廣州一互聯網公司招5名文員,收到4000余份簡歷,HR慌了…

      火山詩話
      2026-04-23 16:46:58
      用扣子捏了個“財經翻譯官”,最簡單的財報打開方式

      用扣子捏了個“財經翻譯官”,最簡單的財報打開方式

      一點財經
      2026-04-18 13:56:22
      全球最毒的10大垃圾食物榜單,泡面沒上榜,“真兇”很多人每天吃

      全球最毒的10大垃圾食物榜單,泡面沒上榜,“真兇”很多人每天吃

      小談食刻美食
      2026-04-23 07:54:50
      76歲的萬科創始人王石,最近徹底成了全網焦點。

      76歲的萬科創始人王石,最近徹底成了全網焦點。

      夢錄的西方史話
      2026-04-23 14:36:39
      上海警方通報“女子機場兩次拒幫陌生人帶行李”:3人購買大量免稅品欲帶至境外販賣,反復糾纏10余名旅客要求“分擔行李”,已被行拘

      上海警方通報“女子機場兩次拒幫陌生人帶行李”:3人購買大量免稅品欲帶至境外販賣,反復糾纏10余名旅客要求“分擔行李”,已被行拘

      極目新聞
      2026-04-23 14:36:35
      太慘了!燃油車再迎大降價:最大跌幅50%,豪華車帶頭“跳水”

      太慘了!燃油車再迎大降價:最大跌幅50%,豪華車帶頭“跳水”

      混沌錄
      2026-04-23 16:50:14
      廣東美女泰國消失最新!被囚禁13天,細節曝光,難怪20萬也救不出

      廣東美女泰國消失最新!被囚禁13天,細節曝光,難怪20萬也救不出

      閱微札記
      2026-04-23 11:35:46
      單身越久,死亡風險越高?中國科學家:每周2次性生活是安全線

      單身越久,死亡風險越高?中國科學家:每周2次性生活是安全線

      思思夜話
      2026-04-23 11:30:19
      痛心!西華縣公安局民警范志勇因公犧牲

      痛心!西華縣公安局民警范志勇因公犧牲

      大象新聞
      2026-04-23 20:21:11
      澤連斯基:美國,不要忘記烏克蘭

      澤連斯基:美國,不要忘記烏克蘭

      第一財經資訊
      2026-04-23 20:19:36
      最新公布:韓國兩戰機“空中碰撞”,原因竟是飛行員拍照記錄自己“最后一次飛行”

      最新公布:韓國兩戰機“空中碰撞”,原因竟是飛行員拍照記錄自己“最后一次飛行”

      環球時報國際
      2026-04-23 20:42:17
      老兵更新動態,保安被辭退處境堪憂,老兵一番話讓保安無地自容

      老兵更新動態,保安被辭退處境堪憂,老兵一番話讓保安無地自容

      離離言幾許
      2026-04-23 07:41:27
      加拿大歌手取消原定于北京的巡演,主辦方:藝人未買到高鐵票,怕影響接下來的行程

      加拿大歌手取消原定于北京的巡演,主辦方:藝人未買到高鐵票,怕影響接下來的行程

      東方不敗然多多
      2026-04-23 16:50:42
      剛剛,全線跳水!美軍,動手了!

      剛剛,全線跳水!美軍,動手了!

      中國基金報
      2026-04-23 14:34:47
      王維當選蘇州市市長

      王維當選蘇州市市長

      揚子晚報
      2026-04-23 15:36:35
      港媒:江旻憓已完成放棄加拿大護照

      港媒:江旻憓已完成放棄加拿大護照

      澎湃新聞
      2026-04-23 13:06:27
      教育部新規落地!9月上學全變了,家長趁早看

      教育部新規落地!9月上學全變了,家長趁早看

      笑熬漿糊111
      2026-04-23 00:05:18
      2026-04-23 22:04:49
      智東西 incentive-icons
      智東西
      智東西,AI產業新媒體,專注報道人工智能的前沿技術發展,和技術應用帶來的千行百業產業變革。
      11676文章數 117037關注度
      往期回顧 全部

      科技要聞

      馬斯克喊出"史上最大產品",但量產難預測

      頭條要聞

      男子被境外虛擬貨幣黑平臺騙30萬 躺平不上班滿頭白發

      頭條要聞

      男子被境外虛擬貨幣黑平臺騙30萬 躺平不上班滿頭白發

      體育要聞

      萊斯特城降入英甲,一場虧麻了的豪賭

      娛樂要聞

      王大陸因涉黑討債被判 女友也一同獲刑

      財經要聞

      關于AI算力鏈"瓶頸" 這是高盛的最新看法

      汽車要聞

      令人驚艷的奇瑞車 風云A9可不只是樣子貨

      態度原創

      游戲
      數碼
      親子
      藝術
      公開課

      PS輸麻了?幫對手狂賺數億美元 再也不需死守獨占

      數碼要聞

      全球首款SGS卓越可靠性認證!榮耀筆記本X16 Plus評測:大屏輕薄本竟如此抗造

      親子要聞

      我宣布:我再也不怕喝牛奶了!

      藝術要聞

      她辭掉高管,花20年自費100萬:這本書,救了山西“正在消失的壁畫”

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版