<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      實測混元Hy3 preview:混元再出發,中型模型的務實之戰

      0
      分享至

      編者按:本文為 Hy3 preview 評測,評測環境為WorkBuddy,評測內容基于真實任務執行結果。本次共測試三個場景:事實審計員、文檔可視化、深度研究。

      Hy3 preview終于來了。

      剛剛,騰訊混元宣布發布 Hy3 preview ,Hy3 preview 發布前的幾個小時,混元還悄悄換了一個新Logo。對于一個強調“重新出發”的團隊來說,這個細節也不算意外。


      “幫我查一下最近三個月AI領域的高管變動,對比5個不同背景的信源,列出已知事實和矛盾點,給出信度評分。”

      根據騰訊內部對Hy3 preview 的功能定位——多步驟、多信源、需自主規劃,筆者自設了這樣一句測試指令。模型在約7分鐘內完成了多輪搜索、信息交叉驗證和結構化輸出。

      這只是其中一個典型場景。筆者本次共測試了三個場景,分別是多信源核驗、文檔可視化、深度研究三個維度,從不同切面評估這款產品在知識工作場景中的實用性和邊界。

      背景與產品解析

      2025年以來,中國大模型廠商的敘事出現了一次集體轉向。頭部廠商相繼從“對標GPT-4”“刷新基準測試榜單”的軍備競賽,轉向“在真實業務場景中跑通”“降低單位任務成本”的務實路徑。

      騰訊混元團隊在這一背景下,選擇了一個明確的產品定位:不追參數第一,聚焦實用性和性價比

      混元團隊近期多次提及“下半場”概念,首席AI科學家姚順雨曾表示:“AI發展的上半場,核心是訓練大于評估;下半場,評估大于訓練。”姚順雨認為,上半場的競爭在于誰能把模型訓練得更大、更強,成為頂級的“做題家”;而下半場的競爭在于誰能讓模型在真實業務場景、真實系統中經得起檢驗,成為真正的“上下文學習者”——即使用戶給足了信息,模型依然需要具備從中學習并應用的能力。

      在Hy3 preview發布時,姚順雨進一步表示:“Hy3 preview是混元大模型重建的第一步。我們希望通過這次開源和發布,獲得來自開源社區和用戶的真實反饋,幫助我們提升Hy3正式版的實用性。”

      這一理念直接指向了當前大模型落地的核心痛點:不是模型不夠強,而是強在“記憶”、弱在“應用”。

      本次騰訊發布的 Hy3 preview,正是混元團隊在這一理念下推出的第一個版本——騰訊混元在團隊、架構、基礎設施重新整合后的產物

      根據官方披露,2026年2月,騰訊混元重建了預訓練和強化學習的基礎設施,并確立了模型追求實用性的三個原則:其一,能力體系化,不推崇"偏科",即使是代碼智能體的單一應用,也涉及推理、長文、指令、對話、代碼、工具等多種能力的深度協同;其二,評測真實性,主動跳出易被"刷榜"的公開榜單,通過自建題目、最新考試、人工評測、產品眾測等多種方式評估模型的"真實戰斗力";其三,性價比追求,深度協同模型架構和推理框架的設計,大幅降低任務成本,讓智能"用得起、用得好"。

      根據官方披露的信息,Hy3 preview 的核心參數如下:


      295B總參/21B激活參數的組合,意味著 Hy3 preview 處于“中型模型”區間。相比千億參數以上的超大模型,這一尺寸在部署成本和推理效率上具備明顯優勢。

      MoE(Mixture of Experts)的核心邏輯是“按需激活”——每次推理只調用部分專家網絡。這一設計可以實現“參數量大但推理成本可控”的效果,符合“實用性”和“性價比”的定位。

      Hy3 preview 聲稱實現了快慢思考的融合,即在簡單任務上快速響應,在復雜任務上啟動深度推理。256K(約25萬Token)的上下文窗口,在同尺寸模型中處于較高水平。官方將其定位為"混元迄今最智能的模型",Hy3 preview 于4月23日正式發布并同步開源,在復雜推理、指令遵循、上下文學習、代碼、智能體等能力及推理性能上實現了大幅提升。

      實測驗證

      本次評測選取三個典型場景,事實審計員、文檔可視化和深度研究。

      事實審計員

      任務類型:多信源交叉核驗

      測試指令

      調研關于“最近三個月AI領域高管變動”的傳聞,對比至少5個不同背景的權威信源,列出已知事實和邏輯沖突點,并給出信度評分。

      執行結果

      執行耗時:約7分鐘 信源覆蓋:CNBC(權威財經)、WIRED(科技深度)、The Verge(科技媒體)、鈦媒體等(中文科技財經)、Mint(國際科技)

      評測維度評分


      實測發現的主要事件

      1. OpenAI高管離職潮(高信度):Kevin Weil、Bill Peebles、Srinivas Narayanan三人于4月中旬同日離職,Sora關停,Prism項目終止并入Codex

      2. xAI創始人集體離職(中等信度):2026年2-3月,11位聯合創始人全部離職

      3. 理想汽車高管變動(中等信度):郎咸朋于2026年2月14日離職

      4. 蘋果CEO更替(待驗證):約翰·特納斯接替庫克,英文主流媒體未廣泛報道,信源可靠性存疑

      結論:模型在多信源檢索和結構化輸出方面表現穩定,但在信息交叉驗證時存在“收得多、核得少”的傾向——對可疑信息(如"蘋果CEO更替"缺乏英文信源佐證)未能主動標注風險。但同時也未能識別蘋果CEO更替這一信息實際上可信度較高,該信息蘋果官網已經進行了官宣。這一能力短板在嚴肅的事實核查場景中需要關注。

      文檔可視化

      任務類型:財報PDF轉動態儀表盤

      測試指令

      將附件的騰訊2025年年度財務報告PDF轉化為一個深色主題HTML動態儀表盤,具體要求如下:

      核心約束: 嚴格基于年報原文數據,禁止引入任何外部信息 如年報中未提及某項數據,明確標注"年報未披露"而非虛構 所有數字以年報為準,不進行二次計算 數據分析要求: 提取近三年核心財務數據(營收/凈利潤/毛利率),做三年對比 分析主要業務板塊的收入結構(按業務線拆分) 標注關鍵財務指標的變化趨勢(增長/下降/持平) 視覺要求: 深色主題,專業金融風格(參考彭博終端配色) 數字入場動畫:關鍵數據從0滾動增長至實際值(數字脈動效果) 交互效果:鼠標懸停關鍵指標時顯示詳細數據(決策艙掃描效果) 包含數據來源標注:每項數據標注對應年報頁碼 輸出要求: 單HTML文件,內嵌CSS和JavaScript 響應式設計,適配PC端展示 代碼結構清晰,便于后續修改

      執行結果

      執行耗時:約20分鐘 輸出成果:騰訊2025年年報HTML動態儀表盤 成果截圖(部分):

      評測維度評分


      結論:AI輔助財經內容生產正從“文本生成”向“數據可視化自動化”進階。該工具在數據處理、視覺呈現、交互設計三個層面的完成度已達到可發布至財經媒體報道的合格線。推薦指數4.5/5.0。

      可優化方向

      三年對比數據可視化不足,缺乏長期趨勢折線圖; 業務分部占比缺乏餅圖或堆疊柱狀圖; 移動端適配有待完善。
      深度研究

      任務類型:產業研究報告生成

      測試指令

      以“AI訓練成本下降趨勢及其對產業格局的影響”為主題,進行深度研究分析,輸出結構化報告,要求覆蓋成本驅動因素、數據支撐、產業格局影響,投資機會與風險、未來趨勢判斷,區分事實陳述和觀點分析,對關鍵數據注明來源。

      執行結果

      執行耗時:約5分鐘 信源覆蓋:共引用6個一手信源,包括Stanford HAI 2025報告、Epoch AI研究論文(arXiv:2405.21015)、央視新聞報道、中國信通院報告等 報告規模:約4500字,包含3張數據表格、6個主要章節、20+個細分論點 報告地址:Tencent Cloud CodeBuddy

      評測維度評分


      結論:模型在深度研究的框架搭建、信源檢索與標注、結構化輸出上表現優秀,能夠生成符合專業標準的研究報告。但在產業洞察的深度(如對中國AI芯片廠商的具體分析)、風險提示的全面性上仍有提升空間。

      適用場景建議

      ? 快速搭建研究報告框架 ? 檢索和整理公開信源 ? 生成結構化分析報告 ?? 需謹慎:具體投資標的推薦、未公開數據的推測、前瞻性判斷(需人工復核)
      產品組合拳:模型+Agent框架

      根據騰訊內部測試的公開反饋,Hy3 preview 在以下四個緯度獲得了相對積極的評價:


      在國內大模型競爭格局中,混元本次的定位可以概括為:“不做第一,但求好用”。從參數規模看,295B總參/21B激活參數定位于中等尺寸區間,與“大杯”產品存在差異,但規模控制帶來了更好的推理效率。

      從場景定位看,Coding和Agent場景是明確的主打方向。這一選擇與Agent經濟的崛起趨勢相吻合——當模型的價值越來越多地體現在“作為Agent的大腦”而非“直接回答用戶問題”時,響應速度、任務完成率、多步驟穩定性,比單純的基準測試分數更重要。

      從生態角度看,混元與WorkBuddy的結合構成了“模型+Agent框架”的組合,模型能力可以在真實業務場景中持續錘煉,場景反饋可以持續反哺模型優化。

      官方數據顯示,在CodeBuddy與WorkBuddy產品上,Hy3 preview首token延遲降低54%、端到端時長降低47%、成功率提升至99.99%+。實際用戶環境中,已穩定驅動最長495步的復雜Agent工作流,覆蓋文檔處理、數據分析、知識檢索、MCP工具鏈編排等多樣化辦公場景。整體推理效率提升40%,成本相比上一代模型大幅下降。

      在商業化定價上,騰訊云TokenHub平臺顯示,Hy3 preview輸入價格最低1.2元/百萬tokens,輸出價格最低4元/百萬tokens,并推出個人版最低28元/月的Token Plan套餐——這為評測稿此前提及的"性價比優勢"提供了可量化的基準參照。

      目前,Hy3 preview已在騰訊云、元寶、ima、CodeBuddy、WorkBuddy、QQ、QQ瀏覽器、騰訊文檔、騰訊樂享等產品首發上線,微信公眾號、和平精英、騰訊新聞等多個主線產品也在陸續接入。

      Hy3 preview 的發布,更像是一個信號,而非一個結論。它標志著騰訊混元在經歷團隊重組、架構重構后,選擇了一條更務實的路徑——不再追逐榜單上的“第一”,而是追求實際場景中的“好用”。

      在本文測試未涉及到的性價比中,官方公布的內部測試可作為參考:騰訊內部測試顯示,騰訊文檔AI PPT生成成功率提升20%、耗時縮短20%;和平精英AI NPC角色扮演穩定性獲得業務團隊高度評價;QQ AI助手數學推理表現提升尤為明顯;元寶深度Co-Design后用戶意圖理解與內容質量全面提升。

      上述數據為混元“性價比優勢”提供了一定的內部佐證,但跨廠商的橫向對比仍需在后續評測中進一步驗證。

      結語

      從更宏觀的視角看,Hy3 preview 的出現,是整個大模型行業轉向的一個縮影。

      過去兩年,國內外的大模型競爭本質上是一場基礎設施競賽——誰能訓得更大、算得更快、數據更多,誰就站在了排行榜的前列。但這場競賽正在迎來邊際效益遞減的節點:當GPT-4級別的能力已經"白菜化",當推理成本以每年數倍的速度下降,純粹的參數軍備競賽開始失去意義

      下一個競爭維度,正在轉向任務完成率、工具調用穩定性、長程推理的可靠性——換句話說,是“能不能真正干活”,而不是“能不能在考卷上拿高分”。這恰好是 Hy3 preview 所押注的方向。

      對于騰訊混元來說,這次重新出發面臨的挑戰不只是技術層面的。在競爭對手已積累大量真實用戶反饋的背景下,如何快速積累高質量的任務數據、如何在騰訊龐大的業務生態中找到“模型錘煉”的最佳路徑,將直接決定混元能否在下半場建立真正的差異化。

      WorkBuddy 作為面向知識工作者的 Agent 框架,理論上是一個理想的“練兵場”——用戶的真實任務場景足夠復雜、反饋足夠直接。但換個角度來看,“模型在框架中不斷進化”這一愿景的實現,還取決于數據閉環的質量、人工反饋的密度,以及騰訊是否愿意在這條路上保持足夠的耐心。

      Hy3 preview 是第一步,能否兌現“務實主義”的承諾,要看后續正式版本的真實表現——以及它在更大規模用戶場景中經受檢驗之后的樣子。(本文首發鈦媒體APP,作者 | AGI Signal,編輯 | 秦聰慧)

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      老兵借廁所被拒后續!官方公布處理結果,保安被開除,老兵回應

      老兵借廁所被拒后續!官方公布處理結果,保安被開除,老兵回應

      180視角
      2026-04-22 01:03:20
      報復來了?美媒:特朗普已制定名單,準備懲罰“不聽話”北約盟友?

      報復來了?美媒:特朗普已制定名單,準備懲罰“不聽話”北約盟友?

      王爺說圖表
      2026-04-23 19:17:42
      《蜜語紀》直到許蜜語被誣停職,紀封才知,背刺他最深的人是薛睿

      《蜜語紀》直到許蜜語被誣停職,紀封才知,背刺他最深的人是薛睿

      娛樂傾城巷
      2026-04-23 19:17:46
      霍汶希力挺張敬軒僅6天后續:英皇全藝人遭集體抵制 態度一邊倒

      霍汶希力挺張敬軒僅6天后續:英皇全藝人遭集體抵制 態度一邊倒

      觀察鑒娛
      2026-04-23 12:01:07
      軟件開發最后的一塊兒陣地,被AI攻克了......

      軟件開發最后的一塊兒陣地,被AI攻克了......

      碼農翻身
      2026-04-23 08:59:23
      廣東一地廣播電視臺即將停播3個頻道頻率

      廣東一地廣播電視臺即將停播3個頻道頻率

      知肇分子
      2026-04-23 19:08:01
      美出動三艘航母逼迫和談,伊朗全面備戰毫不退讓,霸權正在崩塌?

      美出動三艘航母逼迫和談,伊朗全面備戰毫不退讓,霸權正在崩塌?

      聞識
      2026-04-23 21:15:34
      注意!5月1日起全面嚴查,這8種行為直接入刑,普通人千萬別大意

      注意!5月1日起全面嚴查,這8種行為直接入刑,普通人千萬別大意

      芳姐侃社會
      2026-04-23 17:24:10
      周瑾自曝接手《新老娘舅》內幕:曾極力排斥,錄一期累到崩潰

      周瑾自曝接手《新老娘舅》內幕:曾極力排斥,錄一期累到崩潰

      奔跑的小帥帥
      2026-04-23 08:14:33
      美富翁提出中美開戰建議:絕不能殺對方的兵,更不在雙方本土打!

      美富翁提出中美開戰建議:絕不能殺對方的兵,更不在雙方本土打!

      觸摸史跡
      2026-04-23 20:31:50
      打發叫花子!帶領開拓者打進季后賽,結果只給100萬薪資,被拒絕

      打發叫花子!帶領開拓者打進季后賽,結果只給100萬薪資,被拒絕

      你的籃球頻道
      2026-04-23 11:12:55
      日本人每天要吃的“長壽菜”,我國產量大,吃的人卻少,錯過可惜

      日本人每天要吃的“長壽菜”,我國產量大,吃的人卻少,錯過可惜

      觀星賞月
      2026-04-23 11:00:18
      如果一個家庭長期沒酒局、沒社交,也少走親戚,只能說明一個問題

      如果一個家庭長期沒酒局、沒社交,也少走親戚,只能說明一個問題

      大熊歡樂坊
      2026-04-19 12:07:22
      10-2 10-2 10-6!世錦賽14強出爐,4冠王穩如泰山,中國小將遇逆風

      10-2 10-2 10-6!世錦賽14強出爐,4冠王穩如泰山,中國小將遇逆風

      林子說事
      2026-04-23 06:11:17
      安徽新任一名市委常委!兩市6名干部擬任新職

      安徽新任一名市委常委!兩市6名干部擬任新職

      鳳凰網安徽
      2026-04-23 17:46:19
      燃氣公司上門安檢,根本不是查漏氣!真正目的其實是這3個

      燃氣公司上門安檢,根本不是查漏氣!真正目的其實是這3個

      匹夫來搞笑
      2026-04-20 13:24:51
      遼寧莊河回應“8歲男童爬山發現金礦線索”:當地已圈定200多處礦化點,事發地也有成金礦可能

      遼寧莊河回應“8歲男童爬山發現金礦線索”:當地已圈定200多處礦化點,事發地也有成金礦可能

      極目新聞
      2026-04-23 10:00:21
      榜首易主!曼城反超阿森納登頂,同分同凈勝球進球多3球

      榜首易主!曼城反超阿森納登頂,同分同凈勝球進球多3球

      懂球帝
      2026-04-23 05:03:54
      整個東南亞最美的女人,不接受反駁

      整個東南亞最美的女人,不接受反駁

      東方不敗然多多
      2026-04-23 16:10:37
      美媒:中國簡直“逆天”!竟想用電磁力,把月球上的氦-3運回地球

      美媒:中國簡直“逆天”!竟想用電磁力,把月球上的氦-3運回地球

      阿庫財經
      2026-04-23 07:05:04
      2026-04-23 22:28:49
      鈦媒體APP incentive-icons
      鈦媒體APP
      獨立財經科技媒體
      132680文章數 862115關注度
      往期回顧 全部

      科技要聞

      馬斯克喊出"史上最大產品",但量產難預測

      頭條要聞

      男子被境外虛擬貨幣黑平臺騙30萬 躺平不上班滿頭白發

      頭條要聞

      男子被境外虛擬貨幣黑平臺騙30萬 躺平不上班滿頭白發

      體育要聞

      萊斯特城降入英甲,一場虧麻了的豪賭

      娛樂要聞

      王大陸因涉黑討債被判 女友也一同獲刑

      財經要聞

      關于AI算力鏈"瓶頸" 這是高盛的最新看法

      汽車要聞

      令人驚艷的奇瑞車 風云A9可不只是樣子貨

      態度原創

      時尚
      健康
      教育
      公開課
      軍事航空

      無用之書|AI時代,閱讀是否還有意義?

      干細胞如何讓燒燙傷皮膚"再生"?

      教育要聞

      春風拾書香!看首都校園里的悅讀畫卷

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      人民海軍成立77周年 主力艦艇亮相上海

      無障礙瀏覽 進入關懷版