<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      騰訊HY- WU要捅模型天花板:讓模型每次任務都生成個新大腦

      0
      分享至


      作者 | 董道力
      郵箱 | dongdaoli@pingwest.com

      你有沒有過這樣的經歷,同樣的模型,別人都在說多么好用,而你用下來不如預期。

      GPT-5 剛出來的時候,benchmark 全面領先,但大批用戶吐槽它沒人味。寫東西僵硬,失戀安慰不如老款 GPT-4o,重度用戶直接說它"距離成為一塊石頭也不遠了"。

      OpenAI 的應對方式就是多訓幾個模型,寫代碼的、通用能力的、適合對話的。

      這背后藏著一個根本問題:一套參數做不好所有事。

      過去三年,AI 行業花了幾千億美元訓練大模型,參數量從幾十億卷到幾千億。但有一件事很少有人停下來想:不管模型多大,微調之后,它處理每一個用戶請求時用的都是同一套固定參數。任務一多、方向一矛盾,這套參數就被迫在互相沖突的需求之間妥協,每件事都在打折扣。

      騰訊混元團隊 3 月 6 日發了一篇技術報告 HY-WU,想挑戰這個限制了今天大模型能力的天花板:當任務足夠多樣甚至互相矛盾時,不存在一套參數能同時把所有事做好。這是個結構性的死胡同,跟訓練充不充分沒關系。

      如果他們的解法被驗證是對的,大模型可能又要出現個新范式。

      1

      一套參數服務不了所有人

      預訓練好的大模型是個通才,什么都懂一點,但在具體任務上不夠精。

      要提升表現,需要在特定任務數據上再訓練一輪,也就是所謂的微調。全量微調要調所有參數,成本很高。2022 年出現的 LoRA 換了個思路,不動原來的參數,在旁邊加一小組新參數,只訓練這一小組。參數量不到原模型的 1%,效果卻接近全量微調,很快成了行業標配。

      但 LoRA 也好,全量微調也好,都沒有改變一個事實:調完之后參數就固定了,所有請求共用同一套。

      如果你有生圖經歷就明白,每次運行都要加載對應的 LoRA。選錯 LoRA 很容易產生不可名狀的圖片。

      混元在報告里舉了個更極端的例子,一個模型可能要同時處理"修復老照片"和"做舊照片",前者讓模糊變清晰,后者讓清晰變模糊。一套固定參數同時學這兩件事,兩邊都湊合。

      報告分析了 60 種編輯任務、12000 個樣本做了梯度分析去驗證這個猜想,結果的確如預期,不同任務對參數的調整方向經常相反,硬塞到一套參數里會互相抵消。

      那給每種任務單獨訓練一套參數?沖突是避免了,但會過度特化,而且任務需求是無窮的,每個都匹配的話,存儲和管理成本撐不住。

      RAG 之類的檢索增強也幫不上忙,它能改變模型"看到了什么",但改變不了模型"怎么處理信息"。當任務核心是變換規則而不是缺失事實時,塞再多上下文也沒用。

      傳統方法把適配理解為"在參數空間里找一個最佳點",但任務多樣且矛盾的時候,這個點不存在。

      1

      現場生成參數

      我們再來看混元的 HY-WU 是怎么做的。

      傳統方案都是"靜態參數記憶",把新知識壓進一個固定點,推理時所有請求共用。HY-WU 換了一種記憶方式,報告叫它功能性記憶,不找空間中固定的參數點,而是訓練一個參數生成器,每次收到具體輸入,實時合成一套專屬參數,用完即棄。模型記住的不是某一組固定權重,而是"什么條件下該生成什么樣的權重"這個映射關系。

      同樣用生圖舉例,當模型接收到你想要老照片修復,就會訓練個高清、提高飽和度的參數,當接收到生成老照片,則訓練個對立的參數。


      具體來看,HY-WU 分了三步,為了方便理解,我們可以把 HY-WU 看作是一個裁縫,為每個需求定制參數。

      第一步,量體。

      一個視覺語言編碼器同時看輸入圖片和文字指令,搞清楚兩件事:這張圖是什么樣的,用戶想對它做什么。這些信息被壓縮成一組條件特征,相當于客人的身材數據和款式偏好。

      第二步,裁衣。

      條件特征送入一個 8B 參數的 Neural Network Transformer。這個 Transformer 跟平時見到的不太一樣,它輸出的不是文字或圖片,而是一整套 LoRA 權重,共 0.72B 參數。

      你可以理解為,它根據身材數據現場算出了一套裁剪方案。收到"修復老照片"的請求,裁出來的是偏向增強細節的參數;收到"做舊照片",裁出來的方向完全相反。整個過程在 80B 的基座模型上只需幾秒。

      第三步,上身。

      生成的 LoRA 插入基座模型,執行編輯。基座模型始終不動,每次推理只是臨時換一套 LoRA,用完就丟。

      HY-WU 還解決了一個工程上的難點。基座模型每層的 LoRA 形狀不同,論文設計了一套基于 LoRA rank 的錨定切塊方案,把不同形狀的矩陣統一裁成相同大小的 token,讓生成器能像處理文字序列一樣逐個生成參數塊。

      架構搞定了,接下來是怎么訓練這個生成器(裁縫)。

      之前的超網絡方法有點像先讓 100 個裁縫各做一件樣衣,收集起來當模板,再訓練一個新裁縫去模仿這些模板。

      HY-WU 跳過了收集模板這步。訓練是端到端的,生成器根據輸入生成一套 LoRA,裝進基座做編輯,看編輯效果好不好,把反饋傳回來調整生成器。不需要預收集 checkpoint,不需要存儲 LoRA 權重庫。幾百萬次迭代之后,生成器從最初的隨機輸出,慢慢摸索出了針對不同輸入該生成什么樣的參數。

      1

      HY-WU 的效果如何

      人工偏好評估里(GBS),HY-WU 對主流開源圖片編輯器的勝率在 67%到 78%。對閉源商業模型也有優勢,對 Seedream 4.5 勝率 55.6%,對 GPT Image 1.5 勝率 55.5%。只是略低于 Nano Banana 系列。


      跑分之外,有一個問題需要回答:HY-WU 的提升到底來自哪里?是因為多了一個 8B 的生成器帶來了更多參數,還是因為"根據輸入定制參數"這個機制本身?

      論文設計了兩個實驗來拆解這個問題。

      第一個實驗,把生成器對大量樣本生成的 LoRA 全部取平均值,得到一套"均碼 LoRA",然后固定用這套均碼來處理所有請求。生成器還在,參數量一個沒少,但每個請求拿到的 LoRA 都一樣了。相當于裁縫還在,但不管誰來都給同一個尺碼。結果:性能立刻掉回基線,跟沒有 HY-WU 差不多。

      第二個實驗,生成器照常工作,但把輸入條件隨機打亂,A 的圖片配上 B 的指令去生成 LoRA。生成器還在動態生成,但生成的參數跟實際輸入對不上了。相當于裁縫還在量體裁衣,但把張三的尺寸用在了李四身上。性能同樣不行。

      通過兩個實驗,驗證了參數多不多不是重點,關鍵是每個輸入能拿到跟自己匹配的那套參數。


      1

      改變模型發展的下一個范式?

      回顧大模型發展史,真正改變行業走向的技術節點并不多。

      2017 年的 Transformer 架構奠定了基礎。2022 年的 LoRA 解決了微調成本問題,讓適配大模型不再是大廠專利。MoE 打破了"參數越多推理越慢"的限制,通過路由機制讓模型在保持大參數量的同時只激活一部分。思維鏈讓模型學會了"分步推理",o1 和 R1 系列靠它在數學和編程上取得了突破性進展。

      這些技術有一個共同點:它們各自解決了模型"怎么建"或"怎么想"的問題。但有一個問題始終沒人動過,模型建好之后,面對不同用戶、不同任務,怎么用同一套參數給出差異化的最優響應?

      行業的默認答案是,訓更多模型。大廠的模型名字一只手數不過來,開源社區里 LoRA 權重庫堆了幾萬套。

      HY-WU 切入的正是這個空白。MoE 在模型內部做路由,HY-WU 在模型外部做路由。

      當然,現在說 HY-WU 能達到 MoE 或思維鏈那樣的行業影響力還為時過早。它目前只在圖片編輯上驗證過。而接下來他們也提出了多個未來的探索方向,包括對記憶的“新舊”的處理,對容量分配的處理,能不能有更通用的接口,從圖片到視頻和 Agent的更廣泛的應用等。

      模型的進化不只是"更大"或"更會想",還應該包括"更懂得因人而異"。如果后續能在語言模型、視頻生成、Agent 等場景復現類似的效果,它有可能成為繼 MoE 之后,下一個范式轉換。



      點個愛心,再走 吧

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      “最美新生兒”火了,仿佛娘胎里整容和開智,網友:看來滿意家庭

      “最美新生兒”火了,仿佛娘胎里整容和開智,網友:看來滿意家庭

      菁媽育兒
      2026-04-06 16:57:08
      巴基斯坦會場準備完畢,伊方沒現身!美方出發前警告,別耍花招

      巴基斯坦會場準備完畢,伊方沒現身!美方出發前警告,別耍花招

      謝綸郵輪攝影
      2026-04-11 08:22:36
      上港幸好本賽季沒留下他!加盟中超保級隊至今零進球,引發熱議

      上港幸好本賽季沒留下他!加盟中超保級隊至今零進球,引發熱議

      二爺臺球解說
      2026-04-10 09:57:26
      印尼首富花48億買下游球隊,2年殺進歐冠區

      印尼首富花48億買下游球隊,2年殺進歐冠區

      籃壇第一線
      2026-04-10 20:52:13
      財富榜出爐馬斯克5萬億元!NBA快船老板最有錢 和老馬比只算窮人

      財富榜出爐馬斯克5萬億元!NBA快船老板最有錢 和老馬比只算窮人

      體壇八點半的那些事兒
      2026-04-10 16:32:27
      公安部新規落地!70歲駕照免年審真相,這件事不做駕照直接注銷

      公安部新規落地!70歲駕照免年審真相,這件事不做駕照直接注銷

      復轉這些年
      2026-04-10 12:01:32
      遼陽奔馳陪葬后續:多部門介入,豪車當天被挖出!當事人背景流出

      遼陽奔馳陪葬后續:多部門介入,豪車當天被挖出!當事人背景流出

      火山詩話
      2026-04-11 08:39:41
      紅土之王法網封神,卻在邁阿密五進決賽五度飲恨

      紅土之王法網封神,卻在邁阿密五進決賽五度飲恨

      網球之家
      2026-04-10 23:06:00
      一場雙加時血戰讓前8再次洗牌!遼寧被釘死在第9,山東不幸遭波及

      一場雙加時血戰讓前8再次洗牌!遼寧被釘死在第9,山東不幸遭波及

      后仰大風車
      2026-04-11 06:10:10
      中央為江渭清6次安排工作無果,毛主席親自發話:就讓他去江西吧

      中央為江渭清6次安排工作無果,毛主席親自發話:就讓他去江西吧

      歷史龍元閣
      2026-04-10 08:40:18
      89億地王,開盤14個月只賣17%!海淀永豐最慘神盤,一手王炸打稀碎

      89億地王,開盤14個月只賣17%!海淀永豐最慘神盤,一手王炸打稀碎

      樂居財經官方
      2026-04-10 16:55:53
      遠離蠢人,你就減少了90%的內耗

      遠離蠢人,你就減少了90%的內耗

      洞見
      2026-04-04 13:06:05
      卡里烏斯妻子萊奧塔曬孕期網球寫真,盡顯優雅從容姿態

      卡里烏斯妻子萊奧塔曬孕期網球寫真,盡顯優雅從容姿態

      懂球帝
      2026-04-09 19:49:09
      “觴觥觚斛”這四個字怎么讀?能讀出來說明文化程度相當不低!

      “觴觥觚斛”這四個字怎么讀?能讀出來說明文化程度相當不低!

      未央看點
      2026-04-10 00:08:51
      碎三觀!杭州一院長關燈猥褻女經理被舉報,妻子稱是“國外習慣”

      碎三觀!杭州一院長關燈猥褻女經理被舉報,妻子稱是“國外習慣”

      火山詩話
      2026-04-10 11:45:42
      親美派未料,鄭麗文破釜沉舟扭轉國民黨20年頹勢

      親美派未料,鄭麗文破釜沉舟扭轉國民黨20年頹勢

      色彩斑斕的世界
      2026-04-11 06:37:06
      33分打爆外援!張鎮麟曾凡博拉胯,21歲王浩然才是男籃鋒線答案?

      33分打爆外援!張鎮麟曾凡博拉胯,21歲王浩然才是男籃鋒線答案?

      劉哥談體育
      2026-04-11 08:38:22
      巴外長稱以色列為“邪惡國家”,內塔尼亞胡:駭人聽聞,不能容忍

      巴外長稱以色列為“邪惡國家”,內塔尼亞胡:駭人聽聞,不能容忍

      風信子的花
      2026-04-11 08:51:48
      我在朝鮮買了瓶啤酒,掏出手機那一刻,服務員看我的眼神都變了!

      我在朝鮮買了瓶啤酒,掏出手機那一刻,服務員看我的眼神都變了!

      天下霸奇
      2026-04-10 09:06:32
      1963年,一位“瘋子”工程師深山造出的12根鐵管,拖垮一個帝國

      1963年,一位“瘋子”工程師深山造出的12根鐵管,拖垮一個帝國

      顧史
      2026-03-29 19:28:05
      2026-04-11 09:52:49
      硅星人 incentive-icons
      硅星人
      硅(Si)是創造未來的基礎,歡迎來到這個星球。
      2997文章數 10481關注度
      往期回顧 全部

      科技要聞

      三星中國被曝大調整:黑白電、顯示器淡出市場

      頭條要聞

      牛彈琴:伊朗很悲壯 向美國提高了"要價"

      頭條要聞

      牛彈琴:伊朗很悲壯 向美國提高了"要價"

      體育要聞

      17歲賺了一百萬美元,25歲被CBA裁員

      娛樂要聞

      黃景瑜王玉雯否認戀情!聚會細節被扒

      財經要聞

      從日本翻身看:這次誰能扛住高油價?

      汽車要聞

      煥新極氪007/007GT上市 限時19.39萬起

      態度原創

      教育
      房產
      健康
      時尚
      公開課

      教育要聞

      “窮到吃豆豉,還生呢?”農村家長曬5兒3女,大兒子眼神好可怕

      房產要聞

      28條新規落地!好房子,終于有了“廣州標準”!

      干細胞抗衰4大誤區,90%的人都中招

      推廣中獎名單-更新至2026年3月31日推廣

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版