今天,阿里發(fā)布并開源了Qwen3,又把各種榜刷爆了。
大家注意到?jīng)]有,Qwen3這一組模型被稱作「混合推理模型」。
![]()
啥是混合推理模型?
混合推理模型的核心思想是:像人類一樣靈活地處理問題,既能「快速反應(yīng)」解決簡(jiǎn)單任務(wù),也能「慢工出細(xì)活」深入分析復(fù)雜問題。
這種設(shè)計(jì)讓推理模型不再“一根筋”,可以根據(jù)任務(wù)需求靈活切換思考模式↓
1. 快思考模式
面對(duì)簡(jiǎn)單問題,AI只需要快速調(diào)用已有知識(shí)庫(kù),給出即時(shí)答案,比如翻譯句子、回答一般常識(shí)。
既縮短用戶等待時(shí)間,又節(jié)省推理開銷。用戶省了tokens,模型運(yùn)營(yíng)方省了算力。

2. 慢思考模式
面對(duì)復(fù)雜問題,AI會(huì)像人類一樣「打草稿」,一步步拆解復(fù)雜問題,比如解數(shù)學(xué)題、寫代碼、制定戰(zhàn)略計(jì)劃、星盤命理解讀等等。
所以你要知道嘍,大模型算命很消耗算力(tokens)哦

混合推理模型把這兩種能力統(tǒng)一到一個(gè)系統(tǒng)里,既不會(huì)讓AI在簡(jiǎn)單問題上「過度糾結(jié)」浪費(fèi)資源,也不會(huì)讓它在難題前「草率下結(jié)論」導(dǎo)致錯(cuò)誤。
舉個(gè)例子,大家打游戲刷怪,傳統(tǒng)“一根筋”推理模型無(wú)論碰見雜兵小怪還是BOSS,都一律放大招,威力大但是很快就沒藍(lán)了。

而混合推理模型就不一樣,懂得看人下菜單。
碰見小怪就平A,碰見BOSS才開大,這樣就能省藍(lán)。

如何實(shí)現(xiàn)雙模式切換?
以目前公開的混合推理模型(如Qwen3、 Claude 3.7)為例,其切換的方式有兩種:
1. 算法識(shí)別:同一模型內(nèi)的智能分配
通過特殊算法設(shè)計(jì),讓模型內(nèi)部自動(dòng)識(shí)別任務(wù)復(fù)雜度。
簡(jiǎn)單問題 → 直接調(diào)用淺層網(wǎng)絡(luò)模塊,快速輸出結(jié)果
復(fù)雜問題 → 激活深層推理思維鏈,逐步拆解問題并驗(yàn)證中間步驟

2. 顯式控制:用戶主動(dòng)選擇思考程度
用戶可通過指令(如“請(qǐng)?jiān)敿?xì)分析”或“快速回答”)手動(dòng)切換模式。
快速模式:類似普通聊天機(jī)器人的即時(shí)響應(yīng)
深思模式:AI會(huì)顯示「思維過程」,例如列出推導(dǎo)公式、代碼調(diào)試步驟
以剛剛上線的Qwen3為例,用戶可以通過頁(yè)面上開關(guān)來切換模式,而且還可以設(shè)置思考預(yù)算,避免過多的Tokens消耗。
(注:DeepSeek官方界面關(guān)閉深度思考時(shí),模型會(huì)切換到v3模型,實(shí)際上是R1和V3兩個(gè)模型輪換服務(wù))

回想阿里QwQ剛上線的時(shí)候,曾被人吐槽思維鏈太長(zhǎng),“過度思考”,這一版,Qwen3就來了一個(gè)大大的改進(jìn)。
這種方式無(wú)需額外訓(xùn)練兩個(gè)獨(dú)立模型,用戶也無(wú)需部署兩個(gè)獨(dú)立模型,節(jié)省開發(fā)成本和部署成本。

混合推理有啥實(shí)用價(jià)值?
1. 算力革命:能省太多錢
傳統(tǒng)“一根筋”深度推理模型需要消耗大量算力,而混合模型能按需分配資源,降低部署門檻。
比如Qwen3僅需4張H20顯卡(96G版本)即可部署完整版(235B-FP8版本)。
![]()
同時(shí),混合推理模型根據(jù)問題難易來選擇思考的模式,并可以動(dòng)態(tài)設(shè)置思考深度。
當(dāng)大模型思考可以量(tokens)預(yù)算而行,不僅提升了AI實(shí)用性,也減少了不必要的算力浪費(fèi)。
![]()
2. 能力躍遷:魚和熊掌可兼得
過去大模型要么擅長(zhǎng)快速響應(yīng)(如Meta Llama系列),要么專精復(fù)雜推理(如OpenAI o1),但難以兼顧。
混合模型首次實(shí)現(xiàn)了兩者融合,一個(gè)模型既會(huì)“平A”輸出也能“放大招”,落地打怪的場(chǎng)景就會(huì)更加豐富。

擴(kuò)展閱讀:
本文所講只是狹義「混合推理模型」,廣義上講,以下也算「混合推理模型」。
1、模型混合:一個(gè)小模型處理常規(guī)問題,一個(gè)大模型處理復(fù)雜問題。
2、硬件混合:用異構(gòu)算力來同時(shí)完成推理,比如CPU+GPU+NPU協(xié)同推理。
3、精度混合:部分推理用FP16,部分用INT8(先混合精度量化,再混合精度推理,這種尤其適合當(dāng)下很多國(guó)產(chǎn)卡不支持FP8的情況)
4、算法混合:加入RAG,先檢索后推理。
不管怎么混,目的都是為了提高速度、降低成本、提升靈活性。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.