<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      千問 3.5,用第一性原理打破大模型的不可能三角

      千問3.5如何打破大模型不可能三角

      0
      分享至

        

        性能、開源、性價比,千問 3.5 全都要。

        
      作者|Cynthia

        編輯|鄭玄

        大模型行業走到 2026 年,所有人都陷入了集體焦慮。

        Scaling Law 的紅利徹底見頂,萬億參數模型繼續向上的邊際收益無限趨近于零,行業陷入了參數越卷越高,落地越來越難的死循環;

        閉源巨頭牢牢把持著性能天花板,GPT、Claude 的 API 定價一漲再漲,頂級模型的使用成本,成了中小企業和開發者邁不過去的門檻。

        開源模型始終跳不出性能追平閉源,就閉源收割;想要極致性價比,就要犧牲性能的怪圈。

        久而久之,行業形成了一條無人敢質疑的鐵律:頂級性能、完全開源、極致性價比,構成了大模型的不可能三角,三者最多選其二

        于是,一到年底,國內外的萬億參數模型就一個接一個發布,但普通企業是否用得上所謂的 SOTA 模型,卻不在考慮范圍。半年多時間,GPT、Claude 的定價也一漲再漲,哪怕作為頂級牛馬的程序員,也需要公司報銷,才用得起頂配 200 美金一月的 cursor 與 claude code。

        

        直到,除夕當天阿里千問 Qwen3.5 的發布。

        千問 3.5 總參數量僅 3970 億,激活參數更是只有 170 億,不到上一代萬億參數模型 Qwen3-Max 的四分之一,性能大幅提升、還順帶實現了原生多模態能力的代際躍遷。

        而橫向對比同行,千問 3.5 不僅是當下的開源大模型 SOTA,同時也在認知能力、指令遵循、通用 Agent 評測等方面超越了 GPT5.2、Claude 4.5、Gemini-3-Pro 等同期閉源模型。

        

        但成本上,千問 3.5 也做到了每百萬 Token 輸入低至 0.8 元,是 GPT5.2 的 1/15、Gemini-3-pro 的 1/18。

        那么,千問究竟如何做到的?答案藏在大模型的第一性原理中。

        01

        回到第一性原理,

        千問 3.5 如何打破不可能三角?

        大模型的第一性原理是什么?

        過去三年,答案或許是 Scaling Law。包括上一代 Qwen3-Max,也是阿里是用 36T tokens 的海量預訓練數據訓練出的暴力美學的成果。

        但時至今日,Scaling Law 攀升的代價,已經到了行業難以承受的臨界點。緊隨其后,架構創新成為新的行業關鍵詞。

        剝掉所有參數、算力、跑分的外衣,所有大模型的底層核心,都是 Transformer 架構的attention 注意力 + FFN 前饋網絡雙塔結構:前者決定了模型的理解能力,后者決定了模型的表達能力。而這兩者,也是當前技術紅利最集中的突破點。

        先看決定理解能力的 attention 層。

        一直以來,大模型長上下文落地的最大瓶頸,從來不是窗口能開多大,而是算力成本和性能的平衡。

        傳統 Transformer 的全局注意力機制,計算復雜度與上下文長度呈O (N2) 關系。翻譯過來就是,上下文長度翻 10 倍,算力需求就要翻 100 倍。這就是為什么行業里很多模型號稱能支持百萬 token 上下文,卻根本不敢開放商用:成本高到用戶用不起,強行降價就要虧到吐血。

        為了解決這個問題,行業做了無數嘗試:線性注意力把復雜度降到了 O (N),卻損失了長文本的推理精度;稀疏注意力只計算部分 token 的注意力,卻無法解決全局語義依賴的問題,泛化能力大幅縮水。

        而 千問 3.5 的解法,更像是人類思維模式在大模型上的遷移:既然人對不同事情可以有精力分配的不同,那么對大模型來說,也不是所有 token,都配得上同等的全局注意力。

        基于這個最樸素的原理,千問團隊打造了全局注意力 + 線性注意力的混合架構

        對非關鍵的冗余信息,采用線性注意力處理,把計算復雜度從 O (N2) 直接砍到 O (N),算力消耗呈指數級下降;

        對核心語義、關鍵邏輯信息,保留標準全局注意力,保證模型的長文本依賴建模能力,推理精度幾乎零損失。

        這一改動,使得大模型在大幅減少算力消耗的同時,提升了輸出的效率,并帶來上下文窗口的大幅增加——千問 3.5 的上下文長度已經達到 1M token。約等于把劉慈欣的三體三部曲一起塞給模型,或者在每輪對話 500 字上下的基礎上,支持 600~800 輪連續對話不遺忘。

        如果說混合注意力解決了理解效率的問題,那么極致稀疏 MoE 架構,就解決了表達成本的痛點。

        傳統稠密大模型,架構出場天生就帶著極致的浪費:不管你輸入的是一句早上好,還是一篇十萬字的行業報告,模型每次推理都要激活全部參數。

        這就意味著,90% 以上的算力,都被白白浪費了。

        MoE 混合專家架構的出現,就是把模型拆成多個專家子網絡,內容進來,只激活最對口的那幾個專家模型,不用全量參數跑一遍。

        但行業里絕大多數的 MoE 模型,都陷入了兩個死穴:要么專家路由效率低下,激活參數占比過高,成本下降有限;要么專家之間的協同能力不足,模型性能出現滑坡。

        而 千問 3.5 的極致稀疏 MoE 架構,直接把這個路線的潛力榨到了極致:總參數量 3970 億,單次推理的激活參數僅 170 億,不到總參數的 5%,即可調動全部知識儲備,順便實現部署成本大降 60%,最大推理吞吐量可提升至 19 倍,

        到這里,可能又有很多人會問,同樣是混合注意力、MoE 架構,為什么只有千問能做到這個程度

        答案是,架構創新的潛力,必須靠全棧協同才能徹底釋放。阿里獨有的阿里云、平頭哥自研芯片與千問模型全棧協同能力,是其他廠商根本無法復刻的核心壁壘。

        其中,阿里云的 AI 基礎設施,為 文本 + 視覺混合預訓練數據,提供了穩定、高效的算力支撐,讓大規模的架構創新實驗得以落地。

        平頭哥真武 810 芯片,針對 MoE 架構、混合注意力機制做了專項優化,能充分發揮集群算力效率,進一步把模型訓練和推理的效率拉到極致。

        千問團隊的模型架構創新,又反過來給云基礎設施、芯片的優化指明了方向,形成了正向循環的閉環。

        也正是這套閉環,讓千問 3.5 的價格能進一步探底,把 API 成本壓到 0.8 元/百萬 Token,徹底打破了國外模型的價格壟斷,讓 sota 模型成為人人可用,阿里云上用的成本還能更低的普惠存在,也讓不可能三角成為可能。

        02

        千問 3.5,全民友好型模型如何練成的?

        很多人會問:千問 3.5 把成本打下來,是不是就會犧牲了推理性能?

        恰恰相反,千問 3.5 最亮眼的地方就在于,它實現極致性價比的同時,也把性能和體驗,拉到了行業的新高度。

        對普通用戶來說,最直觀的體驗升級,就是即使用 sota 模型,也能享受流暢的生成體驗。

        過去,為了給模型生成提速,大部分團隊都是在推理階段加個投機采樣的補丁,先猜后面的內容,猜對了就快一點,猜錯了就回滾,結果就是要么快但容易錯,要么準但還是慢。

        而千問 3.5 的解法,是從訓練階段就原生支持多 Token 聯合預測,讓模型從一個字一個字地想,進化成一次想好幾步再說。這個過程類似于人類說話,先想好完整的語義,然后在表達的過程中組織連貫的語言。

        這對長文本生成、代碼補全、多輪對話等高頻場景帶來的是質變的體驗升級:問一個復雜的科普問題,10 秒內就能給出連貫的回答;寫一篇千字短文,幾秒就能生成初稿。

        另一個被徹底解決的痛點,是大模型的上下文腐爛問題。

        過去,大模型輸入上下文越長,就會讓模型的注意力越分散,有效信息被無效噪聲淹沒,輸出質量直線下降。一個完整的長內容,模型往往只會注意到開頭和結尾的內容,中間的關鍵信息被忽略,或者多輪對話之后,它會忘記你最初的問題或者要求。

        針對這個痛點,Qwen3.5 對模型做了系統級的訓練穩定性優化,其中最核心的,就是阿里千問團隊斬獲NeurIPS 2025 最佳論文獎的注意力門控機制。

        這個機制,本質上是在注意力層的輸出端,加了一個智能降噪開關:它能根據信息的重要程度,智能調控信息的傳遞,有效信息被放大,無效信息被過濾。

        最終的結果是,哪怕是在 1M token 的超長上下文下,模型依然能精準記住所有的關鍵信息,開發者不用再把長文檔拆成十幾段反復投喂,用戶不用再把需求翻來覆去重復三遍,百萬級上下文的全量信息精準調用,終于成為了現實。

        除了這些核心痛點的解決,千問 3.5 的細節升級,覆蓋了從個人用戶到企業開發者的全維度需求。

        比如,它首次把支持的語言擴展到了 201 種,預訓練數據里大幅新增了中英文、多語言、STEM 和推理類數據,不管是小語種的精準翻譯,還是復雜的數理化博士級難題,都能輕松應對。

        測試案例:STEM 表現

        在 Agent 能力上,千問 3.5 同樣實現了生產級的跨越式提升。目前,千問 3.5 在移動端已經與多個主流 APP 與指令打通,PC 端則能處理跨應用數據整理、自動化流程執行等復雜多步驟操作。

        更關鍵的是,千問團隊構建了可擴展的 Agent 異步強化學習框架,端到端速度可加速 3 到 5 倍,并將基于插件的智能體支持擴展至百萬級規模,為后續 Agent 的規模化落地打下了基礎。

        如果說其他模型,還停留在開發者友好型,那么千問 3.5,就是全民友好型。它既照顧了開發者對成本、效率的需求,也兼顧了普通用戶對體驗的期待,讓大模型真正走進了日常生活,而不是停留在實驗室里的黑科技。

        03

        原生多模態,

        千問 3.5 開始能讀懂復雜世界

        如果說性能、成本、體驗的全面升級,是千問 3.5 在解決當下大模型落地過程中的困境,那么統一多模態,就是 千問 3.5 把大模型推向 AGI 的重要一步探索。

        長期以來,業界都有一個共識:統一多模態,是通往通用人工智能(AGI)的必經之路。但直到今天,行業里絕大多數的多模態模型,都還是偽多模態:先訓好一個純語言大模型,再外掛一個視覺編碼器,靠適配層把兩個模塊粘在一起,本質上就是兩個語言不通的人靠翻譯聊天,信息傳遞必然出現折損。

        千問 3.5 的不同之處在于,從預訓練第一天起,就是在文本+視覺混合數據上聯合學習,讓視覺與語言在統一的參數空間內深度融合。

        簡單說,它看到一張圖,就能自然理解圖中的語義,不用先把圖像轉換成文本再進行理解;讀到一段文字,就能在腦中構建出對應的畫面,就像人一樣,真正具備了跨模態的直覺理解力。

        測試案例:輸入一張電影截圖,千問 3.5 就能生成圖文并茂的電影解析

        為了實現這種原生的多模態融合,千問 3.5 對整個訓練架構都做了革新:它讓視覺和語言模態,各走各的最優路徑,只在關鍵節點上高效匯合,既保證了兩個模態各自的性能上限,又實現了真正的協同工作,大幅提升了多模態混合訓練的效率。

        這種原生融合的架構,帶來的是視覺能力的飛躍式提升:在多模態推理(MathVison)、通用視覺問答 VQA(RealWorldQA)、文本識別和文件理解(CC_OCR)、空間智能(RefCOCO-avg)、視頻理解(MLVU)等眾多權威評測中,Qwen3.5 均斬獲最佳性能,碾壓同類開源模型,甚至比肩頂級閉源模型。

        測試案例:通用視覺問答

        還有一個容易被忽略,卻至關重要的細節優化,是精度策略的設計:千問 3.5 采用了 FP8/FP32 的精度策略,在保證模型性能零損失的前提下,把激活內存減少了約 50%,訓練速度提升了 10%。更關鍵的是,這套方案被統一部署到了強化學習訓練和推理的全流程里,全面降低了多模態模型擴展的成本和復雜度。

        這些性能提升,最終都轉化成了實實在在的生產力:

        在學科解題、空間推理上,它比千問此前的專項多模態模型 Qwen3-VL 表現還要更優,空間定位、帶圖推理的精度大幅提升。

        在視頻理解上,它支持長達 2 小時的視頻直接輸入,剛好對應 1M token 的上下文窗口,會議錄像、課程視頻、直播素材,一次性投喂就能完成核心內容提取、腳本生成、待辦梳理。

        通過視覺與代碼的原生融合,手繪的 APP 界面草圖,也能直接轉化為可運行的前端代碼;機械圖紙、建筑結構圖、幾何題目,全都能精準拆解空間關系、完成推理計算。

        測試案例:復雜網頁生成

        而這,也是讓大模型從能聊天的工具,變成看懂現實世界的基座,最終通往 AGI 乃至 ASI 的關鍵一步。

        04

        尾聲

        如果說架構與多模態的創新,讓 千問 3.5 打破了不可能三角的技術枷鎖,那么開源生態,讓千問 3.5 徹底顛覆了行業對開源模型的固有偏見。

        在此之前,開源模型在行業里的定位,永遠是閉源模型的替代品:性能追不上閉源,體驗打不過閉源,只能作為開發者的練手工具,無法進入核心生產環境。

        現在千問 3.5 的問世,徹底打破了這種偏見——它用開源的身份,實現了超越同級閉源模型的性能,再加上極致的性價比和完善的生態支持,讓開源、高性價比、最強的不可能三角成為可能。

        一組可驗證的數據,足以證明千問開源生態的行業影響力:截至目前,阿里已開源 400 余個千問模型,覆蓋全尺寸、全模態、全場景,全球下載量突破 10 億次;全球開發者基于千問開發的衍生模型超 20 萬個。

        而站在千問生態的肩膀上,中小企業不用再為頂級模型的 API 支付高昂的費用,用極低的成本就能落地自己的 AI 應用;

        個人開發者不用再被閉源模型的商用權限鎖死,基于開源的千問 3.5,就能打造創新的 AI 產品;

        科研機構不用再重復造輪子,基于開源的底座,就能專注于前沿技術的創新。

        從此,AI 不再是巨頭的專屬游戲,而是變成了全行業、全開發者都能參與的創新浪潮。

        *頭圖來源:視覺中國

        本文為極客公園原創文章,轉載請聯系極客君微信 geekparkGO

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      37歲梁洛施春節曬5億豪宅!和李澤楷的三個兒子定居于此

      37歲梁洛施春節曬5億豪宅!和李澤楷的三個兒子定居于此

      廚房里的神
      2026-02-20 17:44:02
      倪萍:父親到死我都沒喊他一聲“爸”,母親的仇恨教育刻骨銘心

      倪萍:父親到死我都沒喊他一聲“爸”,母親的仇恨教育刻骨銘心

      白面書誏
      2025-11-22 17:18:59
      黑色超短裙的誘惑

      黑色超短裙的誘惑

      疾跑的小蝸牛
      2026-02-21 20:20:00
      媒體人:北京首鋼為了穩妥和過渡 并沒有讓之前的外援離開

      媒體人:北京首鋼為了穩妥和過渡 并沒有讓之前的外援離開

      狼叔評論
      2026-02-22 10:46:11
      楊冪父母蘇州買千萬豪宅!媽媽背愛馬仕儀態被吐槽,看來駝背是遺傳

      楊冪父母蘇州買千萬豪宅!媽媽背愛馬仕儀態被吐槽,看來駝背是遺傳

      扒星人
      2026-02-20 15:17:12
      柬埔寨向26國通報:驅逐涉案外籍人員8000余名 超21萬名外籍人員自行離境 已對包括陳志犯罪集團在內的500余起犯罪案件起訴

      柬埔寨向26國通報:驅逐涉案外籍人員8000余名 超21萬名外籍人員自行離境 已對包括陳志犯罪集團在內的500余起犯罪案件起訴

      每日經濟新聞
      2026-02-21 11:46:14
      離開鮑春來之后,她嫁給比自己大十歲的丈夫,連育一子一女

      離開鮑春來之后,她嫁給比自己大十歲的丈夫,連育一子一女

      陳意小可愛
      2026-02-19 17:41:26
      鄭州10歲男孩8萬壓歲錢被父親偷偷取走,用于再婚開銷,男孩無奈起訴,法院:全額返還存款及利息

      鄭州10歲男孩8萬壓歲錢被父親偷偷取走,用于再婚開銷,男孩無奈起訴,法院:全額返還存款及利息

      極目新聞
      2026-02-20 17:01:59
      河南小伙在非洲16年,當地一夫多妻制,男人只用玩,女人掙錢養家

      河南小伙在非洲16年,當地一夫多妻制,男人只用玩,女人掙錢養家

      大魚簡科
      2026-02-07 16:50:52
      “伉儷”不讀kāng lì,正確讀音是什么?你知道嗎?

      “伉儷”不讀kāng lì,正確讀音是什么?你知道嗎?

      AI讀書
      2026-02-21 17:29:55
      內燃機巔峰藝術,世界最傳奇的V12發動機盤點

      內燃機巔峰藝術,世界最傳奇的V12發動機盤點

      ams車評網
      2026-02-21 08:50:03
      6名精英女性在加州致命雪崩中遇難:她們因孩子結緣,裝備齊全

      6名精英女性在加州致命雪崩中遇難:她們因孩子結緣,裝備齊全

      極目新聞
      2026-02-21 19:27:21
      谷歌發布「AlphaFold 4」,不再開源!性能碾壓上一代

      谷歌發布「AlphaFold 4」,不再開源!性能碾壓上一代

      硅星人
      2026-02-21 11:58:24
      湖南6犧牲消防員信息披露:追悼會群眾自發來送別,家屬哭癱在地

      湖南6犧牲消防員信息披露:追悼會群眾自發來送別,家屬哭癱在地

      博士觀察
      2026-02-21 21:33:59
      日本多地連發集體食物中毒事件 逾百人“中招”

      日本多地連發集體食物中毒事件 逾百人“中招”

      財聯社
      2026-02-21 20:10:06
      8連勝來了!趙心童背靠背進決賽,沖140萬冠軍獎金,手握3大優勢

      8連勝來了!趙心童背靠背進決賽,沖140萬冠軍獎金,手握3大優勢

      劉姚堯的文字城堡
      2026-02-22 07:49:21
      1990年考中專,我報師范,3個同學報糧、校商校和供銷學校

      1990年考中專,我報師范,3個同學報糧、校商校和供銷學校

      人間百態大全
      2026-02-22 09:20:54
      42歲王濛再破天花板!退役12年,再次讓李琰和整個冰壇“沉默”了

      42歲王濛再破天花板!退役12年,再次讓李琰和整個冰壇“沉默”了

      翰飛觀事
      2026-02-16 11:29:39
      最快女護士張水華代言年收入逼近500萬,辭去工作也是贏家

      最快女護士張水華代言年收入逼近500萬,辭去工作也是贏家

      姜大叔侃球
      2026-02-19 17:23:27
      古特雷斯:和平不是讓步,烏克蘭邊界不可談

      古特雷斯:和平不是讓步,烏克蘭邊界不可談

      桂系007
      2026-02-21 23:48:38
      2026-02-22 13:52:49
      極客公園
      極客公園
      讓最棒的創新成為頭條
      11817文章數 78765關注度
      往期回顧 全部

      科技要聞

      馬斯克:星艦每年將發射超過10000顆衛星

      頭條要聞

      monies巴黎旗艦店員工:王菲同款水滴耳環庫存已空

      頭條要聞

      monies巴黎旗艦店員工:王菲同款水滴耳環庫存已空

      體育要聞

      徐夢桃:這是我第一塊銅牌 給我換個吉祥物

      娛樂要聞

      裴世矩養侄為刃 看懂兩次放行裴行儼!

      財經要聞

      特朗普新加征關稅稅率從10%提升至15%

      汽車要聞

      續航1810km!smart精靈#6 EHD超級電混2026年上市

      態度原創

      教育
      時尚
      家居
      游戲
      健康

      教育要聞

      “這種女兒,生出來當排毒了!”女孩對父親滿口臟話,他卻不吭聲

      50歲女性過冬穿搭:有大衣和羽絨服就夠了,簡約從容才是優雅

      家居要聞

      本真棲居 愛暖伴流年

      魔獸世界時光服:P2階段最值得入手的專業極品,你穿上去了嗎?

      轉頭就暈的耳石癥,能開車上班嗎?

      無障礙瀏覽 進入關懷版