<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      實測,單卡 4090 + llama.cpp 輕松跑 Claude-Opus-4.6蒸餾版Qwen3.5 27B,46 Token每秒!

      0
      分享至

      前文:

      本文實測 24GB 顯存的 4090 單卡啟動 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Q4_K_M

      省流:

      • 1、單卡 4090 跑 27B 很輕松,最高64K 上下文、128K 報 OOM,這個上下文還是不錯的,對比同樣單 4090 啟動的 ,上下文只能開到 10K

      • 2、平均生成速度 46 token/s 的樣子,并發(fā)是沒有的,個人用還可以

      • 3、 實際表現中規(guī)中矩,中等水平,可以完成核心任務,細節(jié)不如 GLM-4.7-Flash

      極簡過程及啟動腳本 下載模型

      我選擇的這個


      使用 modelscope 下載

      pip install modelscope
      modelscope download --model Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Qwen3.5-27B.Q4_K_M.gguf --local_dir .
      llama.cpp 安裝

      安裝真是一言難盡,大家各顯神通吧

      我的內網機基礎環(huán)境很差,編譯從來沒有成功過

      所以還是走的 Docker 方案

      docker pull ghcr.io/ggml-org/llama.cpp:full-cuda

      啟動腳本

      我計劃完全用顯卡來跑,不動用 CPU

      啟動腳本:

      docker run --rm --runtime nvidia  --gpus "device=4" -v /data/llm-models:/models --name qwen35-27 -p 8005:8000 ghcr.io/ggml-org/llama.cpp:server-cuda  -m /models/jackrong/Qwen3.5-27B.Q4_K_M.gguf --port 8000 --host 0.0.0.0 -c 65536  -ngl 99 

      前端對話使用的自帶 UI,其實可以接入到 OpenwebUI,它現在的 UI 還支持 MCP


      告訴他細節(jié)不夠豐富后,這種表現已經十分優(yōu)秀了,這個題目考察閱讀理解+svg 代碼生成+審美,很多大號模型表現也不一定這么好


      對比 GLM-4.7-Flash-AWQ-4bit


      平均 46 t/s


      測試并發(fā)能力,失敗告終


      找 GPT5.4 讀了文檔加了一些支持并發(fā),激發(fā)性能的參數,結果依然如上,沒有改善,或許默認的 4 并發(fā)會好一些,沒在嘗試。

      docker run --rm --runtime nvidia  --gpus "device=4" -v /data/llm-models:/models --name qwen35-27 -p 8005:8000 ghcr.io/ggml-org/llama.cpp:server-cuda  -m /models/jackrong/Qwen3.5-27B.Q4_K_M.gguf --port 8000 --host 0.0.0.0 -c 65536  -kvu -ngl 99 --flash-attn on -b 1024 -t 48

      ,結論:

      lama.cpp 并未針對張量并行(Tensor Parallelism)與批推理(Batch Inference)進行優(yōu)化。只有在進行 LLM 的部分或全部 CPU 卸載時,你才應該使用 llama.cpp。但在多 GPU 配置下,需要經過優(yōu)化的批推理與 Tensor Parallelism,此時 vLLM 是正確選擇。

      附 LocalLLaMA 社區(qū)的吐槽

      llama.cpp 項目 issue 吐槽



      14 張 RTX 3090 GPU 和 336GB VRAM 的專用 AI 服務器,# Stop Wasting Your Multi-GPU Setup With llama.cpp

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      摧毀海上偷渡鏈!“獴獵”行動68人落網細節(jié)曝光

      摧毀海上偷渡鏈!“獴獵”行動68人落網細節(jié)曝光

      環(huán)球網資訊
      2026-04-19 13:23:28
      一輛20萬的新車,卡扣斷了,修不起;89元的零件 逼人換13萬電池包

      一輛20萬的新車,卡扣斷了,修不起;89元的零件 逼人換13萬電池包

      娛樂圈的筆娛君
      2026-04-20 02:07:08
      主動站出來認罪的紅色高棉頭目----一個劊子手的罪與贖

      主動站出來認罪的紅色高棉頭目----一個劊子手的罪與贖

      通往遠方的路
      2026-04-20 09:57:44
      中國有貨就是不賣!印度這次徹底失算,把全球供應商都惹毛了

      中國有貨就是不賣!印度這次徹底失算,把全球供應商都惹毛了

      一個有靈魂的作者
      2026-04-19 19:40:53
      重要突破,科學家注射一個腫瘤細胞,全身癌細胞竟然消失

      重要突破,科學家注射一個腫瘤細胞,全身癌細胞竟然消失

      心中的麥田
      2026-04-19 18:26:11
      伊朗向中國通報!談判團差點被美軍“團滅”,全程連電話都不敢打

      伊朗向中國通報!談判團差點被美軍“團滅”,全程連電話都不敢打

      荷蘭豆愛健康
      2026-04-19 21:53:37
      越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

      越南百億高鐵訂單給德國,來華體驗12小時高鐵,背后算計太明顯

      苗苗情感說
      2026-04-19 12:38:15
      文班亞馬季后賽首秀:傳承開始

      文班亞馬季后賽首秀:傳承開始

      張佳瑋寫字的地方
      2026-04-20 12:23:10
      張?zhí)m暗示兒媳馬筱梅欲望旺盛,汪小菲別墅空調失靈,覬覦婆婆宅邸

      張?zhí)m暗示兒媳馬筱梅欲望旺盛,汪小菲別墅空調失靈,覬覦婆婆宅邸

      樂悠悠娛樂
      2026-04-20 10:47:48
      爺爺生前錄音贈孫女109萬元遺產,六個姑姑不服要求平分,法院:錄音無效,重新分配,患小兒麻痹癥姑姑拿大頭

      爺爺生前錄音贈孫女109萬元遺產,六個姑姑不服要求平分,法院:錄音無效,重新分配,患小兒麻痹癥姑姑拿大頭

      魯中晨報
      2026-04-17 17:00:03
      600年都不倒!天安門這4根重達2萬多公斤的華表,有何特殊含義?

      600年都不倒!天安門這4根重達2萬多公斤的華表,有何特殊含義?

      墨印齋
      2026-04-14 00:57:55
      復雜的黎巴嫩,走投無路的真主黨

      復雜的黎巴嫩,走投無路的真主黨

      寰宇大觀察
      2026-04-17 17:36:11
      靈隱寺砸飯碗!浙江4000寺廟大洗牌,滿街僧人有玄機

      靈隱寺砸飯碗!浙江4000寺廟大洗牌,滿街僧人有玄機

      一口娛樂
      2026-04-20 01:43:39
      解氣!!!來而不往非禮也!中國海軍今天出手了!

      解氣!!!來而不往非禮也!中國海軍今天出手了!

      樂趣紀史
      2026-04-20 08:03:19
      浙江25歲女子深夜跑進急診,疼到臉色發(fā)白,醫(yī)生:近兩三年這類患者越來越多,嚴重的會造成不可逆?zhèn)?>
    </a>
        <h3>
      <a href=環(huán)球網資訊
      2026-04-20 09:25:07
      張本兄妹改名風波再升級,韓媒強烈批評,這就是狠毒的創(chuàng)姓改稱

      張本兄妹改名風波再升級,韓媒強烈批評,這就是狠毒的創(chuàng)姓改稱

      有范又有料
      2026-04-19 00:03:10
      張雪機車,全球訂單狂飆

      張雪機車,全球訂單狂飆

      第一財經資訊
      2026-04-18 18:42:46
      張雪回應為何還有6圈提前結束比賽:有事故摩托車橫躺在賽道上

      張雪回應為何還有6圈提前結束比賽:有事故摩托車橫躺在賽道上

      貝殼財經
      2026-04-19 23:56:03
      一伊朗油輪突破美國封鎖進入伊朗水域

      一伊朗油輪突破美國封鎖進入伊朗水域

      每日經濟新聞
      2026-04-20 07:10:32
      “DeepSeek首次融資”傳聞震動市場!寒武紀、沐曦股份、摩爾線程和張雪機車的天使投資人都回應了

      “DeepSeek首次融資”傳聞震動市場!寒武紀、沐曦股份、摩爾線程和張雪機車的天使投資人都回應了

      證券時報
      2026-04-19 22:52:02
      2026-04-20 12:55:00
      Ai學習的老章 incentive-icons
      Ai學習的老章
      Ai學習的老章
      3334文章數 11137關注度
      往期回顧 全部

      科技要聞

      藍色起源一級火箭完美回收 客戶衛(wèi)星未入軌

      頭條要聞

      媒體:伊朗剛說不談 美國立即開打

      頭條要聞

      媒體:伊朗剛說不談 美國立即開打

      體育要聞

      七大獎項候選官宣!文班或全票DPOY

      娛樂要聞

      鹿晗生日上熱搜,被關曉彤撕下體面

      財經要聞

      月之暗面IPO迷局

      汽車要聞

      把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

      態(tài)度原創(chuàng)

      房產
      時尚
      家居
      教育
      軍事航空

      房產要聞

      官宣簽約最強城更!海口樓市,突然殺入神秘房企!

      今年最流行的衣服竟然是它?高級又氣質!

      家居要聞

      自然慢調 慢享時光

      教育要聞

      我發(fā)現一個殘酷真相:孩子長大后,最怨恨的不是管太嚴的父母……

      軍事要聞

      特朗普:美艦向伊朗貨船開火炸出個洞

      無障礙瀏覽 進入關懷版