<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網易首頁 > 網易號 > 正文 申請入駐

      不要再用Ollama,不要再用llama.cpp

      0
      分享至


      大家好,我是 Ai 學習的老章

      最近在測試 llama.cpp 這個推理引擎的表現,主要是啟動 GGUF 格式的量化大模型比較方便

      啟動確實方便,但是性能測試結果卻很不理想

      單并發極快,速度飛起,并發數上來之后平均 TPS 斷崖式下降


      我的啟動腳本中是設置了并發相關參數的


      搜了一下了 Reddit 的 LocalLLaMA 社區,發現很多吐槽


      llama.cpp 項目 issue 還有吐槽


      看了一個博主的文章《# Stop Wasting Your Multi-GPU Setup With llama.cpp》[1]

      作者地下室里的常駐 AI 服務器——一臺配備 14 張 RTX 3090 GPU 和 336GB VRAM 的專用 AI 服務器,在此設備上做過大量測試。


      省流:lama.cpp 并未針對張量并行(Tensor Parallelism)與批推理(Batch Inference)進行優化。只有在進行 LLM 的部分或全部 CPU 卸載時,你才應該使用 llama.cpp。但在多 GPU 配置下,需要經過優化的批推理與 Tensor Parallelism,此時 vLLM 或 ExLlamaV2 等才是正確選擇。也不要使用 Ollama,它只是 llama.cpp 的一個封裝,干的就是設置環境變量、蹩腳地計算顯存拆分和卸載。如果你只有一塊 GPU,只想跑點基礎模型做做聊天,那它還行;但凡超出這個范圍,就不值得用了。

      llama.cpp[2] 是一個支持多種模型架構和硬件平臺的推理引擎。然而,它不支持批處理推理,因此一次處理多個請求時并不理想。它主要與 GGUF 量化格式配合使用,在單次請求場景下性能尚可,但也就僅此而已。唯一真正推薦使用 llama.cpp 的情況是:當你的 GPU 顯存(VRAM)不足,需要將部分模型權重卸載到 CPU 內存(RAM)時。

      它是目前最流行的推理引擎。圍繞它的開源社區非常活躍,通常能很快支持新模型和新架構,尤其因為它支持 CPU 卸載,對更廣泛的用戶群體而言也極易上手。遺憾的是,llama.cpp 并不支持、也大概率永遠不會支持張量并行(Tensor Parallelism)[3] 因為大多數人不會像我一樣把幾千美元砸在快速貶值的資產上[4]

      作者的 AI 服務器配備了 512 GB 高性能 DDR4 3200 3DS RDIMM 內存,可提供 CPU 架構所支持的最大內存帶寬。配合 AMD Epyc Milan 7713 CPU,僅通過 CPU 卸載就能夠在 DeepSeek v2.5 236B BF16 模型上實現每秒約 1 個 token。

      但是

      利用 14x GPU AI 服務器中的 8 塊 GPU,僅通過 GPU 卸載,服務器在處理 Llama 3.1 70B BF16 時,通過 vLLM 使用張量并行的批量推理,可達到每秒約 800 個 token,同時處理 50 個異步請求。

      這是為什么呢?

      從宏觀上看,張量并行將模型每一層的計算分布到多塊 GPU 上。與其在單塊 GPU 上完成整個矩陣乘法,不如把運算切分,讓每塊 GPU 只處理一部分工作量,這樣每塊 GPU 就能同時運行不同層中的不同部分,使結果以指數級速度計算出來。

      張量并行對多 GPU 配置至關重要——經驗法則是 TP 喜歡 2^n,因此下面運行模型時用了 8×GPU——而在對系統進行壓力測試時,并行也比串行更合適。當你試圖用 llama.cpp 讓 LLMs 彼此對話時,引擎會把這些 GPU 拖慢,讓它們一個接一個地排隊等待。

      下圖作者運行的一個腳本:50 個異步請求,每個請求約 2k tokens,總共耗時 2 分 29 秒,使用的是 vLLM 運行 Llama 3.1 70B BF16。如果改用 INT8 量化或更低精度,速度會快得多;再加上投機解碼和/或嵌入模型,速度還會進一步提升。這一切都離不開 vLLM 利用張量并行實現的批推理。


      作者還測試了 vLLM、Aphrodite、Sglang、TensorRT-LLM、ExLlamaV2 和 LMDeploy 等支持張量并行的推理引擎。其中 ExLlamaV2[5] 它是一款僅 GPU 的推理引擎,ExLlamaV2 帶來了獨一無二的 EXL2 量化格式,如今已被多款推理引擎采納,因為它在顯存利用率上的優勢巨大。

      參考資料

      Stop Wasting Your Multi-GPU Setup With llama.cpp: https://www.ahmadosman.com/blog/do-not-use-llama-cpp-or-ollama-on-multi-gpus-setups-use-vllm-or-exllamav2/

      llama.cpp: https://github.com/ggerganov/llama.cpp

      并不支持、也大概率永遠不會支持張量并行(Tensor Parallelism): https://github.com/ggerganov/llama.cpp/issues/9086#issuecomment-2578645269

      把幾千美元砸在快速貶值的資產上: https://x.com/TheAhmadOsman/status/1869841392924762168

      [5]

      ExLlamaV2: https://github.com/turboderp/exllamav2

      最后推薦一個我正在學習的課程


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      祖巴茨才是快船最大毒瘤!傷停后倫納德科林斯齊爆,防守也變好了

      祖巴茨才是快船最大毒瘤!傷停后倫納德科林斯齊爆,防守也變好了

      籃球資訊達人
      2025-12-24 16:14:39
      福建8位干部擬任縣級黨委正職,5位干部擬提名為縣級政府正職人選

      福建8位干部擬任縣級黨委正職,5位干部擬提名為縣級政府正職人選

      海峽網
      2025-12-24 20:05:49
      這瓜保熟!只差榜首2分,瓜迪奧拉后程憋大招,阿爾特塔真有點慌

      這瓜保熟!只差榜首2分,瓜迪奧拉后程憋大招,阿爾特塔真有點慌

      濤哥侃球
      2025-12-24 16:07:07
      NBA當選最佳教練后即遭解雇,他不是第一個,或成為下一個

      NBA當選最佳教練后即遭解雇,他不是第一個,或成為下一個

      方臉妹
      2025-12-23 20:57:21
      昨天進去的虧慘了,上市兩天大跌50%,扛不住了虧13萬賣了!

      昨天進去的虧慘了,上市兩天大跌50%,扛不住了虧13萬賣了!

      夜深愛雜談
      2025-12-24 16:54:22
      武漢一警花嫁給“副局長”,結婚3年后,偶然發現丈夫的真實身份

      武漢一警花嫁給“副局長”,結婚3年后,偶然發現丈夫的真實身份

      五元講堂
      2024-09-02 09:45:42
      壽星蔣圣龍曬一家四口圣誕合影:寶貝們陪爸爸的第一個生日

      壽星蔣圣龍曬一家四口圣誕合影:寶貝們陪爸爸的第一個生日

      懂球帝
      2025-12-24 21:20:15
      轉戰職業釣魚!西蒙斯宣布暫停NBA生涯:沒到最佳狀態復出無意義

      轉戰職業釣魚!西蒙斯宣布暫停NBA生涯:沒到最佳狀態復出無意義

      羅說NBA
      2025-12-24 05:49:38
      維尼修斯曬和女友迪拜度假,后者已是三個娃的媽

      維尼修斯曬和女友迪拜度假,后者已是三個娃的媽

      懂球帝
      2025-12-24 06:15:04
      葉選寧為何是“紅二代”里的老大哥?鄧樸方的一句評價,十分經典

      葉選寧為何是“紅二代”里的老大哥?鄧樸方的一句評價,十分經典

      素年文史
      2025-12-21 16:04:03
      足壇歷史十大球星發布!大羅落選 C羅第五 排名還不如克魯伊夫?

      足壇歷史十大球星發布!大羅落選 C羅第五 排名還不如克魯伊夫?

      體壇八點半的那些事兒
      2025-12-24 17:32:50
      高質量胚胎就是牛啊!網友:不可思議

      高質量胚胎就是牛啊!網友:不可思議

      另子維愛讀史
      2025-12-24 17:38:35
      “獨居女子離世遺產爭議”續:民政局稱法院已就遺產處置判決

      “獨居女子離世遺產爭議”續:民政局稱法院已就遺產處置判決

      南方都市報
      2025-12-24 15:54:17
      死刑!發小害死妻兒案宣判!家屬拒注射死刑,兇手當庭翻供細節曝光

      死刑!發小害死妻兒案宣判!家屬拒注射死刑,兇手當庭翻供細節曝光

      椰青美食分享
      2025-12-24 07:25:44
      導演翟俊杰去世

      導演翟俊杰去世

      新京報
      2025-12-24 16:04:03
      民調大跌,鄭麗文請王金平出山,蔡正元督請查明原因

      民調大跌,鄭麗文請王金平出山,蔡正元督請查明原因

      愛下廚的阿釃
      2025-12-25 00:33:39
      阿隆索糾錯!皇馬6000萬前鋒蛻變:邊緣人晉升主力 全隊受益

      阿隆索糾錯!皇馬6000萬前鋒蛻變:邊緣人晉升主力 全隊受益

      葉青足球世界
      2025-12-24 07:58:11
      這四個生肖的人,注定命苦一生,一輩子忙忙碌碌卻無所成

      這四個生肖的人,注定命苦一生,一輩子忙忙碌碌卻無所成

      屏兒愛讀書
      2025-02-18 09:11:18
      跟隊:引進塞門約后,曼城可能會賣掉薩維尼奧或鮑勃中的一人

      跟隊:引進塞門約后,曼城可能會賣掉薩維尼奧或鮑勃中的一人

      懂球帝
      2025-12-24 22:45:13
      12月24日早間11公司發重大利好利空:減持 控股權變更 重大合同等

      12月24日早間11公司發重大利好利空:減持 控股權變更 重大合同等

      股市皆大事
      2025-12-24 07:50:13
      2025-12-25 01:52:49
      機器學習與Python社區 incentive-icons
      機器學習與Python社區
      機器學習算法與Python
      3233文章數 11081關注度
      往期回顧 全部

      科技要聞

      智譜和MiniMax拿出了“血淋淋”的賬本

      頭條要聞

      幼兒園8人遇難學生家屬:女兒4歲 今年9月才入讀

      頭條要聞

      幼兒園8人遇難學生家屬:女兒4歲 今年9月才入讀

      體育要聞

      26歲廣西球王,在質疑聲中成為本土得分王

      娛樂要聞

      懷孕增重30斤!闞清子驚傳誕一女夭折?

      財經要聞

      北京進一步放松限購 滬深是否會跟進?

      汽車要聞

      “運動版庫里南”一月份亮相???或命名極氪9S

      態度原創

      手機
      健康
      教育
      時尚
      數碼

      手機要聞

      榮耀Magic8 Ultra:雙3D生物識別+LOFIC主攝,還有24GB大內存!

      這些新療法,讓化療不再那么痛苦

      教育要聞

      掏空家底全力托舉子女,這是父母最大的悲哀

      對不起周柯宇,是陳靖可先來的

      數碼要聞

      AMD Zen 6與Intel Nova Lake或將上演288 MB 3D緩存“大戰”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 人妻久久精品天天中文字幕| 成人免费ā片在线观看| 日本精品一区二区| 亚洲国产av一区二区三区四区| 亚洲伊人色| 国产精品99久久久久久噜噜| 国产一区二区三精品久久久无广告| 亚洲女初尝黑人巨| 国内精品久久人妻无码AV探花影视| 日韩一区二区三区女优丝袜| 免费人成无码大片在线观看| 精品人伦一二三区| 女人天堂AV| 99视频精品全部免费 在线| 成人乱码一区二区三区av| 华安县| 丰满人妻被猛烈进入| 亚洲欧洲日产国码高潮αv| 秋霞鲁丝片av无码少妇| 99国产视频在线观看| 亚洲熟女性视频| 老司机精品影院一区二区三区| 国内露脸中年夫妇交换| 一本精品99久久精品77| 久久福利导航| 97超碰人妻| 六十路老熟妇乱子伦视频| 美女高潮黄又色高清视频免费| 中文字幕人妻无码系列第三区| 亚洲羞羞| 真实国产老熟女无套中出| 国精品99久9在线 | 免费| av一本久道久久波多野结衣| 曲阜市| 尹人成人| 国产精品国产高清国产av| 永久黄网站色视频免费| 亚洲色成人网站www永久四虎| 色综合国产| 平顶山市| 91探花在线播放|