大家好,我是 Ai 學習的老章
Ollama 是咱們公眾號的常客了,比較重要的幾個功能升級我都寫過文章介紹
Ollama 背后執行推理的核心技術其實是由 llama.cpp 承擔的,GGUF 模型格式也是由 llama.cpp 的作者所開發。
現在 llama.cpp 迎來重大更新,它也有了自己的 Web UI,我測試了安裝部署和自行打包,很多地方確實比 Ollama 還有方便好用。
官方介紹,優勢如下:
完全免費、開源且由社區驅動
在所有硬件上表現出色
高級上下文和前綴緩存
并行和遠程用戶支持
極其輕量級且內存高效
充滿活力且富有創造力的社區
100% 隱私
使用之前需要先安裝 llama.cpp server
![]()
我還是喜歡命令行直接安裝
## Winget (Windows)
winget install llama.cpp
## Homebrew (Mac and Linux)brew install llama.cpp
然后啟動 UI,也是命令行,為了快速測試,我調用 Qwen2.5 的 0.5b
llama-server -hf Qwen/Qwen2.5-0.5B-Instruct-GGUF --jinja -c 0 --host 127.0.0.1 --port 8033
量化后模型文件來到不到 500Mb,我發現它默認選 q4_k_m
![]()
然后瀏覽器打開
![]()
隨便問個問題,速度 97t/s
![]()
對比 Ollama 82t/s的樣子
![]()
其他功能也都挺實用
從磁盤或剪貼板添加多個文本文件到對話的上下文中
![]()
將一個或多個 PDF 附件添加到對話中。默認情況下,PDF 的內容將被轉換為純文本,不包括任何視覺元素。
![]()
也可以在 AI 模型支持的情況下將 PDF 處理為圖像。
![]()
當所選的 AI 模型具有視覺輸入能力時,可以在對話中插入圖片:
![]()
圖片可以與文本上下文一起插入:
![]()
可以渲染數學表達式:
![]()
使用 Import/Export 選項直接管理私人對話:
![]()
新的 WebUI 對移動設備友好:
![]()
其他功能還有,比如:
支持通過 URL 參數傳遞輸入
根據之前的討論點編輯或重新生成消息以創建分支
同時運行多個聊天對話
并行圖像處理
支持嵌入式渲染生成的 HTML/JS 代碼
指定一個自定義的 JSON 模式以約束生成的輸出到特定格式
目前硬傷是只能瀏覽器,想打包成 app 也可以,我使用的是 tw93 開發的 pake,一行命令即可,本地服務也可以打包成 app
![]()
然后它就將只能瀏覽器訪問的 web 應用打包成 app 了
![]()
如此輕量舒服的應用,我與這位網友有相同的期待——支持其他模型的接入
![]()
總結來看,,但是 Ollama 玩了這么久也不是吃素的 1、Ollama 有更加方便的 app,隨時切換本地模型甚是方便 2、Ollama 還有免費云模型可以調用呢,deepseek-v3.1:671b-cloud都敢給 3、網絡問題,它目前只能支持 HF 下載模型,國內用戶不友好 4、網絡搜索和 MCP 也不支持
最后再說一句,它和 ollama 一樣,都適合個人用戶使用,企業就別折騰了,并發太差:
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.