![]()
大模型已收斂,小模型還有廣闊天地。
作者丨陳為銳
編輯丨陳彩嫻
![]()
當(dāng)全球 AI 圈還在為千億參數(shù)模型的算力消耗焦頭爛額時,一支由清華大學(xué)和面壁智能組成的團(tuán)隊,悄悄在邊緣設(shè)備上完成了一場多模態(tài)大模型落地的變革。
日前,《Nature Communications》正式收錄了面壁智能此前發(fā)布的一項研究成果,該項研究推出了新模型 MiniCPM-V 系列,并重點介紹了首批 3 個模型,包括 MiniCPM-V 1.0、MiniCPM-V 2.0 和 MiniCPM-Llama3-V 2.5。
MiniCPM-V 1.0 使用預(yù)訓(xùn)練階段 1&2 和 SFT 進(jìn)行訓(xùn)練,未使用自適應(yīng)視覺編碼和 RLAIF-V;MiniCPM-V 2.0 包含了所有訓(xùn)練階段和自適應(yīng)視覺編碼策略,以進(jìn)一步提升性能;MiniCPM-Llama3-V 2.5 采用 Llama3-Instruct 8B 作為其基礎(chǔ) LLM,展現(xiàn)多模態(tài)理解能力。
研究結(jié)果表明,MiniCPM-V 僅用 80 億參數(shù)就實現(xiàn)了 GPT-4V 級別的多模態(tài)能力,不僅在 11 個權(quán)威基準(zhǔn)測試中全面超越 GPT-4V、Gemini Pro 和 Claude 3 等頭部模型,更顛覆了人們對邊緣計算的認(rèn)知,讓手機端也能運行媲美云端的多模態(tài)大模型。
![]()
Nature Communications 地址:https://www.nature.com/articles/s41467-025-61040-5
01
80 億參數(shù)干翻 GPT-4V
MiniCPM-V 由三個關(guān)鍵模塊組成:視覺編碼器、壓縮層和 LLM。輸入圖像首先通過視覺編碼器進(jìn)行編碼,采用自適應(yīng)視覺編碼方法,然后,視覺標(biāo)記由壓縮層進(jìn)行壓縮,該層采用具有一層交叉注意力的感知器重采樣結(jié)構(gòu),最后,壓縮后的視覺標(biāo)記以及文本輸入被輸入到 LLM 中進(jìn)行條件文本生成。
![]()
圖源:Nature
作為面向邊緣設(shè)備的高效多模態(tài)大語言模型,MiniCPM-V 系列的技術(shù)創(chuàng)新主要體現(xiàn)在自適應(yīng)視覺編碼、漸進(jìn)式多模態(tài)學(xué)習(xí)、對齊優(yōu)化及邊緣部署優(yōu)化四大維度。
為解決高分辨率圖像編碼的效率與有效性難題,MiniCPM-V 采用了分層處理策略,將圖像分割為最多 10 個切片,每個切片調(diào)整至與視覺編碼器預(yù)訓(xùn)練設(shè)置匹配的分辨率和縱橫比,接著通過 ViT 編碼器將每個切片轉(zhuǎn)換為 1024 個視覺令牌,再經(jīng)壓縮層將 token 數(shù)量大幅縮減,最后引入空間 schema 標(biāo)記各切片在原圖中的位置關(guān)系,確保全局信息完整性,相比傳統(tǒng)方法顯著降低了計算量與內(nèi)存占用。
在模型訓(xùn)練階段,MiniCPM-V 通過大規(guī)模圖文對實現(xiàn)視覺模塊與語言模型的空間對齊,分三階段逐步擴展輸入分辨率并引入 OCR 數(shù)據(jù)增強文本識別能力;監(jiān)督微調(diào)階段整合高質(zhì)量視覺問答數(shù)據(jù),而后再通過 RLAIF-V 方法,通過開源模型生成多版本響應(yīng)并拆分原子聲明進(jìn)行真實性評分,最終利用 DPO 算法優(yōu)化偏好學(xué)習(xí),能有效降低幻覺率。
而真正讓 MiniCPM-V 有希望 “顛覆行業(yè)” 的,是其在邊緣設(shè)備上的高效部署能力。
傳統(tǒng)多模態(tài)模型只能在云端運行,而 MiniCPM-V 通過 4 位量化、內(nèi)存序貫加載、目標(biāo)設(shè)備編譯優(yōu)化、自動參數(shù)搜索及 NPU 加速等技術(shù),實現(xiàn)了在智能手機、PC 等邊緣設(shè)備上的高效運行,在內(nèi)存需求從 16-17G 降至 5G 的情況下,實現(xiàn)了編碼延遲從 50.5s 降至 17.0s,視覺編碼時間縮短 65%,減少了 45.2% 圖像處理時間。
在 11 項公開基準(zhǔn)測試中,80 億參數(shù)的 MiniCPM-Llama3-V2.5 展現(xiàn)出顯著優(yōu)勢:在 OpenCompass 評分中超越 GPT-4V(2023.11.16 版本)、Gemini Pro 和 Claude 3 等專有模型,同時在 OCRBench、TextVQA 等文本識別任務(wù)上優(yōu)于 Qwen-VL-Max 等開源模型,表格轉(zhuǎn) Markdown 等實用功能表現(xiàn)突出。與強大的專有模型相比,MiniCPM-Llama3-V 2.5 在參數(shù)數(shù)量顯著更少的情況下實現(xiàn)了更好的性能,更適合廣泛應(yīng)用。
![]()
圖源:Nature
此外,MiniCPM-V 模型也展現(xiàn)出強大的 OCR 能力,包括場景文本、文檔和截圖理解。模型在 OCRBench、TextVQA 和 DocVQA 上優(yōu)于 1.7B–34B 的開源 MLLMs,20 億參數(shù)的 V2.0 版本性能超過同規(guī)模模型,甚至媲美 80 億參數(shù)模型;幻覺率在 Object HalBench 上低于 GPT-4V。
![]()
圖源:Nature
效率方面,MiniCPM-V 的推理計算量顯著更低。MiniCPM-Llama3-V 2.5 的視覺 token 數(shù)量范圍是(96,960),低于 LLaVA-NeXT-Llama-3-8B 的(1728,2880),使得其在推理速度、首 token 延遲、內(nèi)存使用和功耗方面更適配實際設(shè)備應(yīng)用。
不過,盡管性能表現(xiàn)良好,但研究人員也表示,當(dāng)前的 MiniCPM-V 模型仍存在一些局限性,在多模態(tài)理解能力和推理效率方面以及將能力擴展到其他模態(tài)方面仍有很大的改進(jìn)空間。
02
為什么完成從 "云端依賴" 到 "端側(cè)自由" 的跨越很重要?
在我們看來,這篇論文的意義遠(yuǎn)不止于技術(shù)突破,其核心觀點在于,如果能實現(xiàn)多模態(tài)大模型從云端到端側(cè)的全面轉(zhuǎn)型,或許整個行業(yè)能迎來一個新的 “iPhone” 時刻,開啟端側(cè) AI 的黃金時代。
多模態(tài)大模型的快速發(fā)展為理解、推理和交互的多模態(tài)能力帶來了飛躍,不僅從根本上重塑了人工智能研究和產(chǎn)業(yè)格局,也為通往下一階段人工智能指明了路徑。
然而,當(dāng)前的多模態(tài)大模型仍遠(yuǎn)未達(dá)到實際應(yīng)用于現(xiàn)實世界的水平,最主要的原因在于多模態(tài)大模型龐大參數(shù)數(shù)量帶來的沉重計算負(fù)擔(dān),使得大多數(shù)模型只能部署在高性能云服務(wù)器上。這一局限性不僅導(dǎo)致了巨大的能源消耗,還限制了多模態(tài)大模型在移動設(shè)備、能源敏感場景、無穩(wěn)定網(wǎng)絡(luò)連接等離線環(huán)境中的潛在應(yīng)用范圍。
此外,對于多模態(tài)大模型來說,智能手機和計算機等邊緣設(shè)備由于散熱、尺寸限制和功耗等因素,往往面臨資源限制。
在部署模型時,最關(guān)鍵的兩大限制是內(nèi)存容量和 CPU/GPU 處理速度。高性能服務(wù)器通常擁有龐大的內(nèi)存容量,往往超過 100GB 甚至 1TB,相比之下,手機的內(nèi)存通常在 12GB 到 16GB 之間,這對于 MLLM 部署可能不足。
另一方面,智能手機中 CPU 的整體處理速度明顯較慢。對比來看,驍龍 8 Gen3 只有 8 個 CPU 核心,Intel Xeon Platinum 8580 則達(dá)到了 60 個 CPU 核心,功效方面,高通 Adreno 750 只有 6 TFLOPS,而 NVIDIA 4090 則可以達(dá)到 83 TFLOPS。
也正因此,在行業(yè)越來越關(guān)注輕量級多模態(tài)大語言模型的當(dāng)下,面壁智能提出了可在邊緣設(shè)備上部署的 MiniCPM-V 系列,場景涵蓋手機、個人電腦、車輛和機器人等更廣泛的設(shè)備范圍。
MiniCPM-V 的理念是在性能和效率之間取得良好平衡,有望成為多模態(tài)大模型小型化趨勢的一個代表案例。
根據(jù)研究人員的說法,在總結(jié)多模態(tài)大模型在性能、參數(shù)和發(fā)布時間方面的最新發(fā)展后,可以觀察到一條類似摩爾定律的趨勢:達(dá)到 GPT-4V 級別性能的模型大小隨著時間的推移迅速減小,這種現(xiàn)象或許可以被稱為 MLLMs 的摩爾定律。
同時,手機和個人電腦等邊緣設(shè)備的計算能力正在穩(wěn)步增加,這兩種趨勢的融合表明,可在邊緣設(shè)備上部署的可用(例如 GPT-4V 級別)多模態(tài)大模型很快就會落地。
這種離線智能的實現(xiàn),讓端側(cè)設(shè)備完成了從功能機到智能機的跨越,設(shè)備不再是云端顯示器,而是成為真正的智能主體。
![]()
在多臺邊緣設(shè)備上部署 MiniCPM-V。得益于部署優(yōu)化技術(shù),MiniCPM-Llama3-V 2.5 可以在手機和個人電腦上高效運行,提供可接受的延遲和吞吐量(圖源:Nature)
在端側(cè)智能的需求下,MiniCPM-V 能夠登上《Nature Communications》,原因之一或許在于其揭開了這場智能革命的一角,推動著 AI 從 "少數(shù)人的工具" 走向 "大眾的能力"的變化。當(dāng) 80 億參數(shù)的模型能在手機上流暢運行,普通人也能在更安全、更多元的場景下享受多模態(tài)智能。
隨著邊緣計算能力的持續(xù)提升和模型效率的不斷優(yōu)化,AI 普及化的下一個爆發(fā)點,將出現(xiàn)在每個人的指尖之下、設(shè)備之中。邊緣智能的時代,正在加速到來。
![]()
未經(jīng)「AI科技評論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!
公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán),轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.