<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      開源!強(qiáng)效果,高性能,嚴(yán)隱私?我全都要---OPPO 終端大模型實(shí)踐

      0
      分享至

      當(dāng)前端側(cè)多模態(tài)大模型普遍面臨性能不足、能力有限、適配性差等問題,難以滿足端側(cè)對高性能、強(qiáng)隱私、低延遲的需求,成為制約下一代 AI 手機(jī)發(fā)展的關(guān)鍵。

      為此,OPPO AI 中心推出開源的全鏈路適配的端側(cè)多模態(tài)大模型 AndesVL。該模型兼具 SOTA 水平的通用多模態(tài)理解推理能力與端側(cè)專項(xiàng)優(yōu)勢,含 0.6B-4B 四檔尺寸套件,支持多場景靈活部署,還具備強(qiáng) GUI 與多語言能力,更將全面開源。其通過先進(jìn)技術(shù)實(shí)現(xiàn)端側(cè)效果與效率均衡,為端側(cè)多模態(tài)大模型應(yīng)用樹標(biāo)桿,助力 AI 手機(jī)等場景創(chuàng)新。AndesVL具有通用能力強(qiáng)、端側(cè)能力專、適用范圍廣、端側(cè)部署好、端測試配快等諸多優(yōu)勢。AndesVL浮點(diǎn)數(shù)模型在多個領(lǐng)域共30余個benchmark上取得相近尺寸模型的SOTA效果,端側(cè)部署的模型實(shí)現(xiàn)高達(dá)6.7倍的峰值解碼加速比以及1.8BPW的壓縮效率。

      技術(shù)背景

      近年來,多模態(tài)大模型已在云端各類場景的應(yīng)用中取得顯著成功,而如何在智能手機(jī)等終端設(shè)備上充分發(fā)揮多模態(tài)大模型的能力,是下一代AI手機(jī)能否成功的關(guān)鍵。端側(cè)應(yīng)用亟需多模態(tài)大模型具備高性能、強(qiáng)隱私、低延遲的能力,但目前的端側(cè)多模態(tài)大模型普遍存在性能不足、能力有限、適配性差的問題。

      為此,OPPO AI中心大模型算法團(tuán)隊(duì)推出國內(nèi)首個全鏈路適配的端側(cè)多模態(tài)大模型——AndesVL。該系列模型不僅具備廣泛適用的SOTA水平的多模態(tài)理解和推理能力,還實(shí)現(xiàn)了端側(cè)化部署與業(yè)務(wù)場景應(yīng)用的無縫對接,能夠快速部署、加速推理并廣泛應(yīng)用于智能AI手機(jī)等端側(cè)場景。全系列模型包含0.6B至4B四個階梯尺寸的套件,支持不同資源環(huán)境下的配置與應(yīng)用。除具備通用多模態(tài)識別、理解和推理能力外,AndesVL還具有強(qiáng)大的GUI能力和多語言能力,全面適配多樣化、全球化的手機(jī)端側(cè)應(yīng)用。此外,AndesVL將全面開源,為端側(cè)多模態(tài)大模型的部署與應(yīng)用樹立標(biāo)桿,同時促進(jìn)產(chǎn)業(yè)內(nèi)相關(guān)技術(shù)和應(yīng)用的全面快速發(fā)展。

      具體而言,AndesVL主要有以下幾個亮點(diǎn):

      • 通用能力強(qiáng):AndesVL對比同參數(shù)規(guī)模的開源模型在公開評測集上綜合達(dá)到SOTA水平、30多個評測集上達(dá)到Top1的精度,能力涵蓋數(shù)學(xué)推理能力、OCR識別能力、圖文理解和知識能力、多圖理解以及幻覺抑制等。
      • 端側(cè)能力專:AndesVL針對手機(jī)端側(cè)的多語言、GUI理解需求進(jìn)行專項(xiàng)提升,使模型兼顧通用能力的同時,在這兩項(xiàng)端側(cè)相關(guān)能力上也達(dá)到SOTA。
      • 適用范圍廣:為滿足不同資源限制和多樣性應(yīng)用的需求,AndesVL提供0.6B、1B、2B、4B共4個階梯尺寸的模型組合套裝。同時,提供各尺寸模型的Instruct版和Thinking版模型,兼顧效率和效果,既適用于高效的理解生成應(yīng)用需求也能應(yīng)對復(fù)雜的數(shù)學(xué)推理規(guī)劃應(yīng)用的挑戰(zhàn)。
      • 端側(cè)部署好:基于先進(jìn)的稀疏化技術(shù)、量化感知訓(xùn)練技術(shù)和編解碼加速技術(shù),實(shí)現(xiàn)端側(cè)效果和效率的完美均衡,實(shí)現(xiàn)從云端模型到端側(cè)模型的跨越。
      • 端側(cè)適配快:以1+N LoRA架構(gòu)支持多場景部署,以QALFT技術(shù)實(shí)現(xiàn)場景獨(dú)立迭代更新,端側(cè)也能實(shí)現(xiàn)和云端一樣的高效靈活。





      模型架構(gòu)





      AndesVL是面向?qū)嶋H端側(cè)部署開發(fā)的大模型,因此從架構(gòu)設(shè)計起,就綜合考慮模型能力和端側(cè)資源、功耗限制的均衡。為適應(yīng)不同資源限制下的端側(cè)化運(yùn)行場景,AndesVL 系列模型在統(tǒng)一的架構(gòu)模式下具備參數(shù)范圍從0.6B到4B的4個不同尺寸模型,每個模型具有Instruct和thinking兩個版本。統(tǒng)一的架構(gòu)有利于模型的快速開發(fā)迭代和部署應(yīng)用,不同的模型尺寸適應(yīng)不同的需求和資源限制場景,而通用指令版和推理版能分別應(yīng)對通用指令執(zhí)行和強(qiáng)推理的不同應(yīng)用場景需求。

      具體而言,模型結(jié)構(gòu)包括三部分:視覺編碼器(ViT)、多層感知器(MLP)和大語言模型(LLM)。視覺編碼器的選型上,1-4B版本的采用AimV2-300M,相比更大、更復(fù)雜的編碼器(如 Qwen2VL-ViT),其尺寸和架構(gòu)設(shè)計在功耗和部署適配性上都更適合端側(cè)使用;應(yīng)對0.6B模型部署資源限制更為嚴(yán)格的要求,則采用更小尺寸的SigLIP-2-base 作為視覺編碼器,在保證效果的同時盡可能減少資源消耗。在基礎(chǔ)的視覺編碼器上,AndesVL 加入了二維旋轉(zhuǎn)位置嵌入(2D-RoPE),借助其外推能力,使模型能有效處理高低不同分辨率圖像的輸入。此外,視覺編碼器基于Native Resolution ViT(NaViT) 策略直接處理任意分辨率的輸入,能高效處理任意寬高比和分辨率的圖像,同時采用像素重排 (pixel shuffle) 無損壓縮序列長度,提高處理性能。 在大語言模型部分,AndesVL采用成熟的Qwen3系列語言模型,以支持Instruct和Thinking兩種模式的模型實(shí)現(xiàn)。

      訓(xùn)練方案

      1、預(yù)訓(xùn)練階段

      AndesVL 的預(yù)訓(xùn)練階段包含三個步驟:視覺-語言對齊、視覺-語言聯(lián)合預(yù)訓(xùn)練和多任務(wù)預(yù)訓(xùn)練:



      • 視覺-語言對齊

      該階段訓(xùn)練除進(jìn)行視覺模態(tài)到語言模態(tài)的對齊外,重點(diǎn)訓(xùn)練以充分發(fā)揮新引入的二維旋轉(zhuǎn)位置嵌入的潛能。訓(xùn)練第一階段使用大量低分辨率數(shù)據(jù)(最高 896×896 像素)進(jìn)行預(yù)訓(xùn)練;第二階段則在此基礎(chǔ)上繼續(xù)使用更高分辨率數(shù)據(jù)(最高1792×1792 像素)進(jìn)行微調(diào)。為保持語言模型穩(wěn)定性,該階段主要使用的數(shù)據(jù)為圖像描述(Captions)、光學(xué)字符識別(OCR)數(shù)據(jù)和視覺問答(VQA)等較為通用的視覺語言對齊數(shù)據(jù)。

      • 視覺-語言聯(lián)合預(yù)訓(xùn)練

      視覺-語言聯(lián)合預(yù)訓(xùn)練階段解凍 LLM 的參數(shù),并以相對較低的學(xué)習(xí)率進(jìn)行全參數(shù)預(yù)訓(xùn)練,同時此階段將 LLM 的上下文窗口從 2,048 擴(kuò)展到 8,192。

      這一階段的訓(xùn)練數(shù)據(jù)主要由圖文交錯的數(shù)據(jù)組成,這將傳統(tǒng)的純文本預(yù)訓(xùn)練擴(kuò)展為包含圖像輸入的形式。為了保留模型的純文本處理能力,提升指令理解能力和基本的視覺理解能力,他們在訓(xùn)練中也混入了一部分純文本數(shù)據(jù)、一定數(shù)量的VQA數(shù)據(jù)和第一階段中用于視覺-語言對齊的數(shù)據(jù)。為防止單向自回歸的 Transformer 中圖像出現(xiàn)在序列末尾時導(dǎo)致無法有效學(xué)習(xí)的問題,訓(xùn)練時采取隨機(jī)位置替換的方式,即以 50% 的概率隨機(jī)將圖像從原始位置提前至文本內(nèi)容之前,并用對應(yīng)的索引代替原圖像位置。

      相比于Instruct版的訓(xùn)練,Thinking版模型從此階段起就開始引入大量長推理數(shù)據(jù),包括圖文混合的長推理數(shù)據(jù)和純文本的長推理數(shù)據(jù),在保持原LLM的數(shù)學(xué)推理能力的同時,激活多模態(tài)模型的長推理能力。

      • 多任務(wù)預(yù)訓(xùn)練

      在此階段,AndesVL使用標(biāo)注數(shù)據(jù)的有監(jiān)督學(xué)習(xí),并專注于對答案部分的文本token計算損失。這一階段的主要數(shù)據(jù)類型包括通用的視覺問答(VQA)、圖像描述(Captions)、光學(xué)字符識別(OCR)數(shù)據(jù)和圖文長推理數(shù)據(jù),同時也引入了特定任務(wù)的數(shù)據(jù),例如定位(Grounding)和用戶界面(GUI)相關(guān)數(shù)據(jù)。同樣的,這個階段的Thinking模型也引入了大量的長推理數(shù)據(jù)。為了更好地學(xué)習(xí)高分辨率數(shù)據(jù)中的信息,在此階段將 ViT 的圖像塊輸入長度從4,096 增加到了 16,384。同時LLM的序列長度也從8,192擴(kuò)展到32,768。



      2、后訓(xùn)練階段

      AndesVL的后訓(xùn)練主要應(yīng)用的技術(shù)包括:監(jiān)督微調(diào) (SFT)和強(qiáng)化學(xué)習(xí)對齊(RL)。其中RL階段對Instruct模型和Thinking模型分別使用混合偏好優(yōu)化 (MPO)和GRPO。因此后訓(xùn)練數(shù)據(jù)包含三部分,通用的微調(diào)數(shù)據(jù)、MPO數(shù)據(jù)和GRPO數(shù)據(jù)。

      • 監(jiān)督微調(diào)

      監(jiān)督微調(diào)的通用數(shù)據(jù)集經(jīng)過精心設(shè)計,能夠?qū)⒍喾N輸入模態(tài)引入模型,從而增強(qiáng)強(qiáng)大的表征學(xué)習(xí)能力。該數(shù)據(jù)集涵蓋了多種任務(wù)目標(biāo),例如圖像描述、圖像問答、文本摘要、代碼生成等。



      監(jiān)督微調(diào)數(shù)據(jù)經(jīng)過多階段的數(shù)據(jù)過濾流程,包括單模態(tài)過濾、任務(wù)聚類及基于LLM的評分機(jī)制,最終構(gòu)建了一個包含約1600萬條數(shù)據(jù)的高質(zhì)量微調(diào)數(shù)據(jù)集。

      • 混合偏好優(yōu)化

      直接偏好優(yōu)化(DPO)已成為將大語言模型(LLM)與人類偏好對齊的主流方法,由于其在語言模型對齊中的良好表現(xiàn),近期一些研究已將 DPO 應(yīng)用于多模態(tài)場景中。然而,在多模態(tài)大語言模型中應(yīng)用 DPO 仍面臨兩大挑戰(zhàn):一是缺乏全面且高質(zhì)量的多模態(tài)推理偏好數(shù)據(jù)集,二是 DPO 本身無法評估單個回答的絕對質(zhì)量。為應(yīng)對這些問題,InternVL團(tuán)隊(duì)提出了一種新的方法——混合偏好優(yōu)化(MPO),該方法已在多個多模態(tài)推理評估任務(wù)中展現(xiàn)出更優(yōu)的性能表現(xiàn)。

      AndesVL采用了MPO的訓(xùn)練方法,并針對性設(shè)計了數(shù)據(jù)構(gòu)造pipeline,由此生成了大量MPO訓(xùn)練數(shù)據(jù),結(jié)合開源數(shù)據(jù)MMPR,顯著提升了模型的整體能力。



      • GRPO訓(xùn)練

      根據(jù)DeepSeek的實(shí)驗(yàn)結(jié)論,小模型可以從大模型中繼承思維鏈的推理能力,因此AndesVL采用了數(shù)據(jù)蒸餾的方式,通過設(shè)計數(shù)據(jù)構(gòu)造的pipeline來大批量獲取高質(zhì)量的多模態(tài)長思維鏈數(shù)據(jù)。

      借鑒Qwen3思考模式切換的設(shè)計思路,AndesVL采用了兩類數(shù)據(jù)集:一種包含詳細(xì)推理步驟的“有思考過程”數(shù)據(jù)集,另一種省略推理過程的“無思考過程”數(shù)據(jù)集。這種策略使得模型可以在思考和不思考之間靈活切換。

      GRPO階段我們采用多模態(tài)推理數(shù)據(jù)和純文本推理數(shù)據(jù)的兩階段訓(xùn)練方案,同時根據(jù)數(shù)據(jù)難度從易到難做課程學(xué)習(xí)充分激發(fā)模型的推理能力,使其在數(shù)學(xué)推理等領(lǐng)域的效果大幅提升,同時保持非推理領(lǐng)域的效果。

      端側(cè)部署解決方案:算法優(yōu)化與高效部署的創(chuàng)新實(shí)踐

      為應(yīng)對端側(cè)AI規(guī)?;涞氐奶魬?zhàn),OPPO基于自研的AndesVL多模態(tài)模型,構(gòu)建了一套從底層算法優(yōu)化到上層部署架構(gòu)的完整技術(shù)方案。該方案聚焦于算法優(yōu)化與端側(cè)部署兩大方向,通過在模型壓縮與架構(gòu)設(shè)計上的協(xié)同創(chuàng)新,實(shí)現(xiàn)了推理效率、部署靈活性與迭代經(jīng)濟(jì)性的顯著提升。

      1、算法優(yōu)化:稀疏化+QAT,奠定高效部署基石

      在算法層面,我們通過前沿的稀疏化壓縮與量化感知訓(xùn)練技術(shù),從源頭削減模型的計算與存儲開銷,同時結(jié)合先進(jìn)編解碼算法,為端側(cè)高效推理奠定堅實(shí)基礎(chǔ)。

      模型稀疏化壓縮:突破75%稀疏度,BPW低至1.8+bit

      我們實(shí)現(xiàn)了大語言模型稀疏化技術(shù)的關(guān)鍵突破。OPPO與聯(lián)發(fā)科聯(lián)合優(yōu)化模型端側(cè)內(nèi)存壓縮技術(shù),通過算法與硬件的協(xié)同設(shè)計,在極小的效果損失前提下,將模型權(quán)重稀疏度提升至75%以上,平均每參數(shù)比特數(shù)(BPW)成功降至1.8bit以下,結(jié)合聯(lián)發(fā)科天璣9500芯片的硬件內(nèi)存壓縮技術(shù),OPPO實(shí)現(xiàn)模型端側(cè)內(nèi)存占用降低30.9%,推理速度提升45%。成功在壓縮率、推理速度與精度保持之間達(dá)成了高效平衡。

      量化感知訓(xùn)練(QAT):構(gòu)建從訓(xùn)練到部署的可預(yù)測通路

      我們構(gòu)建了覆蓋基模型與場景LoRA的雙重量化感知訓(xùn)練體系,確保量化模型在端側(cè)的效果可靠性與迭代效率。

      • 基模型QAT框架:支持權(quán)重(W2/W3/W4/W8)與激活(A8/A16)的細(xì)粒度混合精度配置。其核心創(chuàng)新在于建立了從“靜態(tài)QAT訓(xùn)練”到“端側(cè)PTQ結(jié)果”的無縫映射機(jī)制,有效消除了因校準(zhǔn)數(shù)據(jù)分布差異等因素引入的精度波動,大幅提升了模型在真實(shí)硬件上的表現(xiàn)確定性與穩(wěn)定性。
      • QALFT框架(Quantization-Aware LoRA Fine-Tuning):在“1+N LoRA”架構(gòu)下,不同的場景LoRA會產(chǎn)生不一樣的激活范圍,這導(dǎo)致基模型在量化過程中必須考慮所有場景的激活范圍才能保證最佳的量化效果,因此當(dāng)場景發(fā)生更新或新增時,都需要對基模型重新量化,這影響了端側(cè)模型的部署和迭代的效率。為了解決上述問題,我們與聯(lián)發(fā)科聯(lián)合開發(fā)了端側(cè)LoRA量化感知訓(xùn)練框架QALFT(Quantization-Aware LoRA Fine Tuning)。該技術(shù)通過在云端仿真端側(cè)已經(jīng)量化好的基模型的計算結(jié)果,實(shí)現(xiàn)對場景LoRA進(jìn)行量化感知訓(xùn)練,讓場景LoRA在訓(xùn)練階段擬合端側(cè)已經(jīng)產(chǎn)生的量化誤差?;赒ALFT框架,真正實(shí)現(xiàn)了場景的新增和更新彼此獨(dú)立,提升端側(cè)部署效率與靈活性,并最大程度保證端上的算法效果。



      QALFT框架的核心思想是模型、數(shù)據(jù)、訓(xùn)練器三方解耦,各組件可在不同訓(xùn)練流程中復(fù)用。同時,Runtime庫與上層設(shè)施隔離,保證訓(xùn)練流程可以在不同平臺快速遷移。通過使用QALFT訓(xùn)練套件,我們可以快速在MTK硬件平臺上進(jìn)行模型訓(xùn)練和部署。

      編碼壓縮與解碼加速:突破長上下文與自回歸生成瓶頸

      為克服長文本輸入與自回歸生成帶來的端側(cè)推理延遲,我們針對LLM的推理流程進(jìn)行了深度優(yōu)化。

      • 編碼壓縮:針對長提示下鍵值緩存(KV Cache)內(nèi)存暴漲的業(yè)界難題,我們基于長文本特征稀疏的特性,研發(fā)了端側(cè)專用編碼加速方案OKV。該方案通過對KV緩存進(jìn)行智能稀疏化,在僅保留25%緩存的條件下,效果即可媲美全量緩存,同時成功在端側(cè)支持了高達(dá)128K的上下文長度,為用戶流暢的長文本交互體驗(yàn)提供了核心技術(shù)保障。
      • 解碼加速(投機(jī)解碼):為破解自回歸解碼的串行瓶頸,提升端側(cè)模型的能耗效率,我們整合改進(jìn)了EAGLE-2、HASS等前沿投機(jī)解碼算法,結(jié)合OPPO的模型壓縮算法,AndesVL的峰值解碼加速比達(dá)到6.7倍,顯著提升了端側(cè)AI的響應(yīng)速度。

      2、端側(cè)部署:1+N LoRA架構(gòu)實(shí)現(xiàn)低成本、高靈活的規(guī)?;瘮U(kuò)展

      在部署架構(gòu)層面,我們創(chuàng)新性地采用了 “1+N LoRA” 策略,以一個強(qiáng)大的多模態(tài)基模型結(jié)合多個輕量級、可插拔的場景專用LoRA模塊,有效應(yīng)對端側(cè)設(shè)備資源受限與場景多樣化的雙重挑戰(zhàn)。

      該架構(gòu)允許在運(yùn)行時動態(tài)加載不同的LoRA來執(zhí)行相應(yīng)任務(wù),不僅顯著降低了新增功能所需的存儲空間與更新成本,更使得OPPO能夠基于同一基模型,快速發(fā)布并迭代多款運(yùn)行于AI設(shè)備上的端側(cè)應(yīng)用,實(shí)現(xiàn)了高效、經(jīng)濟(jì)的規(guī)模化部署與敏捷迭代。

      評測結(jié)果

      1、整體能力



      上表展示了不同多模態(tài)大模型 (MLLM) 在學(xué)術(shù)基準(zhǔn)測試中的詳細(xì)評估結(jié)果。4B-Thinking 模型70.9 分,比第二名InternVL3.5-4B 高出 3.2 分。在6大垂直領(lǐng)域,AndesVL-4B均取得第一的分?jǐn)?shù),顯示出其在各種多模態(tài)場景下的卓越性能。4B-instruct 在多個垂直領(lǐng)域同樣表現(xiàn)出色,尤其是在多圖像理解和多語言任務(wù)。AndesVL-2B-Thinking總分64.4,在同規(guī)模模型中排名第一,其在多圖像理解和幻覺緩解方面性能突出。1B和0.6B模型優(yōu)勢明顯,thinking和instruct模型分別位列同尺寸前兩名。特別是0.6B模型,相比InternVL3.5-1B等各大尺寸的模型,也具有一定優(yōu)勢。

      這些結(jié)果凸顯了AndesVL系列模型在處理一系列需要多模態(tài)感知、理解和推理的現(xiàn)實(shí)世界任務(wù)方面的出色能力。同時,0.6B-4B的多樣性的尺寸范圍結(jié)合其強(qiáng)大的多模態(tài)能力,AndesVL十分適合應(yīng)用于各類場景,特別是計算資源緊缺的手機(jī)移動場景。

      2、垂域能力

      • 數(shù)學(xué)和邏輯推理能力



      AndesVL-4B-Thinking在各類數(shù)學(xué)與推理基準(zhǔn)測試中以58.3的綜合得分位居榜首,特別是在MathVista、MathVerse和WeMath基準(zhǔn)測試中較先進(jìn)模型展現(xiàn)出顯著優(yōu)勢。AndesVL-2B-Thinking模型以45.7的綜合得分位列第二,與最高分49.9十分接近。此外,AndesVL的1B和0.6B模型在各自規(guī)模組別中僅在綜合得分上最高,而且在大多數(shù)單項(xiàng)基準(zhǔn)測試中也是第一。

      這些結(jié)果印證了訓(xùn)練策略的有效性:在預(yù)訓(xùn)練階段利用大規(guī)模、優(yōu)質(zhì)的長鏈思維鏈多模態(tài)數(shù)據(jù)激活推理能力后,在后訓(xùn)練階段通過強(qiáng)化學(xué)習(xí)顯著增強(qiáng)了模型的視覺-文本聯(lián)合推理能力。

      • 視覺文本理解能力



      AndesVL4B-Thinking模型以86.0的綜合得分在視覺文本任務(wù)中奪得第一,并在八項(xiàng)基準(zhǔn)測試中的四項(xiàng)取得最佳成績。同樣,AndesVL-4B-Instruct也取得84.8的優(yōu)異表現(xiàn)。特別在ChartQA上,AndesVL-4B-Thinking模型獲得90.4分,以4.4分的優(yōu)勢顯著超越此前最佳模型InternVL3.5-4B(86.0)。在DocVQA基準(zhǔn)測試中同樣觀察到類似的顯著優(yōu)勢。由于ChartQA和DocVQA都是以長文本圖像和復(fù)雜問題構(gòu)成,這個結(jié)果說明了AndesVL不僅能夠準(zhǔn)確識別長文本,更能運(yùn)用高級推理能力有效解決具有挑戰(zhàn)性的多模態(tài)問題。

      對于更小尺寸的模型,AndesVL-2B-Instruct、AndesVL-1B-Thinking和AndesVL-0.6B-Instruct模型均在各自規(guī)模組別中奪得第一,展現(xiàn)出全系列模型的優(yōu)秀視覺文本理解能力。

      • 多圖理解能力



      AndesVL-4B 在多項(xiàng)多圖像基準(zhǔn)中表現(xiàn)優(yōu)異,獲得67.8 的最高分。更小尺寸的模型依舊繼承了4B模型的優(yōu)勢,0.6B模型得分53.1,相比1B模型無明顯精度下降。這一優(yōu)勢表明,AndesVL 采用的先進(jìn)預(yù)訓(xùn)練策略和增強(qiáng)的訓(xùn)練數(shù)據(jù)集,通過同時理解和分析多幅圖像之間的關(guān)系,顯著提升了其捕捉和推理圖像間關(guān)系的能力。

      • 通用問答理解能力



      AndesVL 模型(4B、1B 和 0.6B)在各自尺寸中取得了最佳精度,2B 版本也獲得極具競爭力的成績。詳細(xì)分析顯示, AndesVL 在 MME 和 RealWorldQA 上展現(xiàn)出優(yōu)異性能。這表明我們的模型能夠提取魯棒圖像特征,并展現(xiàn)出強(qiáng)大的真實(shí)場景理解能力,能夠有效地處理復(fù)雜且動態(tài)的任務(wù)。

      • 幻覺抑制能力



      AndesVL 各尺寸模型均排名第一,4B 和 0.6B 模型分別得分74.8 和 65.9,與其他同尺寸模型相比有顯著優(yōu)勢,而且這種優(yōu)勢在更小尺寸模型上更加明顯。這表明我們的架構(gòu)在保持高精度的同時,還提供了優(yōu)異的幻覺緩解能力,即使在最小的 0.6B 版本中也依舊如此。

      • 多語言理解能力



      AndesVL 的 Thinking 和 Instruct 模型都展現(xiàn)出優(yōu)異的多語言能力,取得 64.9 的最高分,比之前的最佳模型 Ovis2-4B 高出 1.5 分。這種專業(yè)的多語言能力可以使模型的多模態(tài)能力能夠遷移到多個語種,從而將應(yīng)用擴(kuò)展到更廣泛、更多樣化的全球受眾。

      • UI理解能力



      AndesVL 模型在ScreenSpot和我們自建的 AndesUI 評測集上均取得了領(lǐng)先精度。這些結(jié)果共同證明了AndesVL在 UI 理解和應(yīng)用方面的豐富經(jīng)驗(yàn)和獨(dú)特的競爭優(yōu)勢。

      3、on-device效果和性能評測

      我們在多個公開評測集進(jìn)行端側(cè)精度和推理速度的評測,展示OPPO在端側(cè)模型精度優(yōu)化和推理加速方面的成果。

      • 量化感知訓(xùn)練



      Top1-accuracy體現(xiàn)了模型在量化前后解碼行為的一致性。我們在端側(cè)驗(yàn)證了經(jīng)過量化感知訓(xùn)練(QAT)前后的Ansdes-VL-4B進(jìn)行PTQ(W4A16)之后的精度,實(shí)驗(yàn)結(jié)果顯示OPPO自研的QAT訓(xùn)練框架可以顯著降低模型在端側(cè)的量化損失。

      • Cache Eviction



      我們成功將自研的OKV端側(cè)編碼壓縮方案應(yīng)用在OPPO亮點(diǎn)功能-通話摘要上,可以看到在50%壓縮率的實(shí)驗(yàn)條件下,相比SnapKV這一經(jīng)典方案,模型在rouge-1指標(biāo)上提升超過10%。在25%壓縮率下甚至媲美全量KV緩存效果。

      • Speculative Decoding



      結(jié)合自研的投機(jī)解碼算法、模型稀疏化及聯(lián)發(fā)科天璣9500芯片的硬件壓縮技術(shù),在AndesVL-4B上,我們實(shí)現(xiàn)了比無壓縮優(yōu)化的自回歸模型高達(dá)6.7倍的峰值解碼加速比。通過極致的模型壓縮,模型的BPW也大幅下降至1.8。

      AndesUI benchmark

      為增強(qiáng) AndesVL 對智能手機(jī) UI 的理解能力,OPPO多模態(tài)大模型團(tuán)隊(duì)構(gòu)建了一個專注于 UI 理解的數(shù)據(jù)集,名為 AndesUI。此數(shù)據(jù)集共收集了 90 款應(yīng)用,其中包括來自 OPPO 軟件商店的 65 款熱門下載應(yīng)用,覆蓋用戶高頻使用的多個類別,以及 25 款 ColorOS 預(yù)裝應(yīng)用。標(biāo)注人員被要求截取每款應(yīng)用中不同且具有異構(gòu)特性的頁面截圖,確保每張截圖包含獨(dú)特的布局和內(nèi)容。最終共收集了來自第三方應(yīng)用的 10000 張截圖和來自 ColorOS 預(yù)裝應(yīng)用的 2500 張截圖。

      得到以上圖片數(shù)據(jù)后人工對每張截圖中的所有控件進(jìn)行標(biāo)注,包括繪制邊界框、識別控件類型、記錄控件上可獲取的文字內(nèi)容、判斷其是否可點(diǎn)擊等信息。平均每張界面截圖生成約 18 個控件,訓(xùn)練集中共計包含 227000 個控件。

      最終構(gòu)建了基礎(chǔ)與進(jìn)階兩類數(shù)據(jù)。基礎(chǔ)數(shù)據(jù)包括定位與指代表達(dá)數(shù)據(jù)集,進(jìn)階數(shù)據(jù)則涵蓋整體描述性數(shù)據(jù)和自然語言問答對。最終訓(xùn)練集共生成 227000 條指代表達(dá)數(shù)據(jù)、186000 條定位數(shù)據(jù)、13000 條綜合描述數(shù)據(jù)以及 108000 條自然語言問答對。

      數(shù)據(jù)示例如下:





      模型輸出示例

      下面展示了AndesVL-4B模型在各個場景的輸出示例:















      未來展望

      OPPO多模態(tài)大模型團(tuán)隊(duì)提出的Andes-VL從模型架構(gòu)、訓(xùn)練方法、端側(cè)部署、模型應(yīng)用等多個方面提出了針對端側(cè)多模態(tài)大模型訓(xùn)練部署應(yīng)用的綜合解決方案。當(dāng)前該模型在綜合效果、數(shù)學(xué)推理、GUI理解、多語言都達(dá)到了同量級模型的領(lǐng)先水平,并開源相關(guān)模型推動行業(yè)技術(shù)進(jìn)步。

      未來該團(tuán)隊(duì)將會在視覺編碼器解決方案、后訓(xùn)練方案、知識蒸餾機(jī)制、融合文本視覺語音三模態(tài)的一體化模型等方向繼續(xù)發(fā)力,相信OPPO將不斷在手機(jī)端側(cè)實(shí)踐和應(yīng)用這些技術(shù),給用戶提供更安全、更快捷、更智能的交互體驗(yàn),也將推動整個行業(yè)向更高層次的技術(shù)革新邁進(jìn)。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      韓國特工與泰軍合作,潛入電詐園抓獲殺害韓國女人質(zhì)的中國籍綁匪

      韓國特工與泰軍合作,潛入電詐園抓獲殺害韓國女人質(zhì)的中國籍綁匪

      環(huán)球熱點(diǎn)快評
      2025-12-18 11:43:15
      這才對嘛!盧偉棄用強(qiáng)援,重用遼籃雙星,斬獲大勝,新星空砍32分

      這才對嘛!盧偉棄用強(qiáng)援,重用遼籃雙星,斬獲大勝,新星空砍32分

      萌蘭聊個球
      2025-12-19 21:45:02
      當(dāng)年斥巨資拍攝的10大爛片,每一部都是電影界的奇恥大辱

      當(dāng)年斥巨資拍攝的10大爛片,每一部都是電影界的奇恥大辱

      小微看電影
      2025-12-19 09:35:41
      林彪帶走所有王牌,只給他留下3000殘兵,8年后,他讓整個日本陸軍懷疑人生

      林彪帶走所有王牌,只給他留下3000殘兵,8年后,他讓整個日本陸軍懷疑人生

      寄史言志
      2025-12-16 22:45:14
      反轉(zhuǎn)反轉(zhuǎn)再反轉(zhuǎn)!狄龍自殺式防守送勇士兩罰1擲 太陽最后罰球絕殺

      反轉(zhuǎn)反轉(zhuǎn)再反轉(zhuǎn)!狄龍自殺式防守送勇士兩罰1擲 太陽最后罰球絕殺

      Emily說個球
      2025-12-19 12:45:42
      5歲廣東女孩走失,父親苦尋13年,女兒考入世界名校后終相認(rèn)

      5歲廣東女孩走失,父親苦尋13年,女兒考入世界名校后終相認(rèn)

      北有南梔
      2025-12-19 18:30:03
      華為Mate 80 GTS 曝光:麒麟9030 Pro+7.2英寸大屏!

      華為Mate 80 GTS 曝光:麒麟9030 Pro+7.2英寸大屏!

      科技堡壘
      2025-12-19 12:00:52
      秦昊一家五口出游很溫馨,伊能靜穿搭時尚又顯年輕,米粒很獨(dú)立

      秦昊一家五口出游很溫馨,伊能靜穿搭時尚又顯年輕,米粒很獨(dú)立

      君笙的拂兮
      2025-12-19 21:06:08
      李在明擬從中國迎回安重根遺骸安葬,可能埋葬在旅順,至今未找到

      李在明擬從中國迎回安重根遺骸安葬,可能埋葬在旅順,至今未找到

      環(huán)球熱點(diǎn)快評
      2025-12-19 16:09:58
      后續(xù)來了!小米車主誤踩電門被撞者離世,年僅30歲!小米背鍋?

      后續(xù)來了!小米車主誤踩電門被撞者離世,年僅30歲!小米背鍋?

      烏娛子醬
      2025-12-19 14:23:02
      最低-12℃!陜西今夜到明早有雨雪暴雪,出行注意→

      最低-12℃!陜西今夜到明早有雨雪暴雪,出行注意→

      91.6陜西交通廣播
      2025-12-19 15:41:44
      演員王傳君發(fā)文宣布退出電視劇拍攝

      演員王傳君發(fā)文宣布退出電視劇拍攝

      民間平哥
      2025-12-19 15:41:22
      2025國劇最高分!《反人類暴行》豆瓣開分8.5

      2025國劇最高分!《反人類暴行》豆瓣開分8.5

      新京報
      2025-12-19 17:46:22
      熱搜!牛股5分鐘閃崩12個點(diǎn),網(wǎng)友:炒股千萬別用曲面屏

      熱搜!牛股5分鐘閃崩12個點(diǎn),網(wǎng)友:炒股千萬別用曲面屏

      每日經(jīng)濟(jì)新聞
      2025-12-19 20:58:06
      片約不斷,演啥毀啥,央視《老舅》這倆戲混子,趁早收手吧

      片約不斷,演啥毀啥,央視《老舅》這倆戲混子,趁早收手吧

      查爾菲的筆記
      2025-12-18 16:03:46
      又一資金盤爆雷,碰瓷華為、港交所,宣稱年利率360%,崩盤前還二次收割

      又一資金盤爆雷,碰瓷華為、港交所,宣稱年利率360%,崩盤前還二次收割

      21世紀(jì)經(jīng)濟(jì)報道
      2025-12-19 16:17:00
      茅臺動真格了!1169元飛天無限量供應(yīng),百萬黃牛徹底慌了

      茅臺動真格了!1169元飛天無限量供應(yīng),百萬黃牛徹底慌了

      時間最美的安排
      2025-12-19 11:01:48
      北京最大奧萊“灣里”今天試營業(yè)!地鐵直達(dá),最全交通攻略請查收→

      北京最大奧萊“灣里”今天試營業(yè)!地鐵直達(dá),最全交通攻略請查收→

      環(huán)京零距離
      2025-12-19 21:26:22
      羽毛球總決賽:男單4強(qiáng)出爐3席!石宇奇2:0日本名將,豪奪3連勝

      羽毛球總決賽:男單4強(qiáng)出爐3席!石宇奇2:0日本名將,豪奪3連勝

      國乒二三事
      2025-12-19 19:22:25
      官媒發(fā)文,高調(diào)官宣37歲竇驍喜訊,網(wǎng)友:恭喜,終于等到這一天

      官媒發(fā)文,高調(diào)官宣37歲竇驍喜訊,網(wǎng)友:恭喜,終于等到這一天

      探長影視解說
      2025-12-19 09:40:58
      2025-12-19 23:48:49
      腦極體 incentive-icons
      腦極體
      從智能密鑰到已知盡頭
      3544文章數(shù) 167229關(guān)注度
      往期回顧 全部

      科技要聞

      許四清:具身智能的"ChatGPT時刻"還未到來

      頭條要聞

      普京:俄方愿在烏克蘭選舉期間暫時停止打擊

      頭條要聞

      普京:俄方愿在烏克蘭選舉期間暫時停止打擊

      體育要聞

      “惡龍”埃托奧,正在毀滅喀麥隆足球

      娛樂要聞

      曲協(xié)表態(tài)僅6天,郭德綱擔(dān)心的事還是發(fā)生

      財經(jīng)要聞

      日元加息,恐慌來了?貨幣三國殺

      汽車要聞

      “一體壓鑄”再引熱議 一旦受損真的修不起嗎?

      態(tài)度原創(chuàng)

      游戲
      手機(jī)
      教育
      旅游
      時尚

      CRPG 天花板煥新!《神界原罪 2》次世代版免費(fèi)升,聯(lián)機(jī)靠它絲滑

      手機(jī)要聞

      曝一加Turbo首發(fā)9000mAh級電池,雙杯齊發(fā)

      教育要聞

      近期湖北教育重磅利好,對家長們的意義!

      旅游要聞

      仙游!上榜!

      59天后的春晚,她必是焦點(diǎn)

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 亚洲精品成人| 四子王旗| 国产v自拍| 水蜜桃视频在线观看免费18| 99在线精品国自产拍中文字幕| 亚洲人妻av伦理| 日日干夜夜干| 九九re| 91孕妇精品一区二区三区| 亚洲成a人无码av波多野| 国产精品无码专区在线播放| 久久超碰97人人做人人爱| 日本中文字幕色| 国产啪视频免费观看视频| 国产在线观看91精品亚瑟| 免费国产好深啊好涨好硬视频| 亚洲乱码精品中文字幕| 亚洲一本大道无码av天堂| 极品人妻少妇| 国产一区二区三区精品综合| 天堂久久蜜桃一区二区三区| 永久免费无码网站在线观看| 国产一区二区三区高清在线观看| 4480yy亚洲午夜私人影院剧情| 久久久999| 女人被爽到高潮视频免费国产 | 国产69精品久久久久久人妻精品| 永靖县| 尹人香蕉久久99天天拍| 亚洲最大的成人网站| 亚洲欧美日本久久网站| 狠狠色婷婷久久综合频道日韩| 日本边添边摸边做边爱| 中文字幕久久久久人妻| 国产成人久久婷婷精品流白浆| 91你懂的| wwww免费网站| 中文亚洲字幕| 久久精品国产热久久精品国产亚洲| 国产精品久久久久久av| 日韩精品人妻中文字幕不卡乱码|