【CNMO科技消息】近日,據外媒報道,蘋果研究人員已成功開發出一款名為Ferret-UI Lite的全新設備端人工智能代理。這款輕量級模型能夠直接在設備上運行,并根據用戶的指令自主與各類應用程序的圖形界面進行交互。
![]()
據CNMO了解,這項研究是蘋果對多模態大語言模型,特別是其Ferret系列模型的持續探索。早在2023年底,蘋果就推出了名為“FERRET”的基礎模型,旨在讓AI理解圖像中的特定部分。此后,蘋果陸續發布了針對移動用戶界面(UI)理解的Ferret-UI及其增強版Ferret-UI 2。這些早期模型雖然功能強大,但模型參數較大,更側重于在服務器端運行。
![]()
此次發布的Ferret-UI Lite則代表了不同的研究方向——高效與輕量化。它是一個僅有30億參數的變體,其核心目標是在資源有限的設備上(如手機)實現強大的GUI(圖形用戶界面)代理功能。
研究人員指出,當前大多數GUI代理都依賴大型基礎模型,這些模型雖然推理和規劃能力強,但體積龐大、計算需求高,難以在設備端流暢運行。為了解決這一矛盾,Ferret-UI Lite通過一系列創新技術,實現了性能與體積的平衡。它采用了實時裁剪與放大技術:模型在初步分析屏幕后,會對其關注的區域進行動態裁剪和放大,再進行二次判斷。這有效彌補了小模型處理大量圖像信息的局限性。
![]()
研究結果顯示,盡管體積小巧,Ferret-UI Lite在多個基準測試中的表現,足以匹敵甚至超越參數規模高達其24倍的競品模型。它尤其擅長處理短期、低層次的操作任務。雖然在涉及多個步驟的復雜交互上表現尚有不足,但作為一款完全運行在設備端的AI代理,它提供了顯著優勢:所有數據處理都在本地完成,無需上傳至云端,極大地提升了用戶隱私和數據安全性。
據悉,與之前主要使用iPhone截圖進行測試的版本不同,Ferret-UI Lite的訓練和評估主要在Android、網頁及桌面GUI環境中進行。這或許反映了當前大規模GUI代理測試平臺的可獲取性現狀,但也展示了該模型跨平臺應用的潛力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.