專訪vivo高級副總裁、首席技術官施玉堅

2026-02-04 13:49:22　來源: 愛集微

河北舉報

分享至

AI正在成為新的UI，科技和人的關系也因此被重新定義。從邊緣到云端，從數(shù)字空間到物理世界，AI已經(jīng)融進手機、PC、眼鏡、汽車等智能終端，融進我們每一次看、觸、說、動的自然瞬間。在這樣的變革中，高通正與生態(tài)伙伴一起，讓終端設備從“跑應用的工具”，進化為能夠理解、學習、并提前感知用戶需求的個人智能體——讓每臺設備都更貼心、更聰明，也更懂你。

歡迎來到《高朋滿座話未來》，本期我們特邀vivo高級副總裁、首席技術官施玉堅先生，一同聆聽他的創(chuàng)新實踐與戰(zhàn)略思考。

技術是工具，讓人感受幸福抵達美好才是目的。

——vivo高級副總裁、首席技術官施玉堅

“V單”已經(jīng)成了用戶口中的熱梗，vivo X200 Ultra也被稱為“手機里的單反”。下一代Ultra，你們打算怎么繼續(xù)卷影像？是更強的夜景、AI修圖，還是要把“拍視頻像拍電影”變成標配？

施玉堅：我們去年推出的vivo X200 Ultra，用戶給了它一個特別親切的名字——“V單”。這背后，是用戶對我們的認可，“V單”這個稱號，對我們既是榮譽，更是責任。它意味著，X數(shù)字系列的Ultra，代表的必須是vivo影像技術的巔峰，是移動影像的“專業(yè)標桿”。所以，下一代Ultra的演進，絕不會是參數(shù)的簡單疊加，更是以驍龍8系移動平臺強大的影像算力為底座，實現(xiàn)更深度的軟硬一體協(xié)同。我們的核心思路是：讓“V單”不只是拍照極強的手機，更是“新內容創(chuàng)作者”手中的專業(yè)全能創(chuàng)作設備。

這群“新內容創(chuàng)作者”，是專業(yè)的，也是務實的。他們不只需要極致的畫質，更需要一套可靠、高效、能應對復雜場景的創(chuàng)作系統(tǒng)。因此，我們的方向非常明確：

第一，在硬件上，做“無可爭議的巔峰”。我們會繼續(xù)堅持“大師級鏡頭群”的路線，在廣角、主攝、長焦每一個焦段上，都追求行業(yè)最好的光學素質與一致性。特別是，我們會將行業(yè)最好的增距鏡方案做到更成熟，讓長焦不只是“拍得遠”，更是“每一焦段都畫質過硬”，實現(xiàn)真正的全焦段專業(yè)覆蓋。硬件，是我們一切體驗的根基，這個投入不會有任何動搖。

第二，在視頻上，實現(xiàn)“專業(yè)創(chuàng)作的平權”。“拍視頻像拍電影”不能只是一句口號，它必須成為下一代Ultra的基礎體驗和創(chuàng)作標配。我們會在視頻賽道進行更早、更深入的底層布局。這意味著，不僅是更高的規(guī)格，更是電影工業(yè)級色彩科學、多鏡頭流暢變焦，以及強勁的端側AI算力對復雜場景的實時優(yōu)化。我們要讓單兵作戰(zhàn)的創(chuàng)作者，也能擁有接近專業(yè)團隊的視頻表達工具，這是我們對“新內容創(chuàng)作者”最重要的承諾。

第三，在場景上，夯實“山頂也是VIP”的標桿，同時在新的高頻場景建立口碑。我們會繼續(xù)鞏固在演唱會場景的絕對領先地位。這不僅是長焦的能力，更是一整套針對極限暗光、復雜光源、高速運動的軟硬件融合解決方案。“演唱會神器”的口碑，是我們與用戶共創(chuàng)的成果，是Ultra系列最閃亮的標志，必須繼續(xù)夯實。

同時，我們將大力開拓旅拍市場。將35mm的人文敘事、超長焦的空間壓縮，以及卓越的HDR和夜景能力，深度融合到旅行中的風光、人像、街拍等全場景。讓創(chuàng)作者無論身處何地，都能隨時、隨手、隨心創(chuàng)作出高質量的作品。

總之，下一代Ultra的“卷”，是向著“專業(yè)創(chuàng)作生態(tài)系統(tǒng)”的深度整合。它的目標，是讓“V單”成為創(chuàng)作者最信任、最愿意帶在身邊的那個設備——無論是拍一張有故事感的照片，還是記錄一段有電影感的旅程，或是捕捉一場瞬息萬變的演唱會。

我們卷影像的終極目的，始終是：讓專業(yè)創(chuàng)作更簡單，讓動人瞬間更永恒。

藍心大模型已經(jīng)落地影像、語音場景，未來能不能做到“輕量化”，讓千元機也能跑AI？比如離線修圖、離線對話，不用流量、不怕斷網(wǎng)，這是不是你們的“終極目標”？

施玉堅：把藍心大模型落地到更多機型實現(xiàn)普惠一直是我們的追求，這是循序漸進的過程，需要技術端和生態(tài)端的共同突破。

技術上，聚焦模型參數(shù)小型化和高性能是我們核心方向。通過跟高通的緊密合作，軟硬協(xié)同和架構優(yōu)化提升推理能力，結合驍龍移動平臺上NPU硬件加速提升運算效率、降低功耗。現(xiàn)階段我們已實現(xiàn)2bit和4bit混合量化技術將模型體積和內存占用降低77%以上，性能加速技術讓3B的極限出詞性能突破220token/s。極致的性能奠定規(guī)模化應用基礎。

生態(tài)上，端側AI普及需要更多的行業(yè)協(xié)同。我們會持續(xù)與產業(yè)鏈廠商共建低成本解決方案，并探索端側模型能力開放，以技術迭代和量產規(guī)模效應，持續(xù)降低硬件配置門檻。

離線修圖、離線對話等功能不僅是擺脫網(wǎng)絡依賴和硬件限制，更是在端側實現(xiàn)更加了解用戶的“個人化智能”。這不僅是技術層面的突破，更是用戶價值的回歸——讓每一位用戶都能低成本享受更加個人化、更安全、更便捷的智能服務。隨著模型架構革新、芯片成本下降和開發(fā)工具鏈成熟，端側AI向千元機滲透是必然趨勢，我們會持續(xù)投入技術研發(fā)，與行業(yè)伙伴共同推動這一目標早日實現(xiàn)。

vivo在影像上很能打，iQOO在性能和游戲上拉滿，現(xiàn)在還有vivo Vision MR頭顯，把AI“上手”做到AI“上頭”。未來有沒有可能把手機、XR和AI打通，讓用戶在打游戲、拍大片、甚至空間互動里都能無縫切換？如果可以劇透一點，您覺得最酷的場景會是什么？

施玉堅：將手機、MR（混合現(xiàn)實）和AI能力打通，并非一個設想，而是vivo正在推進的核心戰(zhàn)略布局。其目標是構建一個以“用戶”為中心，由手機、MR混合現(xiàn)實頭顯設備，甚至未來的家庭機器人構成的全場景智能世界，而AI正是串聯(lián)這一切的“大腦”或者說是“神經(jīng)系統(tǒng)”。

未來的融合場景將遠超簡單的設備投屏，而是帶來體驗的本質變革，游戲和影像都有值得期待的“酷炫場景”：

在游戲場景中，玩家將從“操控角色”到“化身入場”。比如，你正在用iQOO手機玩一款大型游戲。當你戴上vivo Vision頭顯，游戲不會中斷，而是瞬間從手機屏幕無縫遷移至你客廳的立體空間。你不再用手指滑動屏幕操控角色，而是通過眼動和手勢，以“第一人稱視角”在虛實融合的游戲場景中直接探索、戰(zhàn)斗。這主要依賴于MR頭顯的低延時VST（視頻透視）技術、高精度手勢/眼動追蹤，以及手機與頭顯間算力的協(xié)同分配。

而vivo“影像-顯示”生態(tài)閉環(huán)的深化，以及端側多模態(tài)大模型在實時理解場景和進行視覺生成方面的能力，可以將影像從“拍攝記錄”轉變成“創(chuàng)造世界”。比如，你用vivo X300 Ultra的專業(yè)模式拍攝了一段孩子吹滅生日蠟燭的“空間視頻”。在家庭聚會時，你與家人戴上MR頭顯，不僅可以“沉浸式回看”，還能調用AI能力，在三維空間中為這段記憶添加魔法特效——比如讓閃爍的燭光化作飛舞的星光，或讓蛋糕上的卡通角色活過來。你甚至可以用手勢“布置”一個虛擬的生日主題空間，與真實場景融合。

vivo成立30年來，我們始終相信：技術是工具，讓人感受幸福抵達美好才是目的。在下一個十年，我們會繼續(xù)與高通等伙伴同心同行，通過全體系的創(chuàng)新，讓科技更有溫度。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.