【天極網手機頻道】12月10日,量子位MEET2026智能未來大會在北京啟幕。本屆大會以“共生無界?智啟未來”為主題,打造了一個跨領域、高密度的交流平臺。近三十位來自科技、產業及學術領域的領軍人物齊聚一堂,圍繞人工智能+、AI?Infra、智能終端、智能駕駛、低空經濟、能源電力等前沿科技話題發表前瞻觀點,展開深度對話。
高通公司AI產品技術中國區負責人萬衛星出席大會,并發表了以“混合AI:從云端到邊緣智能”為主題的演講。萬衛星指出,當前AI正從生成式AI向智能體AI演進;生態系統從單體模型轉向復合模型,將成為邁向智能體AI的基礎。他還在演講中特別提到,未來的AI體驗將朝著混合AI方向擴展。為達成這一愿景,高通已經通過量化壓縮、并行解碼、NPU及異構計算架構等技術創新,推動端側AI向更主動、更高效的服務形態發展,構建端云協同體系,為用戶提供更個性化的智能服務。
![]()
以下為演講全文:
大家上午好!我是高通技術公司萬衛星。今天我想跟大家分享一下高通在終端側AI以及混合AI上的成果和思考。
首先,我們來看一下AI應用在整個行業中的演進。第一個階段可以稱之為“感知AI”,包括大家比較熟悉的、傳統的自然語言處理、語音降噪、圖片識別和分割等AI技術,我們都稱為感知AI。這些技術其實在很多年前就已經在許多終端側設備上實現商業化落地。
第二個階段,是隨著ChatGPT的興起而來的。這一階段主要基于大量數據進行預訓練,并在人類監督下完成某類具體任務,包括文生圖、聊天機器人,或是利用大模型進行翻譯等,這些都屬于“生成式AI”的范疇。
第三個階段,我們稱之為“智能體AI”。與生成式AI相比,智能體AI可以在幾乎沒有人類監督或無干預的情況下,進行自主行動、預測、意圖理解與任務編排。我們能夠看到,盡管目前行業關注點仍然集中在生成式AI上,但整個產業其實正呈現出從生成式AI向智能體AI演進的路線。
第四個階段,我們叫做“物理AI”。在這個階段,AI可以理解真實的物理世界,并根據真實的物理定律與規律做出相應的反饋和響應。目前,物理AI尚處于研究和探索的初期。
我們看到在終端側生成式AI的生態趨勢中,隨著模型尺寸的不斷增大,目前手機可以支持將近100億參數的大模型部署,PC可以支持約200億參數的大模型終端側部署。在車載場景中,模型支持的規模則更大,可部署的參數量級已達到200億至600億之間。
在模型尺寸不斷擴大的同時,模型質量也不斷提升。今年年初我們已經能夠將支持思維鏈(CoT)和推理能力的模型完全部署在端側。在能力上所支持的上下文長度也在顯著增長——從兩年前端側僅能處理1K到2K的上下文,到去年已提升至4K,而今年則已能夠支持8K到16K的典型用例在端側進行部署。事實上,在今年9月的驍龍峰會上,我們展示了在某些特殊場景下,已經可以實現128K的文本在端側的大模型部署。
從模態的角度來看,終端側AI也呈現出從單一的文字模態,向支持文本、圖片、視頻、音頻、語音等多模態,甚至全模態演進的趨勢。
我們再來看一下在端側運行AI的優勢,以及所面臨的挑戰。我們認為在終端側運行大模型或AI,在終端側運行大模型,最大的好處之一是個性化,數據的產生也都在終端側,在距離數據產生最近的地方做推理,是自然而然的事情,同時也非常有利于保護用戶的隱私和安全。和云端相比,端側還具備兩個優勢,一是完全免費,二是無需任何網絡連接。
那么挑戰有哪些呢?在這里我想著重分享兩點。首先是內存限制,終端側有限的內存大小限制了可運行模型參數量的大小,從而約束了終端側模型的能力上限;其次是帶寬限制,終端側有限的帶寬決定了AI的推理速度,因此會影響用戶體驗。當然,在手機這類集成度非常高的終端去運行大語言模型,對能效控制也提出了極致要求,因為如果功耗過高,就容易觸發設備的溫控機制。
面對這些挑戰,高通公司都有哪些技術儲備和預研呢?第一是量化和壓縮。從8?bit、4?bit到今年實現的2?bit,通過更極致的量化壓縮,我們使端側能夠支持的模型尺寸越來越大,其所占用的內存越來越小;第二是在端側帶寬約束下,我們采用并行解碼技術以提高大預言模型的token速率;第三是通過先進的NPU,包括eNPU的架構和領先的異構計算系統,我們讓端側AI從以往的被動式服務向主動式、個性化的AI服務邁進。
接下來,我想就并行解碼技術再進行展開講解。當前大語言模型大部分是基于自回歸架構,它需要把所有的輸入和權重全部加載到內存中,才能生成一個token。從效率的角度來講,這是非常不經濟的行為。尤其是隨著模型規模持續增大,token的生成速度會非常慢,進而導致時延增加、影響用戶體驗。高通通過并行解碼技術,先在端側運行一個較小的草稿模型,一次性推理出多個token,然后將這些token交予原始的、較大的模型進行校驗。因為草稿模型是基于原始大模型訓練而來,在原始大模型上進行token驗證時,能夠保證較高的接受率,從而實現并行解碼,達到提高端側解碼速度的目的。
我們正處在從生成式AI向智能體AI演進的路徑上。從用例的角度來講,生成式AI主要能支持關鍵的“單體”用例,比如實時翻譯、文生圖或者內容創作、摘要、續寫等。智能體AI是更復合、更復雜、更主動式的AI服務。實現智能體AI需要許多基礎模塊,首先需要一個具有推理能力的大模型,它可以在端側或者云上運行以理解用戶意圖;在理解用戶的意圖和任務之后,可以通過查詢個人知識圖譜等個人本地數據,生成個性化的任務編排;最后通過調用本地或云上的API執行相應的任務。
下面可以看一個具體的智能體AI用例:用戶可以利用智能體發布微博。首先通過自然語言和智能體進行交互,當它理解了用戶“用戶需要發布微博”的意圖后,會打開微博APP,搜索需要發布的照片,同時它還可以根據用戶過往的個人偏好給照片加濾鏡,最終完成整個發布過程。不僅如此,用戶還可以通過自然語言交互監測回復,并進行相應操作,比如我特別喜歡某個評論時,可以去點贊或回復。這個用例在今年9月的驍龍峰會上進行展示時,整個流程是全部運行在端側的。
當然,高通公司除了手機芯片之外,也覆蓋了豐富品類的產品,包括智能眼鏡、PC、汽車、智能手表、IoT等,我們能夠支持所有驍龍設備之間的智能互聯。大家可以想象一下,智能眼鏡、智能手表等算力較小的設備,可以通過Wi-Fi或者藍牙與手機、汽車連接,去共享它們之間的本地數據,將大模型推理從較小設備中轉移到手機、PC甚至汽車等算力較大的設備上,實現分布式的個性化大模型推理。
最后,我們相信AI體驗在未來會向混合AI的方向發展,也就是說,在終端側運行垂類的、比較高效的模型,提供更好的、更安全的個性化AI服務;在云端,運行更大尺寸的模型,提供能力更強、更通用、更極致的AI服務。高通公司也將憑借低時延、高速且安全的連接技術,確保混合AI場景下的端云協同和端云連接。
聚合標簽:
網友評論
發布
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.