人類擁有卓越的穩定性和靈活性,即使面對突如其來的變化,也能迅速制定新的計劃并調整目標。然而,廣泛應用于機器人領域的“無模型強化學習”(AlphaGo 與李世石的著名對決便是其例證)卻難以同時具備這兩種能力。
韓國科學技術院 (KAIST) 的研究團隊發現,秘密在于前額葉皮層內獨特的信息處理方法,這一原理可以作為開發既靈活又穩定的類腦人工智能的基礎。
由腦與認知科學系李相萬教授領導的研究團隊與 IBM 人工智能研究院合作,破譯了人類大腦如何在不確定情況下管理目標變化,為下一代強化學習指明了新的方向。
![]()
前額葉的秘密
研究團隊指出當前強化學習模型的一個關鍵局限性:它們無法在目標追求的靈活性和不確定環境下的穩定性之間取得平衡。然而,人類卻能同時做到這兩點。該團隊假設,這種差異源于前額葉皮層對信息的表征方式。
研究團隊利用功能磁共振成像(fMRI)實驗、強化學習模型和先進的人工智能分析,揭示了人類前額葉皮層具有獨特的嵌入結構,能夠將目標信息和不確定性信息分別表征,從而避免相互干擾。那些這兩個信息通道分離度更高的人,能夠在目標發生變化時調整策略,同時在環境不確定性下保持穩定的判斷。
兩個通道,兩個功能
研究團隊將這種機制比作通信技術中的多路復用,即同時傳輸多個信號而不會相互干擾。
人類前額葉皮層通過兩個通道運作:一個通道能夠靈敏地跟蹤目標變化,以確保決策的靈活性;另一個通道能夠隔離環境的不確定性,以保持判斷的穩定性。
有趣的是,前額葉皮層不僅僅是執行由第一通道引導的控制;它還利用第二通道根據情況選擇使用哪種學習策略。
這表明大腦具有元學習能力,也就是說,它不僅學習學習什么,還學習如何學習——通過選擇合適的學習策略。這就是為什么人類能夠在不斷變化的環境中保持適應能力的原因。
這項研究的意義涵蓋多個領域,包括個體強化學習和元學習能力的分析、個性化教育設計、認知診斷以及人機交互(HCI)。此外,將類腦表征結構嵌入人工智能,有望實現類腦思維的人工智能,使其更好地理解人類的意圖和價值觀,減少危險判斷,并促進與人類更安全的合作。
首席研究員李相完教授強調了研究結果的重要性:“這項研究從人工智能的角度闡明了大腦的基本運行原則——從靈活地適應不斷變化的目標到穩定地制定計劃。這些原則將成為下一代人工智能的核心基礎,使其能夠像人類一樣適應環境,并更安全、更智能地學習。”
新聞來源:Medical Press
論文參考:DOI: 10.1038/s41467-025-66677-w
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.