![]()
摘要
在物理測(cè)量中,從實(shí)驗(yàn)數(shù)據(jù)中估計(jì)連續(xù)參數(shù)的精度受限于系統(tǒng)所攜帶的費(fèi)舍信息(FI)——它刻畫了未知參數(shù)在觀測(cè)數(shù)據(jù)中的可辨識(shí)度。隨著人工神經(jīng)網(wǎng)絡(luò)被廣泛引入實(shí)驗(yàn)測(cè)量與反演分析,理解它們?cè)趦?nèi)部如何處理、傳遞并保留這些與參數(shù)相關(guān)的信息,成為一個(gè)關(guān)鍵問題。本文提出了一種方法,用于監(jiān)測(cè)費(fèi)舍信息在神經(jīng)網(wǎng)絡(luò)中的流動(dòng)過程,從輸入層到輸出層進(jìn)行追蹤。研究表明,當(dāng)網(wǎng)絡(luò)達(dá)到最優(yōu)估計(jì)性能時(shí),F(xiàn)I傳輸達(dá)到最大;若繼續(xù)訓(xùn)練,信息反而開始損失,對(duì)應(yīng)過擬合的出現(xiàn)。該工作不僅揭示了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的物理機(jī)制,還提出了一種基于FI的“無模型早停”準(zhǔn)則,為深度學(xué)習(xí)的高效與可解釋訓(xùn)練提供了新思路。
關(guān)鍵詞:費(fèi)舍信息(Fisher Information, FI),人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks, ANNs),信息流(Information Flow),無模型的早停準(zhǔn)則(model-free stopping criterion),參數(shù)估計(jì)(Parameter Estimation)
趙思怡丨作者
![]()
論文題目:Fisher Information Flow in Artificial Neural Networks 論文鏈接:https://journals.aps.org/prx/abstract/10.1103/kn3z-rmm8 發(fā)表時(shí)間:2025年9月16日 論文來源:Physical Review X
費(fèi)舍信息視角下的神經(jīng)網(wǎng)絡(luò):
信息流動(dòng)的物理圖景
在現(xiàn)代科學(xué)研究中,人工神經(jīng)網(wǎng)絡(luò)( ANNs)已成為從實(shí)驗(yàn)數(shù)據(jù)中提取規(guī)律、估計(jì)參數(shù)的重要工具。無論是在光學(xué)成像、量子測(cè)量,還是復(fù)雜材料建模中,神經(jīng)網(wǎng)絡(luò)都展現(xiàn)出超越傳統(tǒng)算法的強(qiáng)大表現(xiàn)。然而,研究者們提出了一個(gè)極具洞察力的問題:
當(dāng)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)估計(jì)一個(gè)物理參數(shù)時(shí),信息是如何在層與層之間流動(dòng)、損失或被壓縮的?
近期,來自維也納工業(yè)大學(xué)、格拉斯哥大學(xué)、魯爾大學(xué)波鴻和法國(guó)格勒諾布爾大學(xué)的研究團(tuán)隊(duì)提出了一種全新的分析框架,利用費(fèi)舍信息(FI)來定量追蹤神經(jīng)網(wǎng)絡(luò)中與待估參數(shù)相關(guān)的信息流動(dòng)。他們發(fā)現(xiàn),網(wǎng)絡(luò)的學(xué)習(xí)過程可被視為費(fèi)舍信息逐步守恒的演化過程;當(dāng)信息傳輸達(dá)到最大化時(shí),網(wǎng)絡(luò)也恰好實(shí)現(xiàn)最優(yōu)的估計(jì)性能。相關(guān)成果為深度學(xué)習(xí)提供了一個(gè)具有物理意義的解釋路徑,并提出了無需驗(yàn)證集的“信息早停”準(zhǔn)則。
從互信息到費(fèi)舍信息:
量化信息流的新方法
傳統(tǒng)的信息論研究通常依賴互信息(Mutual Information, MI)衡量輸入與輸出之間共享的信息量,但在高維連續(xù)空間中,互信息的計(jì)算往往極其困難,并可能在確定性映射中出現(xiàn)發(fā)散。相比之下,FI關(guān)注的是系統(tǒng)對(duì)未知連續(xù)參數(shù)的響應(yīng)靈敏度,直接與參數(shù)估計(jì)的精度極限——克拉美–羅下界(Cramér–Rao Lower Bound, CRLB)相關(guān)。
本研究的出發(fā)點(diǎn)在于:不僅僅考察網(wǎng)絡(luò)參數(shù)的不確定性,而是追蹤輸入數(shù)據(jù)中關(guān)于物理參數(shù)的信息在網(wǎng)絡(luò)內(nèi)部的傳輸過程。為此,研究團(tuán)隊(duì)提出了一個(gè)可計(jì)算的近似指標(biāo)——線性費(fèi)舍信息(Linear Fisher Information, LFI)。LFI只依賴樣本的均值與協(xié)方差即可估計(jì)信息量,無需顯式知道數(shù)據(jù)的概率分布,從而能夠在復(fù)雜的深度網(wǎng)絡(luò)中高效計(jì)算并逐層追蹤信息變化。
實(shí)驗(yàn)驗(yàn)證:
在噪聲主導(dǎo)的光學(xué)成像中追蹤信息流
為驗(yàn)證理論框架,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)具有代表性的物理實(shí)驗(yàn):在光學(xué)顯微鏡下,對(duì)一個(gè)印有“Space Invader”圖案的微小物體進(jìn)行水平位移測(cè)量(如圖1)。實(shí)驗(yàn)條件被刻意設(shè)置為極低信噪比(約 13%),以模擬在噪聲主導(dǎo)環(huán)境下的極限參數(shù)估計(jì)問題。
![]()
圖1:左側(cè)光源發(fā)出的光束照射在刻有“space invader”圖案的玻璃載片上。透過物鏡到達(dá)相機(jī)的光場(chǎng)強(qiáng)度包含關(guān)于目標(biāo)水平位置 θ 的FI。實(shí)驗(yàn)所得圖像被輸入ANN進(jìn)行訓(xùn)練,用于預(yù)測(cè)參數(shù)。神經(jīng)網(wǎng)絡(luò)需盡可能保留FI,才能實(shí)現(xiàn)對(duì) θ 的高精度估計(jì)。
在這一任務(wù)中,神經(jīng)網(wǎng)絡(luò)被訓(xùn)練來預(yù)測(cè)物體的水平位置參數(shù) θ。研究者在訓(xùn)練過程中實(shí)時(shí)計(jì)算各層的LFI,以監(jiān)測(cè)信息在網(wǎng)絡(luò)中的傳播規(guī)律。結(jié)果表明:
在訓(xùn)練初期,隨機(jī)初始化的權(quán)重導(dǎo)致大量費(fèi)舍信息在非線性層中損失;
隨著訓(xùn)練的推進(jìn),網(wǎng)絡(luò)逐步優(yōu)化內(nèi)部映射,使得信息傳輸效率顯著提升;
當(dāng)模型性能達(dá)到最優(yōu)時(shí),輸出層的FI接近輸入層,表明網(wǎng)絡(luò)幾乎保留了輸入數(shù)據(jù)中關(guān)于參數(shù)的全部有效信息。
在模擬數(shù)據(jù)中,這種“信息守恒”關(guān)系幾乎完美成立;而在真實(shí)實(shí)驗(yàn)數(shù)據(jù)中,約有80%的信息得以保留,主要受限于實(shí)驗(yàn)噪聲和參數(shù)取值范圍(如圖2)。
![]()
圖2:數(shù)值模擬數(shù)據(jù)的LFI最大化過程。曲線顯示LFI在連續(xù)高維嵌入下的變化趨勢(shì)。虛線為理論計(jì)算的真實(shí)FI,用于驗(yàn)證算法收斂性。
信息約束下的最優(yōu)訓(xùn)練:
無需驗(yàn)證集的早停準(zhǔn)則
深度學(xué)習(xí)中,判斷訓(xùn)練何時(shí)結(jié)束是一項(xiàng)長(zhǎng)期存在的挑戰(zhàn)。通常做法依賴驗(yàn)證集監(jiān)控誤差變化,但這一經(jīng)驗(yàn)性方法缺乏理論依據(jù)。本文基于FI框架提出了一個(gè)物理意義明確的早停判據(jù):當(dāng)模型的均方誤差(MSE)達(dá)到由FI決定的克拉美–羅下限CRLB時(shí),網(wǎng)絡(luò)已提取完全部可用信息。此時(shí)若繼續(xù)訓(xùn)練,網(wǎng)絡(luò)將開始擬合噪聲,導(dǎo)致過擬合現(xiàn)象。
這一條件可通過簡(jiǎn)單的乘積形式:MSE × I ≈ 1來檢驗(yàn)。實(shí)驗(yàn)表明,該準(zhǔn)則預(yù)測(cè)的最佳停止時(shí)刻與驗(yàn)證集誤差最小點(diǎn)高度一致,但無需額外數(shù)據(jù)集即可實(shí)現(xiàn)訓(xùn)練控制,為信息驅(qū)動(dòng)的模型優(yōu)化提供了實(shí)用工具(如圖3)。
![]()
圖3:歸一化均方誤差(MSE)隨訓(xùn)練歷元的變化。 (a) 為帶高斯噪聲的模擬數(shù)據(jù),(b) 為實(shí)驗(yàn)數(shù)據(jù)。深色曲線為驗(yàn)證損失,淺色曲線為訓(xùn)練損失。虛線表示 MSE×I=1的位置,對(duì)應(yīng)訓(xùn)練的最佳停止點(diǎn)。
意義與前景:
以信息流為核心的神經(jīng)網(wǎng)絡(luò)理解
這項(xiàng)研究為理解深度學(xué)習(xí)的內(nèi)部機(jī)制提供了新的定量化視角。通過追蹤費(fèi)舍信息在神經(jīng)網(wǎng)絡(luò)中的傳播路徑,研究者揭示了一個(gè)可能的普遍規(guī)律:神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程可被理解為費(fèi)舍信息逐步趨于守恒的過程。
這一觀點(diǎn)不僅有助于解釋網(wǎng)絡(luò)在不同訓(xùn)練階段的表現(xiàn)差異,也為模型結(jié)構(gòu)設(shè)計(jì)提供了新的啟發(fā)。未來,研究者計(jì)劃將這一框架擴(kuò)展至帶有殘差連接的ResNet結(jié)構(gòu)、物理神經(jīng)網(wǎng)絡(luò)(Physical Neural Networks)及更廣泛的實(shí)驗(yàn)數(shù)據(jù)分析任務(wù)中。
在更宏觀的意義上,這項(xiàng)工作展示了信息論與深度學(xué)習(xí)、實(shí)驗(yàn)物理的融合潛力。當(dāng)信息流動(dòng)被視為科學(xué)系統(tǒng)的共同約束原則,我們或許能夠在人工智能與自然智能之間,找到一種更深層次的對(duì)應(yīng)關(guān)系。
大模型可解釋性讀書會(huì)
集智俱樂部聯(lián)合上海交通大學(xué)副教授張拳石、阿里云大模型可解釋性團(tuán)隊(duì)負(fù)責(zé)人沈旭、彩云科技首席科學(xué)家肖達(dá)、北京師范大學(xué)碩士生楊明哲和浙江大學(xué)博士生姚云志共同發(fā)起。本讀書會(huì)旨在突破大模型“黑箱”困境,嘗試從以下四個(gè)視角梳理大語言模型可解釋性的科學(xué)方法論:
自下而上:Transformer circuit 為什么有效?
自上而下:神經(jīng)網(wǎng)絡(luò)的精細(xì)決策邏輯和性能根因是否可以被嚴(yán)謹(jǐn)、清晰地解釋清楚?
復(fù)雜科學(xué):滲流相變、涌現(xiàn)、自組織等復(fù)雜科學(xué)理論如何理解大模型的推理與學(xué)習(xí)能力?
系統(tǒng)工程:如何擁抱不確定性,在具體的業(yè)界實(shí)踐中創(chuàng)造價(jià)值?
五位發(fā)起人老師會(huì)帶領(lǐng)大家研讀領(lǐng)域前沿論文,現(xiàn)誠(chéng)邀對(duì)此話題感興趣的朋友,一起共創(chuàng)、共建、共享「大模型可解釋性」主題社區(qū),通過互相的交流與碰撞,促進(jìn)我們更深入的理解以上問題。無論您是致力于突破AI可解釋性理論瓶頸的研究者,探索復(fù)雜系統(tǒng)與智能本質(zhì)的交叉學(xué)科探索者,還是追求模型安全可信的工程實(shí)踐者,誠(chéng)邀您共同參與這場(chǎng)揭開大模型“黑箱”的思想盛宴。
讀書會(huì)已于2025年6月19日啟動(dòng),每周四晚19:30-21:30,預(yù)計(jì)持續(xù)分享8-10周左右。
詳情請(qǐng)見:
1.
2.
3.
4.
5.
6.
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.