![]()
導(dǎo)語
無論是氣候變化、流行病傳播、金融市場波動,還是大腦的認知功能,這些系統(tǒng)都由大量組件構(gòu)成,組件間存在多樣且動態(tài)的互動,因為這些非平凡的互動具有如非線性、涌現(xiàn)、自適應(yīng)和路徑依賴等特征,導(dǎo)致其集體行為往往難以通過還原論預(yù)測。面對這些錯綜復(fù)雜的涌現(xiàn)現(xiàn)象,科學家們迫切需要一套強大而普適的數(shù)學語言來對其進行描述、量化和理解。
起源于通信的信息論,因其能跨領(lǐng)域量化組件之間,系統(tǒng)與環(huán)境,整體與部分的互動,正逐漸成為復(fù)雜系統(tǒng)研究領(lǐng)域工具箱中不可或缺的一環(huán)。本文旨在對Thomas F. Varley于2025年12月8日發(fā)表在《Physics Reports》上的這篇重要綜述進行深入解讀,系統(tǒng)闡述信息理論為何以及如何成為復(fù)雜系統(tǒng)科學的基石,并詳解其核心概念、進階工具與實際應(yīng)用。
關(guān)鍵詞:信息論、熵、互信息、傳遞熵、整合信息(Φ)、部分信息分解(PID / PED)、O-信息 / Φ?、多尺度動力學
來源:集智俱樂部
作者: 郭瑞東
審校: 陶如意
![]()
文章題目:Information theory for complex systems scientists: What, why, and how 文章鏈接:https://www.sciencedirect.com/science/article/pii/S037015732500256X 發(fā)表時間:2025年12月8日 文章來源:Physics Reports
一、 信息理論的基石:核心概念與直覺構(gòu)建
該文先詳細講解了信息理論的幾個核心度量指標,從最基礎(chǔ)的概念無疑是熵。據(jù)說香農(nóng)在提出信息論之后,找到馮諾依曼,詢問他應(yīng)該如何稱呼新的不確定度量。
馮·諾依曼回答:“ 你應(yīng)該稱之為熵,因為沒人真正知道熵是什么,這樣你在辯論中總是占上風。”
這個故事凸顯了一個現(xiàn)實:盡管香農(nóng)提及熵時最初的關(guān)注點狹隘,他所構(gòu)建的結(jié)構(gòu)卻異常籠統(tǒng),容易產(chǎn)生多種解讀。
1.1 熵:不確定性的量化
想象一個天氣預(yù)報。如果某地一年365天都是晴天,那么你對“明天天氣”的不確定性為零,熵也為零。如果天氣晴雨各半,你的不確定性最大,熵也最高。因此,熵衡量的是在得知具體結(jié)果之前,我們對一個隨機變量取值的“驚訝”程度的期望值。
![]()
圖1:信息熵示意圖,不同盒子中對應(yīng)概率不同,對應(yīng)的熵不同
對于一個離散隨機變量X,其香農(nóng)熵H(X)的數(shù)學定義為H(X) = -Σp(x)logp(x)。其中p(x)是X取值為x的概率。對數(shù)底數(shù)通常為2,此時熵的單位是比特。
在神經(jīng)科學中,一個神經(jīng)元的放電序列的熵可以衡量其響應(yīng)的可變性;在生態(tài)學中,一個物種分布模式的熵可以反映其空間分布的不確定性;在金融學中,一只股票價格的熵可以表征其波動性。
1.2 聯(lián)合熵與條件熵
聯(lián)合熵H(X,Y)衡量兩個隨機變量X和Y聯(lián)合分布的不確定性。它總是大于等于單個變量的熵,但小于等于二者熵之和。條件熵H(Y|X):表示在已知隨機變量X取值的情況下,對隨機變量Y仍存在的不確定性。如果X和Y完全獨立,則H(Y|X) = H(Y);如果Y完全由X決定,則H(Y|X) = 0。
H(X,Y) = H(X) + H(Y|X)。這直觀地表明,X和Y的總不確定性,等于X自身的不確定性,加上已知X后Y剩余的不確定性。
1.3 互信息:依賴關(guān)系的純粹度量
互信息I(X;Y)是信息理論皇冠上的明珠。它衡量的是,通過觀察一個變量,我們能獲得關(guān)于另一個變量的平均信息量。或者說,它量化了X和Y之間的統(tǒng)計依賴性,其范圍從0(完全獨立)到min(H(X), H(Y))(完全依賴)。
I(X;Y) = H(X) + H(Y) - H(X,Y)。
變量X和Y之間的互信息等于X和Y各自不確定性的和,減去它們的聯(lián)合不確定性。那部分被“抵消”掉的不確定性,正是由X和Y共享的信息。
相比常用的只能捕捉變量之間線性關(guān)系的皮爾森相關(guān)系數(shù),互信息能捕捉任何形式的統(tǒng)計依賴,包括非線性的、非單調(diào)的關(guān)系。例如,Y = X2的關(guān)系,相關(guān)系數(shù)可能為0,但互信息值會很高。在腦網(wǎng)絡(luò)中,可以用互信息來連接兩個腦區(qū),表示它們活動的同步性;在基因調(diào)控網(wǎng)絡(luò)中,可以連接兩個基因,表示其表達水平的協(xié)同變化。

圖2:互信息的拆解示意圖
1.4 相對熵 (Kullback-Leibler散度)
相對熵衡量兩個概率分布p和q之間的“距離”(嚴格來說不是距離,因為它不對稱)。D_KL(p || q)量化了當真實分布為p時,用分布q來近似所造成的信息損失。而互信息I(X;Y) = D_KL( p(x,y) || p(x)p(y) )。
從上式可看出,互信息衡量的是X和Y的聯(lián)合分布p(x,y)與它們假設(shè)獨立時的分布p(x)p(y)之間的“差異”。差異越大,說明它們越不獨立,共享信息越多。
例如兩個獨立事件分別是投一個正常的骰子和有偏的骰子, 投五次時,兩個事件中的相對熵如下的動圖所示
![]()
圖3:投一個正常的骰子和有偏的骰子五次的相對熵變化
基礎(chǔ)的信息度量(如互信息)如同給我們一張復(fù)雜系統(tǒng)的靜態(tài)照片,我們能看出哪些節(jié)點之間有連接,但無法知曉信息是如何在這些連接中流動的,也無法理解這些連接背后的深層結(jié)構(gòu)。接下來要介紹的指標,會將這張靜態(tài)照片升級為一部動態(tài)的、可解構(gòu)的4D電影。
二、信息論如何直接描摹復(fù)雜系統(tǒng)的動態(tài)特征
復(fù)雜系統(tǒng)中,信息的傳遞是動態(tài)的、隨時間演化的。信息動力學旨在量化信息在系統(tǒng)內(nèi)部及與環(huán)境之間的產(chǎn)生、存儲、傳遞和修改。這其中涉及的使用信息論的指標或例如包括
2.1 傳遞熵 (transfer entropy)
傳遞熵由Thomas Schreiber提出,是互信息在時間序列上的推廣。它衡量是,在已知Y自身過去歷史的情況下,X的過去歷史能為預(yù)測Y的當前狀態(tài)提供多少額外信息,即定向信息流。例如,在神經(jīng)科學中,傳遞熵可用于判斷是腦區(qū)A的活動影響了腦區(qū)B,還是反之,從而推斷出因果關(guān)系的方向,這強于格蘭杰因果只是進行非方向的因果量化。
![]()
圖4:構(gòu)造一個簡單因果系統(tǒng):Yt=Xt?2⊕Noise,Yt=Xt?2⊕Noise (X 以 2 步延遲影響 Y)X到Y(jié)的轉(zhuǎn)移熵是正的,說明是X影響Y
2.2 主動信息存儲
主動信息存儲(AIS)衡量一個系統(tǒng)組成部分的過去歷史中,有多少信息與其當前狀態(tài)相關(guān)。這量化了系統(tǒng)內(nèi)部記憶或信息存儲的能力。一個具有高主動信息存儲的單元,其行為在很大程度上由其自身的歷史決定。
應(yīng)用AIS分析混沌時間序列:雖然混沌系統(tǒng)是確定性的,但由于其對初始條件的極端敏感性(蝴蝶效應(yīng)),其短期歷史對預(yù)測當前狀態(tài)非常有價值,但長期歷史的預(yù)測價值會迅速衰減。因此,當我們設(shè)定一個適當?shù)倪^去窗口長度(例如,10個時間步)時,計算出的AIS會是一個中等偏高的值。這表明系統(tǒng)在短期內(nèi)是有“記憶”的。
在金融市場中,常見的有效市場假說認為,股價的歷史信息不能預(yù)測未來收益,即收益率序列接近隨機游走。如果計算出的AIS值會非常低,接近零。這意味著資產(chǎn)的過去價格對其當前價格幾乎沒有提供額外的信息,支持了“市場無記憶”的觀點。反之,如果發(fā)現(xiàn)某只股票的AIS值持續(xù)較高,則可能意味著存在可預(yù)測的模式,違背了有效市場假說。
![]()
圖5:滿足與不滿足有效市場假說的場景下,對應(yīng)的主動信息存儲值不同
2.3 整合信息論
整合信息論由神經(jīng)科學家Giulio Tononi提出,試圖度量意識。其核心思想是,一個系統(tǒng)是否具有“意識”程度取決于其各個部分整合信息的程度,如整個系統(tǒng)所產(chǎn)生的信息大于其各部分信息之和的程度,該系統(tǒng)具備意識。考慮一個由百萬個光電管組成的都高分辨率數(shù)碼相機。每個像素都能高保真地記錄光信息,整個傳感器接收的信息量巨大(高互信息)。但是,如果你將傳感器切割成兩半,每一半仍然能很好地工作。傳感器各部分之間幾乎沒有因果相互作用(一個像素的狀態(tài)不影響相鄰像素)。因此,這個系統(tǒng)的整合信息Φ非常低,故而照相機不可能有意識體驗。
而大腦的不同區(qū)域以極其復(fù)雜的方式相互作用。視覺皮層接收的信息需要與記憶、情感、語言等區(qū)域進行整合,才能形成“看到一朵紅玫瑰”這樣統(tǒng)一、不可分割的體驗。如果因為疾病導(dǎo)致大腦不同區(qū)域的聯(lián)系減弱(裂腦癥),這種統(tǒng)一的體驗就消失了。因此,大腦作為一個整體的信息遠超其部分信息之和,其整合信息Φ被認為非常高。整合信息論由此將Φ與意識的程度直接聯(lián)系起來。
對于整合信息論,最大的問題在于Φ的計算在實踐上對于像大腦這樣的系統(tǒng)是極其困難的,因此對該理論,學界存在著巨大的爭議。
![]()
圖6:對比照相機和大腦在視覺處理上的信息整合程度
2.4 統(tǒng)計復(fù)雜性與因果態(tài)
通過分析時間序列的歷史數(shù)據(jù),將能預(yù)測相同未來狀態(tài)的所有歷史歸入同一個“因果態(tài)”。這是一種對系統(tǒng)動態(tài)過程的最優(yōu)壓縮表示。統(tǒng)計復(fù)雜性是這些因果態(tài)分布的熵。統(tǒng)計復(fù)雜性的多少,衡量了為準確預(yù)測未來,系統(tǒng)必須記住多少關(guān)于過去的信息。
該指標衡量的是系統(tǒng)為了生成觀測到的時間序列,所需要記住的關(guān)于其過去的最小信息量。一個具有中等統(tǒng)計復(fù)雜性的系統(tǒng),通常具有豐富的內(nèi)部結(jié)構(gòu)和動態(tài)模式。
想象你觀測一只螢火蟲的閃光序列:亮、暗、亮、亮、暗……初看隨機,但若某些“歷史模式”(如“亮-暗”)總是預(yù)測下一刻“亮”,而另一些(如“暗-暗”)總導(dǎo)向“暗”,那么這些歷史就應(yīng)被歸為兩類——它們雖細節(jié)不同,卻對未來有相同的預(yù)測效力。
這些具有預(yù)測效力的歷史,可視為因果態(tài)(causal state):即所有能生成相同未來條件分布的歷史,被等價歸并為一個狀態(tài)節(jié)點。而由這些因果態(tài)構(gòu)成的最小、最簡、最優(yōu)預(yù)測器被稱為?-機器(epsilon-machine)。而無論是統(tǒng)計復(fù)雜性的最優(yōu)壓縮,還是?-機器的內(nèi)在狀態(tài)結(jié)構(gòu)的不可約性,這兩個概念說明了復(fù)雜系統(tǒng)之所以復(fù)雜,在于其內(nèi)在狀態(tài)結(jié)構(gòu)的不可約性。
![]()
圖7:因果態(tài)示意圖:生成一段二元時間序列;用滑動窗口劃分歷史,對每個歷史計算其未來條件分布 ;將具有相同未來分布的歷史歸為同一因果態(tài)節(jié)點;繪制 ?-機器:因果態(tài)為節(jié)點,轉(zhuǎn)移概率為邊,突出其為最小最優(yōu)預(yù)測器
三、信息分解:解開信息的協(xié)同與冗余
傳統(tǒng)互信息I(X;Y)告訴了我們X和Y共享了多少信息。但如果考慮第三個變量S(例如,一個環(huán)境刺激或一個共同驅(qū)動因素),問題就變得復(fù)雜了:X和Y所共享的信息,有多少是冗余的(例如,都反映了S的信息)?有多少是協(xié)同的(例如,只有當X和Y同時被觀測時,才能獲得關(guān)于S的獨特信息)?
部分信息分解(PID partial information decomposition)旨在將I(S; X,Y)由X和Y決定的關(guān)于目標S的總信息分解為四個部分:
1 冗余信息(Redundancy):由X和Y各自單獨提供的、關(guān)于S的相同信息。
2 特有信息(Unique):僅由X提供的關(guān)于S的信息。
3 特有信息(Unique):僅由Y提供的關(guān)于S的信息。
4 協(xié)同信息(Synergy):只有當X和Y被同時考慮時,才能提供的關(guān)于S的信息。
I(X1,X2;Y)= Red(X1,X2→Y)+X? Unq(X1→Y∣X2)+X? Unq(X2→Y∣X1)+ Syn( X1,X2→Y)
當源數(shù) N>2,部分信息分解迅速復(fù)雜化。Williams & Beer 引入冗余格(Redundancy Lattice)——一個偏序集,枚舉所有信息分配的可能“原子”。
![]()
圖8:兩種最簡單系統(tǒng)的冗余晶格示例。 左: 兩個源 的冗余晶格,并與單一靶點產(chǎn)生突觸。右: 三個源的冗余晶格在單一靶點產(chǎn)生突觸。三元格點清楚地表明,隨著源數(shù)量的增加,隨著更復(fù)雜的來源組合貢獻關(guān)于目標的信息,“冗余”、“特有信息”和“協(xié)同”之間的清晰界限會逐漸消失。在動態(tài)過程的背景下,協(xié)同效應(yīng)可以被看作是兩股信息流在單一元素 上相互作用產(chǎn)生的“新穎”信息
在神經(jīng)科學中,使用PID可以研究一組神經(jīng)元是如何冗余地編碼一個刺激以提高魯棒性,又是如何協(xié)同地編碼更復(fù)雜的特征。這有助于理解神經(jīng)群體編碼的原理。
PID還為從數(shù)據(jù)中重建網(wǎng)絡(luò)結(jié)構(gòu)推斷提供了工具,通過計算所有可能變量對之間的互信息或傳遞熵,可以構(gòu)建一個加權(quán)的、完全連通的圖。然后通過適當?shù)拈撝祷蚪y(tǒng)計檢驗(如置換檢驗),可以推斷出網(wǎng)絡(luò)中哪些連接是顯著的。該方法能夠發(fā)現(xiàn)非線性相互作用,且對數(shù)據(jù)的分布假設(shè)要求較低。
PED(Partial Entropy Decomposition) 是 PID 的自然推廣,不同于 PID 對互信息 I(X1,…,XN;Y) 的分解(需指定“sources”與“target”),PED 直接分解聯(lián)合熵H(X1,…,XN),無需區(qū)分輸入與輸出

圖9:兩輸入 X1,X2; 輸出 Y=X1⊕X2(XOR 異或) ,PID 累積的收斂過程及同步顯示 PED 視角
四、從成對關(guān)系到信息網(wǎng)絡(luò)
網(wǎng)絡(luò)是復(fù)雜系統(tǒng)建模的通用語言:從腦網(wǎng)絡(luò)、金融系統(tǒng)、生態(tài)食物網(wǎng)到社交網(wǎng)絡(luò),結(jié)構(gòu)化建模幾乎都依賴網(wǎng)絡(luò)表示。網(wǎng)絡(luò)可按構(gòu)建方法分為兩類,第一類物理網(wǎng)絡(luò)(如航空網(wǎng)、白質(zhì)纖維束),其中邊對應(yīng)真實物理連接,結(jié)構(gòu)可直接觀測;另一類統(tǒng)計網(wǎng)絡(luò)中的邊對應(yīng)統(tǒng)計依賴性,需從數(shù)據(jù)推斷,可使用信息論中的互信息等度量刻畫變量間不確定性的變化。
統(tǒng)計網(wǎng)絡(luò)又可按是否包含方向,分為兩類,一是功能鏈接Functional Connectivity (FC) 網(wǎng)絡(luò),該網(wǎng)絡(luò)由無向圖構(gòu)成,邊權(quán)重為變量間的互信息,刻畫瞬時共變,例如fMRI 腦功能網(wǎng)絡(luò)、基因共表達網(wǎng)絡(luò)、金融相關(guān)性網(wǎng)絡(luò);二是有效連接Effective Connectivity (EC) 網(wǎng)絡(luò),由有向圖構(gòu)成,邊權(quán)重為變量之間的轉(zhuǎn)移熵,刻畫事件X對事件Y在排除Y自身記憶下,對預(yù)測Y的增量預(yù)測能力。
而當系統(tǒng)中存在當協(xié)同/冗余時,常規(guī)的基于成對相互關(guān)系構(gòu)建的二元網(wǎng)絡(luò)(bivariate network)將無法描述,此時需引入三元協(xié)同超邊(hyperedge)的超圖 (hypergraph) 或單純流形(Simplicial Complexes)。
五、用信息論刻畫復(fù)雜系統(tǒng)的整合與分離
復(fù)雜系統(tǒng)的核心特征在于其可“整合”或“分離”。整合指的是系統(tǒng)所有元素相互作用并相互影響的動態(tài)過程,而分離則指的是系統(tǒng)部分元素參與自身進程,且這些進程不與其他元素共享的動力學特征。以大腦為例:已知特定腦區(qū)參與某些過程而不參與其他過程(不同區(qū)域的功能性是分離的),然而同時,大腦整合程度足夠高,以至于所有不同的局部過程可以整合為一個統(tǒng)一的、具有單一意識的生物體。有研究假設(shè)這種整合與分離的平衡對于健康的大腦功能至關(guān)重要。
類似地,在經(jīng)濟領(lǐng)域,成功的公司維持著健康的分離平衡(各分支部門各自負責其使命),同時所有工作都由中央執(zhí)行辦公室進行監(jiān)督和廣泛指導(dǎo)。 在全球政治中,各個國家的內(nèi)部動態(tài)被國家邊界、語言和文化所隔離開來,而國家之間的整合則表現(xiàn)為條約、貿(mào)易和歷史糾葛。
這種整合與分離的混合本質(zhì)上是一種多尺度現(xiàn)象,不同尺度往往表現(xiàn)出不同的偏向。考慮一個模塊化網(wǎng)絡(luò):在每個模塊內(nèi)部,存在高度整合,但每個模塊可能僅與其他模塊稀疏連接,表明系統(tǒng)范圍內(nèi)的更高尺度分離。據(jù)此,可采用上述的信息論度量,來衡量復(fù)雜系統(tǒng)中的整合與分離平衡程度。
例如,1994 年,Tononi、Sporns 與 Edelman 提出 TSE-復(fù)雜性(Tononi-Sporns-Edelman Complexity),通過遍歷所有可能的子系統(tǒng)劃分,檢測“部分”與“剩余”之間的互信息分布。若系統(tǒng)全分離(如獨立高斯變量),則TSE等于0;若系統(tǒng)全整合(如同步振子), 小子系統(tǒng)與剩余高度相關(guān),但大子系統(tǒng)因冗余導(dǎo)致互信息增長緩慢,那么 TSE 仍低;而具有中等特征的系統(tǒng),如模塊化網(wǎng)絡(luò)(模塊內(nèi)高整合、模塊間弱連接),互信息隨子系統(tǒng)大小非線性上升,TSE 達峰值,表明系統(tǒng)能夠在需要時整合或分離。
此時可視為系統(tǒng)處于復(fù)雜度最高的臨界態(tài),系統(tǒng)既非僵化(全整合),也非混亂(全分離),而是處于信息處理能力最強的混沌邊緣。由于TSE的計算需枚舉所有子集,對包含組件數(shù)大于20的系統(tǒng)幾乎不可行。實踐中常用近似指標描述復(fù)雜性(Description Complexity)來替代。
TSE 告訴我們“有多復(fù)雜”,卻未揭示“復(fù)雜在何處”。Rosas 等人提出的 O-信息(Ω)與 S-信息(Σ)則進一步分解復(fù)雜性的成分。Ω > 0,則系統(tǒng)以冗余主導(dǎo) , 信息存有多份備份(如基因組重復(fù)、工程冗余設(shè)計),對應(yīng)系統(tǒng)的穩(wěn)健性高,適應(yīng)性低;Ω < 0,則系統(tǒng)以協(xié)同主導(dǎo) ,信息僅存于全局模式中(如神經(jīng)群體編碼),對應(yīng)系統(tǒng)靈活性高,脆弱性高;S信息Σ則反映總依賴密度,高 Σ 表示節(jié)點深度嵌入網(wǎng)絡(luò)(如樞紐腦區(qū))。
O信息的計算,可針對局部網(wǎng)絡(luò),據(jù)此可預(yù)測何時腦狀態(tài)高度冗余(如穩(wěn)態(tài)睡眠)?何時突發(fā)協(xié)同(如頓悟時刻)?而無論是O信息還是局部O信息,上述度量均基于多元互信息的加減法,這意味著它們不是動態(tài)的:它們作用于靜態(tài)概率分布。
Balduzzi和Tononi提出的集成信息度量( measure of integrated information )Whole-minus-sum complexity試圖用一種基于動力學時間演化的整合性度量,旨在捕捉系統(tǒng)“整體大于部分之和”的不可還原性信息結(jié)構(gòu)。集成信息度量將過去作為一個整體,考察對未來產(chǎn)生不可分解的預(yù)測力。若該值大于零,說明只有聯(lián)合考慮所有部分的過去,才能最優(yōu)預(yù)測整體未來;存在不可約的跨變量協(xié)同演化。
ΦR通過從ΦID(整合信息分解)剔除純?nèi)哂囗棧靡院饬肯到y(tǒng)是否真正作為一個統(tǒng)一體計算。實驗證明蜂群決策時 Φ? 升高;癲癇發(fā)作(全腦同步)時 Φ? 反而下降;細胞自動機 Rule 110(圖靈完備)的 Φ? 顯著高于 Rule 30(混沌)或 Rule 90(線性)。由于ΦR是系統(tǒng)“因果不可還原性”的量化指標,可對應(yīng)弱整合信息理論(weak IIT),即若一個系統(tǒng)聲稱“統(tǒng)一地計算”,這ΦR需大于0.這不直接等于該系統(tǒng)具有意識,但刻畫了“系統(tǒng)作為一個統(tǒng)一體進行信息處理”的程度,可作為人工系統(tǒng)(如 LLM、機器人)是否具備“統(tǒng)一認知架構(gòu)”的可操作檢驗。
對于包含多個組件的系統(tǒng),無法直接計算ΦR,可通過最小信息分割(Minimum Information Bipartition, MIB),遍歷所有二分劃分。對每個劃分計算ΦR再取最小值。該值反映系統(tǒng)最脆弱的整合環(huán)節(jié),是整體整合能力的下界。
六、使用信息論的實際困難
在論述了信息論在復(fù)雜系統(tǒng)中的種種應(yīng)用后,該文接下來指出實際應(yīng)用時需從有限數(shù)據(jù)中估計概率分布與信息量。估計偏差不僅影響數(shù)值精度,更會系統(tǒng)性扭曲高階結(jié)構(gòu)推斷。
離散情況下的插件估計(plug-in)存在系統(tǒng)偏倚,會導(dǎo)致熵被低估,而互信息被高估;對此的應(yīng)對方法是Miller–Madow 校正、置換 null 模型、貝葉斯估計器。連續(xù)數(shù)據(jù)更復(fù)雜,主流方法三類:粗粒化(Coarse-graining)的直方圖分箱:易用但 bias/信息損失嚴重,已不推薦;點過程(Point process)僅保留顯著事件(如 fMRI 極值),需閾值選擇;序數(shù)嵌入(Ordinal partition):將時間序列映射為排列模式,保留時序結(jié)構(gòu)(如 permutation entropy)。
在連續(xù)數(shù)據(jù)計算信息論估計量時,參數(shù)法(Gaussian estimators)僅捕獲線性依賴,丟失非線性協(xié)同/冗余。非參數(shù)密度法(KNN-based)Kozachenko–Leonenko(熵)、Kraskov–St?gbauer–Grassberger (KSG)(互信息)等基于 k-近鄰距離,無需假設(shè)分布,支持局部信息量估計;可擴展至條件互信息、PID 局部項。
原文的第八部分是用于計算的四個常用開源包,例如DIT,可用于PID的高階信息分解。由于篇幅原因,這里不展開介紹。第九部分討論信息論應(yīng)用面臨的局限,主要是信息論衡量的有向指標不代表因果關(guān)系,而依賴先驗知識提供的因果圖假設(shè),多個不同因果圖可產(chǎn)生相同信息結(jié)構(gòu)。
此外,使用信息論研究復(fù)雜系統(tǒng),還需要注意語言隱喻(“信息流”“存儲”)易被誤讀為物理實體,而事實上信息論是關(guān)于不確定性中推理的數(shù)學,它描述的是我們?nèi)绾螠p少不確定性,而非世界自身的屬性。信息總是相對于觀察者模型(observer-dependent),無絕對“系統(tǒng)自身的信息”。
七、未來方向與總結(jié)
在包含數(shù)千個特征和數(shù)千萬個樣本的大數(shù)據(jù)時代,需要新的方法來學習元素組之間的信息依賴關(guān)系。除了規(guī)模巨大之外,現(xiàn)實世界的數(shù)據(jù)集還可能包含離散和連續(xù)特征的混合,這進一步增加了互信息估計的復(fù)雜性,并且通常不能假設(shè)其遵循給定的參數(shù)分布。神經(jīng)信息估計器使用神經(jīng)網(wǎng)絡(luò)來估計上述的信息論指標,代表了一種在復(fù)雜性科學中尚未得到充分探索的新方法。其中最著名的是 MINE (Mutual Information Neural Estimation)。
在機器學習中,信息論提供了一套實用工具,用于實現(xiàn)另一個目標(學習的高效算法)。相比之下,在復(fù)雜系統(tǒng)中,信息論度量是描述某些系統(tǒng)結(jié)構(gòu)的描述性統(tǒng)計量,并且本身可以是一個最終目標。用 Φ?、O-信息等引導(dǎo)進化算法(如機器人行為涌現(xiàn)),即通過信息量作為目標函數(shù)也是復(fù)雜系統(tǒng)與信息論結(jié)合的未來研究方向。
總結(jié)來看,從香農(nóng)熵到 ΦID/PED,信息理論提供了統(tǒng)一語言,刻畫從預(yù)測、整合到涌現(xiàn)的多尺度過程,最終理解復(fù)雜系統(tǒng)如何在不確定性中進行推理的動力學。通過信息論,我們能夠知道系統(tǒng)的哪部分在記憶,哪些信息是共享的、獨有的、還是協(xié)同涌現(xiàn)的,整體是否真的大于部分之和。信息論提供的不同度量是理解復(fù)雜系統(tǒng)結(jié)構(gòu)和動態(tài)的自然工具,這些系統(tǒng)可能富含高階冗余、協(xié)同作用和計算過程,這些特征的外在表現(xiàn)為不同尺度上的不確定性降低。
閱讀最新前沿科技趨勢報告,請訪問歐米伽研究所的“未來知識庫”
https://wx.zsxq.com/group/454854145828
![]()
未來知識庫是“ 歐米伽 未來研究所”建立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯(lián)網(wǎng)、超級智能,數(shù)智大腦、能源、軍事、經(jīng)濟、人類風險等等領(lǐng)域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828 進入。
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.