<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      梯度下降:距離神經(jīng)網(wǎng)絡(luò)模型中的隱式期望最大化

      0
      分享至

      梯度下降:距離神經(jīng)網(wǎng)絡(luò)模型中的隱式期望最大化

      Gradient Descent as Implicit EM in Distance-Based Neural Models

      https://arxiv.org/pdf/2512.24780



      摘要
      使用標(biāo)準(zhǔn)目標(biāo)函數(shù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)展現(xiàn)出概率推理的特征行為:軟聚類、原型特化以及貝葉斯不確定性追蹤。這些現(xiàn)象普遍存在于各種架構(gòu)中——包括注意力機(jī)制、分類頭以及基于能量的模型——然而現(xiàn)有的解釋依賴于與混合模型的松散類比或事后架構(gòu)解讀。我們提供了一個直接的推導(dǎo)。對于任何具有基于距離或能量的對數(shù)求和指數(shù)(log-sum-exp)結(jié)構(gòu)的目標(biāo)函數(shù),其關(guān)于每個距離的梯度恰好等于對應(yīng)分量的負(fù)后驗責(zé)任:?L/?dj = -rj。這是一個代數(shù)恒等式,而非近似。直接的結(jié)果是,在此類目標(biāo)函數(shù)上的梯度下降隱式地執(zhí)行了期望最大化——責(zé)任不是需要計算的輔助變量,而是要應(yīng)用的梯度。無需顯式的推理算法,因為推理已嵌入優(yōu)化之中。這一結(jié)果將三種學(xué)習(xí)機(jī)制統(tǒng)一于單一框架之下:無監(jiān)督混合建模(其中責(zé)任完全潛在)、注意力機(jī)制(其中責(zé)任以查詢?yōu)闂l件)以及交叉熵分類(其中監(jiān)督將責(zé)任鉗制到目標(biāo))。最近在訓(xùn)練過的Transformer中觀察到的貝葉斯結(jié)構(gòu)并非涌現(xiàn)屬性,而是目標(biāo)函數(shù)幾何結(jié)構(gòu)的必然結(jié)果。優(yōu)化與推理是同一過程。

      1 引言
      使用標(biāo)準(zhǔn)目標(biāo)函數(shù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)反復(fù)展現(xiàn)出與概率推理相關(guān)的行為:軟聚類、原型特化、不確定性追蹤以及混合模型動力學(xué)。這些現(xiàn)象普遍存在于各種架構(gòu)中——注意力機(jī)制、分類頭以及基于能量的模型——然而它們的起源至今仍不清楚。它們是規(guī)模擴(kuò)大后的涌現(xiàn)屬性嗎?是架構(gòu)上的偶然?還是某種更根本的東西?本文認(rèn)為,這些行為都不是上述原因。它們是常見目標(biāo)函數(shù)幾何結(jié)構(gòu)的必然結(jié)果。

      1.1 謎題

      考慮那些在訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)中自發(fā)出現(xiàn)的現(xiàn)象范圍。Transformer中的注意力頭學(xué)會專業(yè)化,各自為不同的語義角色路由信息。分類網(wǎng)絡(luò)將表征空間劃分為若干區(qū)域,這些區(qū)域的行為類似于混合成分。在含噪數(shù)據(jù)上訓(xùn)練的深度網(wǎng)絡(luò)展現(xiàn)出類似貝葉斯推斷的穩(wěn)健性模式:對離群點降權(quán),并在不同輸入間追蹤不確定性。這些行為在沒有顯式概率建模、沒有混合模型架構(gòu)、也沒有任何類似期望最大化(EM)算法的情況下涌現(xiàn)出來。

      標(biāo)準(zhǔn)解釋令人難以滿意。一種觀點認(rèn)為這些是規(guī)模的涌現(xiàn)屬性——足夠多的參數(shù)和數(shù)據(jù)以某種方式產(chǎn)生了統(tǒng)計結(jié)構(gòu)。另一種觀點將其視為架構(gòu)巧合,是特定設(shè)計選擇(如softmax歸一化或殘差連接)的產(chǎn)物。第三種觀點提供松散的類比:注意力“類似于”軟聚類;交叉熵“近似于”混合模型。這些解釋均未回答更深層的問題:為何是這些特定行為出現(xiàn),而非其他行為?又為何它們在如此不同的架構(gòu)和任務(wù)中如此可靠地出現(xiàn)?

      1.2 近期證據(jù)

      Aggarwal等人[2025a,b]的近期工作顯著深化了這一謎題。在受控實驗環(huán)境——“貝葉斯風(fēng)洞”(其中真實后驗可解析獲知)中,小型Transformer以低于1比特的精度復(fù)現(xiàn)了貝葉斯后驗。這并非近似的貝葉斯行為,而是與解析解在逐位置上精確、可驗證的一致。在相同條件下訓(xùn)練的容量匹配的MLP則完全失敗,表明該現(xiàn)象依賴于注意力的歸納偏置,而非僅靠優(yōu)化。

      更引人注目的是Aggarwal等人在梯度動態(tài)中發(fā)現(xiàn)的現(xiàn)象:注意力權(quán)重在訓(xùn)練早期即趨于穩(wěn)定,而值向量則持續(xù)精煉——這種雙時間尺度結(jié)構(gòu)與經(jīng)典期望最大化中的E步和M步相呼應(yīng)。值向量接收的更新由注意力加權(quán),恰如混合模型中原型接收由責(zé)任度加權(quán)的更新。作者提供了完整的一階分析,表明這一結(jié)構(gòu)并非偶然,而是系統(tǒng)性的。

      然而,Aggarwal等人明確將這種EM聯(lián)系刻畫為“結(jié)構(gòu)性的而非變分的”——是一種類比,而非推導(dǎo)。他們觀察到注意力行為類似EM,但并未聲稱EM是目標(biāo)函數(shù)的必然結(jié)果。在他們的框架下,為何交叉熵訓(xùn)練會產(chǎn)生貝葉斯幾何這一問題仍未解決。

      1.3 本文貢獻(xiàn)
      本文填補(bǔ)了這一空白。我們證明,對于在距離或能量上具有l(wèi)og-sum-exp結(jié)構(gòu)的目標(biāo)函數(shù),損失關(guān)于每個距離的梯度恰好等于對應(yīng)成分的后驗責(zé)任度。這并非近似,非相似,亦非類比。它是一個代數(shù)恒等式:


      直接的結(jié)果是,在此類目標(biāo)函數(shù)上的梯度下降就是期望最大化(EM),不過是連續(xù)執(zhí)行,而非采用離散的交替步驟。前向傳播計算非歸一化的似然;歸一化產(chǎn)生責(zé)任;反向傳播則將責(zé)任加權(quán)后的更新量傳遞給參數(shù)。無需引入輔助的潛在變量,也無需調(diào)用任何推理算法。架構(gòu)并非在近似EM——它就在實現(xiàn)EM,因為梯度本身就是責(zé)任。

      這重新定義了優(yōu)化與推理之間的關(guān)系。推理并非疊加在學(xué)習(xí)之上的獨立算法層,也不是對學(xué)習(xí)到的表征進(jìn)行的事后解釋。在我們所分析的目標(biāo)函數(shù)下,推理和優(yōu)化是同一計算過程在不同抽象層次上的體現(xiàn)。Aggarwal等人觀察到的貝葉斯結(jié)構(gòu)并非偶然出現(xiàn)的涌現(xiàn)屬性,而是由損失函數(shù)的幾何結(jié)構(gòu)所強(qiáng)制的。

      1.4 貢獻(xiàn)

      本文的貢獻(xiàn)刻意限定在較窄的范圍,可歸納為三個層次遞進(jìn)的論點。


      一種解釋。這一恒等式表明,在基于距離的對數(shù)和指數(shù)目標(biāo)函數(shù)上進(jìn)行梯度下降,執(zhí)行的是隱式期望最大化。E步是前向傳播;M步是參數(shù)更新;責(zé)任從未被顯式計算,因為它們就是梯度。EM并非被神經(jīng)訓(xùn)練所近似——而是被神經(jīng)訓(xùn)練所實現(xiàn)。

      一個統(tǒng)一框架。根據(jù)所施加約束條件的不同,同一種機(jī)制體現(xiàn)在三種學(xué)習(xí)模式中。在無監(jiān)督模式下,責(zé)任完全潛在,原型之間自由競爭。在條件模式——即注意力機(jī)制——下,責(zé)任基于共享的原型族,針對每個查詢重新計算。在約束模式——即交叉熵分類——下,監(jiān)督機(jī)制將其中一個責(zé)任鉗制到目標(biāo)值,而替代項之間的競爭仍然存在。這三種并非不同的現(xiàn)象,而是同一現(xiàn)象在不同邊界條件下的表現(xiàn)。

      2 幾何基礎(chǔ)

      本文的主要結(jié)論——即責(zé)任作為梯度涌現(xiàn)——建立在一個特定的幾何基礎(chǔ)之上。本節(jié)將確立這一基礎(chǔ)。我們首先借鑒先前工作的成果,總結(jié)將神經(jīng)網(wǎng)絡(luò)輸出解讀為距離或能量而非置信度的觀點。接著,我們定義適用于我們分析的那一類對數(shù)和指數(shù)目標(biāo)函數(shù)。最后,我們簡要回顧經(jīng)典期望最大化算法的結(jié)構(gòu),并非因為我們的方法需要它,而是為了建立一個參照點,以便與隱式EM進(jìn)行對比。

      2.1 基于距離的表示

      神經(jīng)網(wǎng)絡(luò)輸出的標(biāo)準(zhǔn)解釋將其視為置信度或分?jǐn)?shù),指示證據(jù)支持某一假設(shè)的強(qiáng)度。當(dāng)一個邏輯值(logit)很高時,表示網(wǎng)絡(luò)"相信"某個類別;當(dāng)一個注意力分?jǐn)?shù)很高時,表示一個查詢(query)與一個鍵(key)很"匹配"。這種解釋雖然直觀,但卻模糊了神經(jīng)網(wǎng)絡(luò)實際計算的幾何結(jié)構(gòu)。


      這種解釋并非為了方便而強(qiáng)加的一種建模選擇。它是仿射變換與分段線性激活函數(shù)組合而成的數(shù)學(xué)屬性。線性層的權(quán)重定義了一個基;偏置定義了沿該基的偏移量;激活函數(shù)則衡量偏差。變化的并非計算本身,而是我們賦予計算的語義。在本文中,我們采用基于距離的解釋,并將神經(jīng)網(wǎng)絡(luò)的輸出互換地稱為能量或距離。后續(xù)的結(jié)果——特別是將梯度識別為責(zé)任(responsibilities)——依賴于這種幾何框架。

      2.2 對數(shù)求和指數(shù)目標(biāo)函數(shù)

      給定為輸入 x 計算的一組距離或能量 {d1, d2, ..., dK},我們考慮如下形式的目標(biāo)函數(shù):


      這就是對數(shù)求和指數(shù)(LSE)目標(biāo)函數(shù)。它有一個自然的解釋:如果 exp(?dj) 表示組件 j 生成該輸入的未歸一化似然,那么 L 就是對數(shù)邊際似然——即某個組件生成該輸入的對數(shù)概率。最大化 L 會促使模型為每個輸入放置至少一個接近的原型。最小化 -L 則會鼓勵分離。


      這些責(zé)任是非負(fù)的且總和為一。它們表示在組件間均勻先驗的假設(shè)下,組件 j j對該輸入負(fù)責(zé)的后驗概率。


      2.3 經(jīng)典 EM 算法

      期望最大化算法是擬合帶有潛在分配的混合模型的經(jīng)典算法。它通過兩個交替的步驟進(jìn)行。

      在 E 步中,計算責(zé)任。給定當(dāng)前參數(shù),每個數(shù)據(jù)點根據(jù)相對似然被軟分配至每個組件:


      這些責(zé)任總和為一,并代表組件 j 生成該觀測值的后驗概率。

      在 M 步中,參數(shù)被更新。每個組件的參數(shù)被調(diào)整,以更好地擬合分配給它的數(shù)據(jù)點,并由責(zé)任進(jìn)行加權(quán):


      對于高斯混合模型而言,這簡化為計算責(zé)任加權(quán)的均值和協(xié)方差。
      其關(guān)鍵特性在于,每一個數(shù)據(jù)點都會影響每一個組件,但這種影響受到該組件對該數(shù)據(jù)點所承擔(dān)責(zé)任大小的控制。

      經(jīng)典的 EM 算法是離散且交替進(jìn)行的:先計算所有責(zé)任,然后更新所有參數(shù),接著重復(fù)此過程。E 步和 M 步是具有不同計算作用的獨立步驟。這種分離是算法層面的,并非本質(zhì)上的。


      3 主要結(jié)果:責(zé)任即梯度

      我們現(xiàn)在闡述并推導(dǎo)核心結(jié)果。推導(dǎo)過程是基礎(chǔ)的——僅需一次鏈?zhǔn)椒▌t的應(yīng)用——但其意義深遠(yuǎn)。我們證明,對于基于距離的對數(shù)求和指數(shù)(log-sum-exp)目標(biāo)函數(shù),關(guān)于每個距離的梯度恰好就是對應(yīng)組件的負(fù)責(zé)任。這一恒等式無需任何近似,并且對任何計算距離并通過梯度下降優(yōu)化 LSE 目標(biāo)的模型都成立。導(dǎo)數(shù)計算本身是教科書級別的;本文的貢獻(xiàn)在于認(rèn)識到所得的量恰好就是后驗責(zé)任,并且這使得每一個梯度步驟都變成了一個責(zé)任加權(quán)的更新。

      3.1 推導(dǎo)


      3.2 這意味著什么

      該定理有一個直接的解釋:責(zé)任并非必須被計算和存儲的量。它們是梯度。任何計算距離、應(yīng)用對數(shù)求和指數(shù)目標(biāo)函數(shù)并通過梯度下降更新參數(shù)的系統(tǒng),都已經(jīng)在計算責(zé)任——不是作為一個中間步驟,而是作為學(xué)習(xí)信號本身。

      注意,這個恒等式本身是純粹的代數(shù)結(jié)果——它對于任何對數(shù)求和指數(shù)目標(biāo)函數(shù)都成立,無論我們?nèi)绾谓忉屗婕暗母鱾€量。然而,EM(期望最大化)的解釋依賴于將 理解為距離,并將理解為后驗責(zé)任。數(shù)學(xué)結(jié)構(gòu)強(qiáng)制了梯度的形式;語義則賦予了它意義。


      其結(jié)果是,在 LSE 目標(biāo)函數(shù)上的梯度下降恰恰就是 EM 算法。它不是 EM 的近似。經(jīng)典 EM 中離散的交替過程——計算責(zé)任,然后更新參數(shù),再重復(fù)——坍縮為連續(xù)的、并行的優(yōu)化。每一個梯度步驟都是責(zé)任加權(quán)的更新。每一個訓(xùn)練過的網(wǎng)絡(luò)一直都在執(zhí)行 EM 算法。

      在本文中,"隱式 EM"指的是在對數(shù)求和指數(shù)目標(biāo)函數(shù)上進(jìn)行梯度下降時,責(zé)任加權(quán)的參數(shù)更新的出現(xiàn)——而非指坐標(biāo)上升式 EM 或關(guān)于收斂性的保證。

      3.3 條件

      該結(jié)果依賴于三個結(jié)構(gòu)條件。當(dāng)所有三個條件都滿足時,隱式EM動態(tài)是必然發(fā)生的——它們由數(shù)學(xué)原理強(qiáng)制決定。


      當(dāng)這些條件成立時,不存在額外的設(shè)計選擇來啟用或禁用類似 EM 的行為。這是目標(biāo)函數(shù)幾何結(jié)構(gòu)的必然結(jié)果。任何計算距離、通過指數(shù)函數(shù)進(jìn)行歸一化并使用梯度進(jìn)行訓(xùn)練的網(wǎng)絡(luò)架構(gòu),都會展現(xiàn)出隱式 EM。


      4 隱式推理的三種機(jī)制

      同樣的機(jī)制在不同的約束條件下有不同的表現(xiàn)形式:

      4.1 無監(jiān)督機(jī)制:混合學(xué)習(xí)

      在最純粹的情況下,對數(shù)求和指數(shù)目標(biāo)函數(shù)在沒有監(jiān)督的情況下運(yùn)行。模型計算從輸入到 K 個組件中每一個的距離 dj(x),并通過訓(xùn)練來最小化:


      這就是負(fù)對數(shù)邊際似然——經(jīng)典混合模型擬合中使用的目標(biāo)函數(shù)。所有組件競爭每一個輸入。沒有標(biāo)簽約束哪個組件應(yīng)該獲勝。


      結(jié)果是自發(fā)的特化。即使采用隨機(jī)初始化,組件也會在訓(xùn)練過程中分化。每個原型都會漂移到輸入空間中它持續(xù)承擔(dān)高責(zé)任的區(qū)域,同時將其它區(qū)域讓給競爭對手。聚類的出現(xiàn)并非因為指定了該目標(biāo),而是因為目標(biāo)函數(shù)的幾何結(jié)構(gòu)強(qiáng)制進(jìn)行了責(zé)任加權(quán)的更新。

      這種機(jī)制與混合模型上的經(jīng)典EM算法完全對應(yīng)。其固定點——以及通向固定點的路徑——都受相同的責(zé)任所支配。

      4.2 條件機(jī)制:注意力機(jī)制



      注意力權(quán)重恰好滿足了責(zé)任的定義。它們是非負(fù)的,在所有鍵上總和為一,并代表了每個鍵在多大程度上“解釋”了該查詢。輸出是值的責(zé)任加權(quán)組合:



      4.3 約束機(jī)制:交叉熵分類

      交叉熵分類引入了監(jiān)督信息,但這并未使其脫離隱式 EM 的框架。它只是對其施加了約束。




      錯誤類別之間的競爭保持不變。當(dāng)模型分類錯誤時,責(zé)任質(zhì)量分布在錯誤的答案中,每個錯誤答案都會接收到與其份額成正比的梯度信號。"錯得最離譜"的類別——即那些具有最高的類別——受到的懲罰最強(qiáng)烈。這不是均勻的排斥;而是責(zé)任加權(quán)的修正。


      交叉熵并不會消除 EM 動態(tài);它只是引導(dǎo)這些動態(tài)。M 步仍然根據(jù)各組件所承擔(dān)的責(zé)任比例對其進(jìn)行更新,但監(jiān)督信息會將該過程偏向一個預(yù)設(shè)的分配。這解釋了為什么交叉熵盡管形式簡單卻如此有效:它繼承了混合模型的軟競爭和自動加權(quán)特性,同時將這些動態(tài)導(dǎo)向一個有監(jiān)督的目標(biāo)。這個損失函數(shù)所起的作用,比其熟悉的形式所暗示的要更多。

      4.4 分類體系

      這三種機(jī)制——無監(jiān)督機(jī)制、條件機(jī)制和約束機(jī)制——在觀測對象和潛在變量上有所不同。但它們共享一個共同的結(jié)構(gòu):對距離進(jìn)行指數(shù)化,然后在候選項之間進(jìn)行歸一化。正是這個結(jié)構(gòu)產(chǎn)生了責(zé)任,而責(zé)任又產(chǎn)生了隱式 EM。

      關(guān)鍵因素是歸一化。當(dāng)輸出被歸一化時——無論是通過 softmax、通過對數(shù)求和指數(shù)配分函數(shù),還是通過任何強(qiáng)制總和為一的約束操作——組件之間就會產(chǎn)生競爭。一個組件似然的增加,必然會降低其他組件的相對似然。這種競爭是分配產(chǎn)生的根源:每個輸入被概率性地分配給各個組件,而梯度也相應(yīng)地分布。

      去除歸一化,這個結(jié)構(gòu)就會崩潰。考慮基于沒有配分函數(shù)的核(如高斯核)的目標(biāo)函數(shù),例如最大相關(guān)熵:


      在這里,每個組件獨立運(yùn)作。一個遠(yuǎn)離所有原型的點,會對所有原型產(chǎn)生微弱的梯度——不是因為責(zé)任被分配到了別處,而是因為沒有競爭存在來進(jìn)行分配。這里沒有隱式的 E 步,因為不存在責(zé)任。這種目標(biāo)函數(shù)增強(qiáng)了對異常值的魯棒性(遠(yuǎn)離所有原型的點被有效忽略),但完全失去了分配結(jié)構(gòu)。

      這厘清了設(shè)計空間。指數(shù)化將距離轉(zhuǎn)化為似然;歸一化將似然轉(zhuǎn)化為責(zé)任。兩者兼?zhèn)鋾r,隱式 EM 就不可避免。僅有指數(shù)化,模型獲得了魯棒性,但放棄了推理。目標(biāo)函數(shù)的選擇,本質(zhì)上是在決定模型應(yīng)該進(jìn)行分配還是應(yīng)該忽略——而這種選擇是在損失函數(shù)層面做出的,而非網(wǎng)絡(luò)架構(gòu)層面。

      5 與先前工作的關(guān)系

      本文推導(dǎo)出的結(jié)果并非孤立存在。它依賴于先前的工作來奠定其幾何基礎(chǔ),并且通過它所能解釋的近期實證發(fā)現(xiàn)而獲得重要性。本節(jié)將闡述本文的貢獻(xiàn)與三個方面工作的關(guān)聯(lián):基于距離的神經(jīng)表示解釋、近期關(guān)于 Transformer 中貝葉斯結(jié)構(gòu)的證據(jù),以及基于能量的學(xué)習(xí)和期望最大化方面的經(jīng)典成果。

      5.1 關(guān)于基于距離表示的先前工作

      在先前的工作 [Oursland, 2024] 中,我們奠定了本文所依賴的幾何解釋。該工作表明,標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)層——仿射變換后接 ReLU 或絕對值激活函數(shù)——計算出的量表現(xiàn)為與學(xué)習(xí)到的原型之間的距離。輸出是偏差,而非置信度;它們衡量的是輸入距離由權(quán)重定義的參考結(jié)構(gòu)有多遠(yuǎn)。這種解釋并非強(qiáng)加的,而是從所涉及操作的數(shù)學(xué)原理中推導(dǎo)出來的。

      本文以此幾何基礎(chǔ)為前提,提出了一個不同的問題:當(dāng)基于距離的表示在標(biāo)準(zhǔn)目標(biāo)函數(shù)下被優(yōu)化時,會發(fā)生什么?我們先前的工作并未涉及學(xué)習(xí)動態(tài)。它描述了神經(jīng)網(wǎng)絡(luò)表示什么,而非它們?nèi)绾螌W(xué)習(xí)。本文的貢獻(xiàn)在于表明,對距離采用對數(shù)求和指數(shù)目標(biāo)函數(shù)會產(chǎn)生責(zé)任加權(quán)的梯度,而這會引發(fā)出隱式 EM。

      這兩個結(jié)果是互補(bǔ)的,共同構(gòu)成了一幅完整的圖景。第一個結(jié)果指出:神經(jīng)網(wǎng)絡(luò)計算距離。第二個結(jié)果指出:用 LSE 目標(biāo)函數(shù)優(yōu)化距離就是在執(zhí)行推理。兩者互不包含。如果沒有距離的解釋,將梯度等同于責(zé)任只是一個形式上的趣聞。如果沒有梯度恒等式,距離的解釋描述的只是靜態(tài)的表示,無法說明它們是如何產(chǎn)生的。幾何基礎(chǔ)支撐了學(xué)習(xí)動態(tài);學(xué)習(xí)動態(tài)則證明關(guān)注幾何基礎(chǔ)是合理的。

      Aggarwal 等人 [2025b] 從靜態(tài)分析轉(zhuǎn)向動態(tài)分析,研究了交叉熵訓(xùn)練下注意力機(jī)制的梯度。他們推導(dǎo)出值向量接收的是責(zé)任加權(quán)的更新,并且注意力分?jǐn)?shù)會根據(jù)一種類似優(yōu)勢函數(shù)的規(guī)則進(jìn)行調(diào)整。他們觀察到一種雙時間尺度的結(jié)構(gòu):注意力模式早期就穩(wěn)定下來,而值向量則持續(xù)細(xì)化——這鏡像了經(jīng)典 EM 算法中的 E 步和 M 步。該分析十分透徹,并且與 EM 的平行關(guān)系是明確的。

      然而,作者們謹(jǐn)慎地將這種聯(lián)系描述為"結(jié)構(gòu)性的,而非變分性的"。他們觀察到注意力的行為類似于 EM,但并未斷言 EM 是目標(biāo)函數(shù)的必然結(jié)果。他們記錄了這種相似性,但未嘗試進(jìn)行推導(dǎo)。

      本文提供了這一推導(dǎo)。在基于距離的神經(jīng)輸出解釋下,梯度恒等式 ?L/?dj = ?rj 并非結(jié)構(gòu)上的類比,而是一個代數(shù)事實。Aggarwal 等人觀察到的類 EM 動態(tài)并非恰好出現(xiàn)在Transformer 中的涌現(xiàn)屬性——它們是由損失函數(shù)的幾何結(jié)構(gòu)強(qiáng)制決定的。任何計算距離并優(yōu)化對數(shù)求和指數(shù)目標(biāo)函數(shù)的模型,無論其是否類似于 Transformer,都會展現(xiàn)出相同的動態(tài)。

      這兩項貢獻(xiàn)之間的關(guān)系是觀察與解釋的關(guān)系。Aggarwal 等人以精確和嚴(yán)謹(jǐn)?shù)姆绞桨l(fā)現(xiàn)并記錄了該現(xiàn)象的實證證據(jù)。我們則提供了使該現(xiàn)象成為必然的理論機(jī)制。

      5.3 其他聯(lián)系

      LeCun 等人 [2006] 的基于能量的學(xué)習(xí)框架提供了重要的概念性支撐。該工作將學(xué)習(xí)重新定義為最小化能量函數(shù),其中概率通過指數(shù)化和歸一化推導(dǎo)得出。本文分析的對數(shù)求和指數(shù)目標(biāo)函數(shù)是基于能量的模型中"自由能"公式的一個特例。我們的貢獻(xiàn)在于表明,這個自由能關(guān)于組件能量的梯度恰好就是后驗責(zé)任——這個聯(lián)系在該框架中隱含存在,但據(jù)我們所知,此前未被作為一個形式恒等式明確提出。

      Dempster 等人 [1977] 提出了期望最大化算法,用于含隱變量的極大似然估計。他們將 E 步和 M 步定義為離散的、交替進(jìn)行的操作。本文表明,對于基于距離的目標(biāo)函數(shù),這些步驟坍縮為梯度下降:前向傳播隱式計算責(zé)任,反向傳播則應(yīng)用這些責(zé)任。這并非與經(jīng)典公式相矛盾,而是揭示出它是更普遍現(xiàn)象的一個特例。EM 不僅僅是一個可以選擇應(yīng)用的算法;它是某些目標(biāo)函數(shù)幾何結(jié)構(gòu)在基于梯度的優(yōu)化下的一個屬性。

      Vaswani 等人 [2017] 引入了以注意力為核心機(jī)制的 Transformer 架構(gòu)。最初的闡述強(qiáng)調(diào)注意力是一種軟檢索操作——查詢關(guān)注鍵以聚合值。隱式 EM 的視角將注意力重新定義為條件混合推理,其中注意力權(quán)重作為責(zé)任,值投影作為原型參數(shù)。這種解釋與最初的公式一致,但提供了架構(gòu)描述所缺乏的概率語義。

      混合專家模型 [Jacobs 等人, 1991] 使用顯式的門控網(wǎng)絡(luò)將輸入路由到專門的子網(wǎng)絡(luò)。門控權(quán)重?fù)Q個名字就是責(zé)任。區(qū)別在于架構(gòu):在混合專家模型中,門控是一個單獨的學(xué)習(xí)函數(shù);而在標(biāo)準(zhǔn)注意力和分類中,責(zé)任是作為目標(biāo)函數(shù)的梯度出現(xiàn)的,無需專門的門控機(jī)制。隱式 EM 揭示了混合專家模型中的顯式門控并非必需——任何對數(shù)求和指數(shù)目標(biāo)函數(shù)都會自動產(chǎn)生責(zé)任加權(quán)的路由。

      6 局限性與失效模式

      隱式 EM 框架并非普遍適用。它在特定條件下成立,而當(dāng)這些條件不滿足時,該分析也隨之失效。本節(jié)將界定其邊界:隱式 EM 在何種情況下不會出現(xiàn),即使出現(xiàn)時可能發(fā)生哪些病理現(xiàn)象,以及哪些現(xiàn)象完全超出其范圍。清晰地闡述局限性非但不會削弱,反而會加強(qiáng)本文的貢獻(xiàn)——它區(qū)分了精確的主張與過度的延伸。

      6.1 隱式EM不出現(xiàn)的情況


      在這種設(shè)置下,責(zé)任不存在。沒有一個量能在所有類別上總和為一;也沒有軟分配將輸入在不同候選項之間進(jìn)行分配。每個輸出通道孤立地運(yùn)作。一個點可能離所有原型同樣近,或者離所有原型同樣遠(yuǎn),而梯度不會重新分配——它們僅僅反映獨立的誤差。

      這不是架構(gòu)的失敗,而是缺少所需的目標(biāo)函數(shù)結(jié)構(gòu)。隱式 EM 源于競爭,而競爭源于歸一化。具有獨立輸出的系統(tǒng)可以學(xué)習(xí)到有用的表示,但它們不執(zhí)行混合推理,也不會展現(xiàn)出責(zé)任加權(quán)的動態(tài)。該框架的解釋范圍止于歸一化失效之處。

      6.2 尺度與坍縮

      完整的高斯混合模型在似然函數(shù)中包含一個對數(shù)行列式項——這是對每個組件協(xié)方差體積的懲罰。這一項防止了坍縮:沒有它,組件可以將其協(xié)方差收縮為零,在單個點上放置無限密度,從而獲得無界似然。當(dāng)協(xié)方差坍縮時,對數(shù)行列式會發(fā)散,從而平衡密度的增長。

      大多數(shù)神經(jīng)網(wǎng)絡(luò)目標(biāo)函數(shù)省略了這一項。交叉熵和注意力 softmax 在距離或分?jǐn)?shù)上操作,沒有顯式的體積懲罰。隱式 EM 動態(tài)仍然成立——梯度仍然是責(zé)任加權(quán)的——但沒有什么能阻止學(xué)習(xí)到的度量發(fā)生退化。網(wǎng)絡(luò)可以學(xué)會將所有輸入映射到鄰近的點,從而坍縮距離結(jié)構(gòu)并使責(zé)任變得無意義。

      在實踐中,坍縮通常通過隱式機(jī)制來避免:權(quán)重衰減正則化投影的尺度;層歸一化約束激活值的幅度;像殘差連接這樣的架構(gòu)選擇則保留了信號的多樣性。這些干預(yù)措施是有效的,但它們并非源自目標(biāo)函數(shù)——它們只是恰好穩(wěn)定了幾何結(jié)構(gòu)的啟發(fā)式方法。

      隱式 EM 框架闡明了為什么坍縮是一種風(fēng)險。當(dāng)組件根據(jù)其責(zé)任比例進(jìn)行更新時,一個捕獲了稍多概率質(zhì)量的組件會接收到更強(qiáng)的梯度,進(jìn)而捕獲更多質(zhì)量,并可能完全主導(dǎo)。這種正反饋是 EM 動態(tài)固有的,在經(jīng)典模型中由體積項控制。神經(jīng)網(wǎng)絡(luò)移除了這種控制,并依賴其他機(jī)制來填補(bǔ)這一空白。該框架并未解決這個問題;它解釋了問題為何存在。

      6.3 監(jiān)督約束

      在無監(jiān)督機(jī)制下,責(zé)任完全是潛在的——僅由數(shù)據(jù)決定哪些組件擁有哪些輸入。監(jiān)督學(xué)習(xí)改變了這一點。標(biāo)簽聲明了哪個組件應(yīng)該承擔(dān)責(zé)任,覆蓋了幾何結(jié)構(gòu)原本可能決定的結(jié)果。

      這種約束強(qiáng)大但僵化。交叉熵訓(xùn)練強(qiáng)制正確類別的責(zé)任趨近于 1,無論輸入是靠近該類別原型還是遠(yuǎn)離所有原型。一個與所有類別邊界等距的輸入仍然會得到一個硬標(biāo)簽;模型必須將其分配到某處。在錯誤類別之間,責(zé)任的軟性、分級結(jié)構(gòu)依然存在,但正確類別是被"夾住"的。

      其后果之一是封閉世界的假設(shè)。Softmax 歸一化保證了責(zé)任之和為 1——某個類別必須為每個輸入承擔(dān)全部責(zé)任。沒有"以上皆非"的選項,模型無法將輸入視為所有已知類別之外的異類而予以拒絕。一個分布外的輸入,無論多么異常,都會被分配到距離最小的那個類別,并且模型的置信度可能任意高。

      6.4 該框架無法解釋的內(nèi)容

      隱式 EM 框架解釋了一種現(xiàn)象:基于距離的目標(biāo)函數(shù)中責(zé)任加權(quán)學(xué)習(xí)動態(tài)的出現(xiàn)。它并不能解釋神經(jīng)網(wǎng)絡(luò)所做的所有事情。

      泛化能力——即網(wǎng)絡(luò)為何能在未見數(shù)據(jù)上表現(xiàn)良好——并未涉及。該框架描述了訓(xùn)練的動態(tài)過程,而非那些能夠?qū)崿F(xiàn)訓(xùn)練分布之外泛化的歸納偏置。規(guī)模法則——即模型大小、數(shù)據(jù)和性能之間可預(yù)測的關(guān)系——完全不在該分析的范圍內(nèi)。梯度恒等式本身并未說明性能應(yīng)如何隨參數(shù)或計算量擴(kuò)展。

      長程推理、規(guī)劃以及序列決策涉及該框架未能捕獲的時間結(jié)構(gòu)。隱式EM描述了單個輸入如何被軟分配到各個組件,以及這些組件如何更新。它并未描述表征如何隨時間組合、目標(biāo)如何通過動作序列反向傳播,或者模型如何學(xué)習(xí)搜索。

      涌現(xiàn)能力——即隨著規(guī)模擴(kuò)大而突然出現(xiàn)的性質(zhì)上的新行為——仍未得到解釋。該框架沒有說明為何某些能力會不連續(xù)地出現(xiàn),或者為何它們需要特定的模型規(guī)模閾值。如果涌現(xiàn)能力源自隱式EM動態(tài),其聯(lián)系并不明顯;如果它們源自其他機(jī)制,該框架則對此保持沉默。

      這些并非分析的失敗,而是其范圍的邊界。本文的貢獻(xiàn)在于精確地識別并推導(dǎo)出一種機(jī)制,而非解釋整個深度學(xué)習(xí)。明確主張的范圍可以防止過度解讀——并為解釋隱式EM無法觸及的現(xiàn)象留下補(bǔ)充說明的空間。

      7 討論

      本節(jié)反思隱式EM框架統(tǒng)一了哪些內(nèi)容,它對我們理解神經(jīng)網(wǎng)絡(luò)的方式有何啟示,以及它為未來的工作留下了哪些待解決的問題。

      7.1 統(tǒng)一性

      該框架揭示出,高斯混合模型、注意力機(jī)制和交叉熵分類并非三種具有表面相似性的不同方法。它們是在不同約束條件下運(yùn)作的同一種機(jī)制。在GMM中,責(zé)任完全是潛在的。在注意力機(jī)制中,責(zé)任以查詢?yōu)闂l件,并為每個輸入重新計算。在交叉熵中,責(zé)任受到監(jiān)督信息的部分約束。其底層動態(tài)——指數(shù)化、歸一化、責(zé)任加權(quán)更新——是相同的。

      這暗示了我們在解讀神經(jīng)網(wǎng)絡(luò)訓(xùn)練方式上的轉(zhuǎn)變。概率常被視為原始量:我們定義分布,推導(dǎo)似然,然后進(jìn)行優(yōu)化。隱式EM的視角則反轉(zhuǎn)了這一關(guān)系。距離是首要的。網(wǎng)絡(luò)計算幾何量——與所學(xué)結(jié)構(gòu)的偏差——而概率僅在指數(shù)化和歸一化之后才出現(xiàn)。幾何先于概率;推理是在幾何目標(biāo)上進(jìn)行優(yōu)化的結(jié)果。

      在這種觀點下,損失函數(shù)并非為追求性能而任意選擇的。它們是幾何先驗。交叉熵編碼了一種假設(shè),即輸入應(yīng)被完全地分配給離散類別。距離的對數(shù)和指數(shù)假設(shè)輸入源于潛在原因的混合。相關(guān)熵假設(shè)異常值應(yīng)被忽略。每個目標(biāo)函數(shù)都會引發(fā)不同的分配幾何結(jié)構(gòu)和不同的梯度流模式。選擇一個損失函數(shù),就是選擇一種關(guān)于數(shù)據(jù)如何與結(jié)構(gòu)相關(guān)聯(lián)的理論——無論這種選擇是有意還是無意的。

      7.2 意義

      對于可解釋性而言,該框架提供了一條從訓(xùn)練動態(tài)到語義結(jié)構(gòu)的直接路徑。如果責(zé)任就是梯度,那么網(wǎng)絡(luò)所做的分配就不再是需要探測或事后分析的隱藏量。它們存在于反向傳播中,在每個訓(xùn)練步驟都被計算。"哪個組件對這個輸入負(fù)責(zé)?"這個問題在梯度本身中就有一個答案。這并不能解決可解釋性的全部問題——理解一個組件為何承擔(dān)責(zé)任需要進(jìn)一步分析——但它將分配結(jié)構(gòu)定位在一個已被計算出的量中,而非一個必須被提取出來的量。

      對于目標(biāo)函數(shù)設(shè)計而言,該分析將對數(shù)和指數(shù)函數(shù)重新定義為一種結(jié)構(gòu)性要求,而非僅僅是數(shù)值上的便利。引入Softmax通常是為了避免溢出或產(chǎn)生性質(zhì)良好的梯度。隱式EM的視角揭示了一個更深層的作用:對數(shù)和指數(shù)函數(shù)引發(fā)了競爭,競爭產(chǎn)生了責(zé)任,而責(zé)任則使學(xué)習(xí)表現(xiàn)得像推理。如果需要類似推理的行為,LSE結(jié)構(gòu)就是必不可少的。如果不需要這種行為——如果更傾向于獨立的預(yù)測或魯棒的異常值處理——那么就應(yīng)該有意識地避免使用LSE。這個選擇無關(guān)數(shù)值穩(wěn)定性;它關(guān)乎目標(biāo)函數(shù)將產(chǎn)生何種類型的學(xué)習(xí)動態(tài)。

      對于理論而言,該框架消解了一個長期存在的分野。優(yōu)化和推理傳統(tǒng)上是不同的:一個關(guān)注尋找最小化損失的參數(shù),另一個關(guān)注計算潛在變量的后驗。隱式EM的結(jié)果表明,在正確的目標(biāo)函數(shù)下,這兩者是同一過程在不同層次上的觀察。當(dāng)梯度就是責(zé)任時,梯度下降就是推理。這并不是聲稱所有優(yōu)化都是推理,而是指對于一類明確界定的目標(biāo)函數(shù),其間的區(qū)別消失了。前向傳播計算后驗;反向傳播應(yīng)用后驗。訓(xùn)練就是推理,在整個數(shù)據(jù)集上持續(xù)進(jìn)行。

      7.3 開放方向

      仍有幾個方向待探索。神經(jīng)目標(biāo)函數(shù)中缺乏體積控制——缺失的對數(shù)行列式——導(dǎo)致了目前由啟發(fā)式方法管理的坍縮風(fēng)險。一個原則性的方法要么從架構(gòu)選擇中推導(dǎo)出隱含的體積項,要么設(shè)計顯式包含這些項的目標(biāo)函數(shù)。理解歸一化層何時能夠替代體積控制,何時不能,這將把隱式EM框架與實際訓(xùn)練中的穩(wěn)定性問題聯(lián)系起來。

      現(xiàn)實環(huán)境中的監(jiān)督很少是干凈的。標(biāo)簽可能帶有噪聲、是部分的或不確定的。約束機(jī)制的分析假設(shè)硬標(biāo)簽?zāi)芫_地固定責(zé)任;更全面的處理應(yīng)將軟性或概率性監(jiān)督建模為對責(zé)任結(jié)構(gòu)的部分約束。這可能將半監(jiān)督學(xué)習(xí)、標(biāo)簽平滑以及從眾包標(biāo)注中學(xué)習(xí)統(tǒng)一到隱式EM框架下。

      開放集推理需要擺脫封閉世界的假設(shè)。當(dāng)前的目標(biāo)函數(shù)強(qiáng)制每個輸入都被分配;現(xiàn)實的部署需要提供拒絕的選項。支持非分配的目標(biāo)函數(shù)——一個顯式的"以上皆非"組件,或者一個低于其則沒有組件承擔(dān)責(zé)任的門檻——將把隱式EM擴(kuò)展到并非所有輸入都屬于已知類別的環(huán)境中。

      最后,需要診斷工具。如果訓(xùn)練好的網(wǎng)絡(luò)執(zhí)行了隱式EM,那么這應(yīng)該是可以測量的:從梯度中提取責(zé)任,追蹤訓(xùn)練過程中的特化,檢測機(jī)制何時失效或退化。這樣的工具將把該框架從解釋性理論轉(zhuǎn)變?yōu)閷嵱霉ぞ?,使研究人員能夠驗證給定模型是否展現(xiàn)出理論預(yù)測的動態(tài)。


      8 結(jié)論


      其意義是直接的。在基于距離的對數(shù)求和指數(shù)目標(biāo)函數(shù)上進(jìn)行梯度下降,隱式地執(zhí)行了期望最大化算法。責(zé)任并非作為輔助量計算得到;它們就是梯度本身。前向傳播是 E 步;反向傳播是 M 步。不需要顯式的推理算法,因為推理已經(jīng)嵌入在優(yōu)化之中。

      這種機(jī)制統(tǒng)一了以往被視為不同的現(xiàn)象。無監(jiān)督混合學(xué)習(xí)、Transformer 中的注意力機(jī)制以及交叉熵分類,是同一底層過程的三種表現(xiàn)形式——它們在觀測內(nèi)容和潛在變量上有所不同,但受相同的動態(tài)所支配。最近在訓(xùn)練好的 Transformer 中觀察到的貝葉斯結(jié)構(gòu)并非一個涌現(xiàn)的謎團(tuán);它是用于訓(xùn)練它們的目標(biāo)函數(shù)的必然結(jié)果。

      優(yōu)化和推理是同一過程在不同尺度上的觀察。

      原文鏈接:https://arxiv.org/pdf/2512.24780

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      大戰(zhàn)可能馬上開始了

      大戰(zhàn)可能馬上開始了

      安安說
      2026-02-25 10:11:39
      全球首款:三星Galaxy S26 Ultra手機(jī)支持APV編解碼器

      全球首款:三星Galaxy S26 Ultra手機(jī)支持APV編解碼器

      IT之家
      2026-02-26 07:34:32
      400億!沈騰徹底飛馳了

      400億!沈騰徹底飛馳了

      華商韜略
      2026-02-25 10:34:36
      升級版的仙人跳,比戴綠帽子還憋屈

      升級版的仙人跳,比戴綠帽子還憋屈

      霹靂炮
      2026-02-24 22:53:34
      克格勃的悲哀:偷到的西方技術(shù),卻是壓垮蘇聯(lián)的最后一根稻草

      克格勃的悲哀:偷到的西方技術(shù),卻是壓垮蘇聯(lián)的最后一根稻草

      呂醿極限手工
      2026-02-21 07:47:57
      “初十3不動,動了一年窮”,明日正月初十“地生日”,傳統(tǒng)要懂

      “初十3不動,動了一年窮”,明日正月初十“地生日”,傳統(tǒng)要懂

      小茉莉美食記
      2026-02-25 09:43:12
      煮湯圓,有人用開水,用冷水!廚師長:都不對,教您做法,不粘鍋

      煮湯圓,有人用開水,用冷水!廚師長:都不對,教您做法,不粘鍋

      阿龍美食記
      2026-02-23 17:09:09
      北京93歲老人終身未娶、無兒無女,去世前將千萬財產(chǎn)贈與照顧其12年的鄰居,法院判了

      北京93歲老人終身未娶、無兒無女,去世前將千萬財產(chǎn)贈與照顧其12年的鄰居,法院判了

      大風(fēng)新聞
      2026-02-24 23:13:12
      陳嵐任四川省委宣傳部副部長、省委網(wǎng)信辦主任

      陳嵐任四川省委宣傳部副部長、省委網(wǎng)信辦主任

      汲古知新
      2026-02-24 23:25:54
      1比3爆冷出局!21歲日本女單主力遭淘汰,孫穎莎沖冠之路有大勁敵

      1比3爆冷出局!21歲日本女單主力遭淘汰,孫穎莎沖冠之路有大勁敵

      卿子書
      2026-02-25 08:58:03
      別再存定期了!央行釋放重要信號:普通人的財富保衛(wèi),主戰(zhàn)場已變

      別再存定期了!央行釋放重要信號:普通人的財富保衛(wèi),主戰(zhàn)場已變

      復(fù)轉(zhuǎn)小能手
      2026-02-24 17:31:33
      太慘了!冬奧保安被凍死在崗,波蘭選手冰刀直插眼球…

      太慘了!冬奧保安被凍死在崗,波蘭選手冰刀直插眼球…

      新歐洲
      2026-02-25 19:35:40
      WTT新加坡大滿貫八強(qiáng)對陣:孫穎莎內(nèi)戰(zhàn),王曼昱對韓朱雨玲

      WTT新加坡大滿貫八強(qiáng)對陣:孫穎莎內(nèi)戰(zhàn),王曼昱對韓朱雨玲

      五姑娘臺球
      2026-02-25 21:38:38
      浴缸陪睡只是冰山一角,多位助理服務(wù)明星方式曝光,一個個太離譜

      浴缸陪睡只是冰山一角,多位助理服務(wù)明星方式曝光,一個個太離譜

      完善法
      2026-02-26 01:16:24
      母親是短跑強(qiáng)國的黑人,父親是中國人,混血球員朱正現(xiàn)狀如何?

      母親是短跑強(qiáng)國的黑人,父親是中國人,混血球員朱正現(xiàn)狀如何?

      窺史
      2026-02-25 15:49:11
      都說不去日本,春節(jié)赴日的卻是這群人!日媒暗訪揭示內(nèi)幕

      都說不去日本,春節(jié)赴日的卻是這群人!日媒暗訪揭示內(nèi)幕

      一盅情懷
      2026-02-25 18:35:34
      最讓大齡剩女崩潰的是什么?網(wǎng)友:為啥我一個單身狗看的津津有味

      最讓大齡剩女崩潰的是什么?網(wǎng)友:為啥我一個單身狗看的津津有味

      帶你感受人間冷暖
      2026-02-22 16:13:39
      悲?。?0歲球員生日夜毆打母親 決絕跳海赴死:第1次失敗后重跳

      悲劇!20歲球員生日夜毆打母親 決絕跳海赴死:第1次失敗后重跳

      風(fēng)過鄉(xiāng)
      2026-02-25 10:32:10
      從王濛蒙冤到米蘭冬奧慘?。壕W(wǎng)友為何死咬王春露不放?這才是真相

      從王濛蒙冤到米蘭冬奧慘?。壕W(wǎng)友為何死咬王春露不放?這才是真相

      老馬拉車莫少裝
      2026-02-22 12:19:12
      3-2!附加賽4大豪門出局:尤文無緣逆轉(zhuǎn)+意甲1隊晉級,2黑馬攪局

      3-2!附加賽4大豪門出局:尤文無緣逆轉(zhuǎn)+意甲1隊晉級,2黑馬攪局

      體育知多少
      2026-02-26 07:34:49
      2026-02-26 08:19:00
      CreateAMind incentive-icons
      CreateAMind
      CreateAMind.agi.top
      1240文章數(shù) 18關(guān)注度
      往期回顧 全部

      科技要聞

      “機(jī)器人只跳舞,沒什么用”

      頭條要聞

      日本計劃部署導(dǎo)彈部隊距臺灣僅110公里 中方強(qiáng)硬表態(tài)

      頭條要聞

      日本計劃部署導(dǎo)彈部隊距臺灣僅110公里 中方強(qiáng)硬表態(tài)

      體育要聞

      勇士爆冷惜敗鵜鶘 梅爾頓28分賽季新高

      娛樂要聞

      黃曉明新戀情!與小22歲美女同游新加坡

      財經(jīng)要聞

      上海樓市放大招,地產(chǎn)預(yù)期別太大

      汽車要聞

      750km超長續(xù)航 2026款小鵬X9純電版將于3月2日上市

      態(tài)度原創(chuàng)

      健康
      時尚
      藝術(shù)
      手機(jī)
      公開課

      轉(zhuǎn)頭就暈的耳石癥,能開車上班嗎?

      “復(fù)古甜心”穿搭突然大火!春天穿時髦又減齡

      藝術(shù)要聞

      這些作品太美了,仙氣飄飄,三位大咖不容錯過!

      手機(jī)要聞

      小米還是第一,vivo已不是第二,OPPO、榮耀順延

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進(jìn)入關(guān)懷版