![]()
導語
對大規模量子系統(尤其是量子模擬器和巨型量子計算機產生的系統)進行高效刻畫,是量子科學領域面臨的核心挑戰,這源于希爾伯特空間隨系統規模呈指數級增長的特性。近年來,人工智能(AI)憑借其在高維模式識別和函數逼近方面的卓越能力,已成為應對這一挑戰的利器。越來越多的研究將 AI 應用于可擴展量子系統的表征與建模,從理論基礎到實驗實現均有所涉獵。根據如何整合先驗知識和學習架構,AI 在量子系統表征中的應用可歸納為三大協同范式:機器學習(特別是深度學習和語言模型)。本文綜述了這些 AI 范式如何助力量子系統表征的兩大核心任務——量子屬性預測與量子態替代模型構建。這些任務支撐著從量子認證、基準測試到量子算法優化、強關聯物質相理解等多樣化應用。文中還探討了關鍵挑戰與未解問題,并展望了 AI 與量子科學交叉領域的未來前景。
關鍵詞:??智能、量?系統表征、量?屬性預測、量?態替代模型、量?多體系統
杜玉軒、朱燕等丨作者
羅云丨譯者
張江丨審校
![]()
論文題目:Artificial intelligence for representing and characterizing quantum systems 論文鏈接:https://arxiv.org/pdf/2509.04923 發表時間:2025年9月5日 論文來源:arxiv
關鍵點
人工智能模型可以用來以數據驅動的方式表示和刻畫可擴展的量子系統,以完成量子屬性預測和隱式地去近似量子態重建的任務。
已設計出用于表征可擴展量子系統的線性特性并分類量子相,并被證明是高效的機器學習模型。
深度學習模型通過表征學習為預測多種量子特性提供了強大工具,同時還能利用生成式建模方法隱式地重構量子態。
基于 GPT 架構的語言模型,為自回歸的方式表征大量量子態家族提供了靈活框架,為量子系統基礎模型的構建鋪平道路,并為研究與應用開辟了新方向。
I. 引言
量子工程領域的最新進展使得制造和控制高度復雜的量子器件變得越來越常規化[34,149,173,232,256]。這些發展使得利用可擴展量子模擬器探索量子多體系統[13,174,285]以及構建量子計算機[7,29,77,98,197]成為可能,而且人們正朝著“超級量子”時代邁進(例如處理約 100 個邏輯量子比特,深度約 10000[197])。然而,隨著實驗室中可操作的量子系統的規模不斷擴大給人們帶來了新挑戰。由于量子比特數量的指數級增長導致狀態空間急劇擴大,現代量子模擬器和量子計算機生成的量子系統在描述和表征方面變得極其困難。經典模擬器如張量網絡[194]雖能捕捉重要類態,卻無法模擬高糾纏態的行為。雖然針對克利福德電路(Clifford circuits)的定制方法能實現高效模擬,但擴展到包含非克利福德(non Clifford)門電路時,計算成本通常會隨非克利福德操作的數量呈指數級增長,這種現象通常用“魔法”(magic)概念來形容[2,5,35]。這些挑戰要求我們采用新方法,以獲取經典模擬器計算能力無法精確存儲的量子系統特性。
過去十年間,人工智能技術因其在大數據中識別模式與關聯的能力,已成為破解量子系統表征難題的有力工具。參考文獻[103]系統梳理了貝葉斯推斷、淺層架構神經網絡及基礎訓練算法等早期 AI 技術在量子系統研究中的應用。近年來,生成式預訓練 Transformers(GPT)[204]的突破性進展,以及量子學習理論[14]的深化,推動了大規模量子系統表征方法的創新。這些技術突破顯著提升了人工智能模型在理解量子多體物理學和量子計算領域的應用水平[12,57,65,78,81,89, 130, 132, 136, 147, 157, 164, 166, 183, 186, 193, 199, 213, 236, 245, 246, 268, 271, 282–284, 289, 296, 299, 302, 303]。面對如此迅猛的發展態勢,系統梳理核心研究成果并明確未來研究方向,已成為指導人們后續探索的關鍵任務。
在本綜述中,我們系統梳理了自 2022 年以來人工智能在量子系統表征(representation)與刻畫(characterizing)領域的最新進展,重點聚焦理論基礎與算法創新。具體而言,我們按照人工智能模型的方法論層級結構組織這些研究進展,包括機器學習(ML)——其中涵蓋了深度學習(DL)作為重要分支,以及語言模型(LMs)作為深度學習架構的特定類別,如圖 2 所示。與許多其他領域不同,人工智能新方法并非取代舊技術,量子系統表征領域的進步得益于多種模型的互補優勢。為闡明機器學習、深度學習和語言模型在該領域的應用,我們采用任務導向視角,重點聚焦三大核心任務:(1)預測量子系統的線性特性,(2)預測非線性特性的實例,(3)重構量子態與過程。如圖 1 所示,這些任務支撐著廣泛的應用場景,包括量子認證與基準測試[86]、量子硬件表征[10]、變分量子算法優化[50]以及奇異量子相位發現[43]。從概念層面看,層析重建與特性測試方法正日益被視為量子學習理論的重要組成部分[14,17],這反映出人們思維方式的轉變。
關于人工智能在量子物理學領域的應用,已有諸多綜述文獻,涵蓋物理學領域的人工智能應用[3,43,75,277]、量子計算與量子技術中的人工智能應用[3,10,154]、量子模擬中的語言模型[175]、量子陰影層析成像(quantum shadow tomography)[86,88,129]、神經量子態[48,75,159]以及變分量子算法[27,50,80]等主題。盡管多數綜述聚焦于特定領域的人工智能模型應用,但我們的研究視角截然不同。我們通過不同人工智能方法論的視角來分析這些應用,探索更廣泛的人工智能技術在量子模擬器和量子計算機所生成的量子系統表征與刻畫中的應用。研究范圍涵蓋從具有理論保證的機器學習方法到前沿基礎模型(如 GPTs)等,分別突出其優勢與局限性。
在本綜述中,我們特別聚焦于以數據驅動方式表征和描述量子系統的 AI 模型。因此,變分神經量子態方法并非主要研究方向[48]。與此同時,我們強調可擴展的 AI 方法在學習量子系統時,如何突破傳統非機器學習方法中固有的維度詛咒。相反,針對小規模量子系統設計的 AI 方法(例如用于重構未知量子態密度矩陣的技術[159]),由于無法推廣到可擴展量子系統,故已超出本綜述的核心關注范圍。此外,利用 AI 方法自適應地精準控制量子系統并提取知識的應用同樣重要,但這也超出了本綜述的討論范疇。由于我們側重理論與算法進展,實驗工作并非主要研究重點——盡管需要明確的是,所討論的方法在實驗領域具有直接應用價值。本文僅涵蓋那些支持理論或算法突破的實驗成果。
![]()
圖1. 利用人工智能表征與刻畫量子系統的關鍵任務與應用場景概覽。通過量子模擬器生成的基態表征、數字量子計算機生成的量子態表征,可歸納為三大核心任務:線性特性預測、非線性特性預測以及量子態與過程重構。每個任務又細分為體現具體目標的子類別。底部圖標標注了各任務通常采用的人工智能范式,即圖2中提及的機器學習模型、深度學習模型和語言模型。這些方法的現有及潛在應用包括:量子算法優化、量子設備認證與性能評估、量子硬件研發以及科學發現。
![]()
圖2. 人工智能模型學習大規模量子系統的概述。層次結構反映了人工智能模型能力的提升及其對處理大規模量子系統適應性的增強,從廣泛的人工智能概念到機器學習模型、深度學習模型以及基于Transformer的模型。每個類別中的代表性策略用綠色圓圈標出。符號‘NN’、‘ NQS ’和‘LLM’分別指神經網絡、神經量子態和大型語言模型。序列模型包括循環神經網絡、 LSTM 及相關架構。
II. 學習范式的概況
要大規模運用人工智能對量子系統進行表征和刻畫,關鍵在于設計能夠識別量子系統家族中相關模式和結構特征的學習模型。經過訓練后,這些模型就能對訓練過程中遇到的具有相似特征的未知量子系統進行泛化。這種數據驅動的方法與傳統做法截然不同——傳統方法往往孤立處理每個系統,無法利用可遷移的洞見。
現有針對可擴展量子系統的學習協議主要研究兩類量子態:(i) 模擬量子模擬(analog quantum simulation)中的態,例如哈密頓基態;(ii)數字量子計算中的態,即由量子電路產生的態。對于這兩類態,學習目標都是從具有共同物理結構的訓練態集合中進行泛化,以準確預測特定物理特性(如磁化強度和保真度)或重構超出訓練數據范圍的量子態。如圖 1 所示,該領域核心學習任務包括線性和非線性特性預測(見方框 1)以及量子系統的重構。
H(x)|ψ(x)?= E 0 (x)|ψ(x)?
為了說明這一點,我們接下來簡要回顧如何將量子系統的表征和刻畫重新表述為學習任務。以哈密頓基態為例,我們考慮一個由哈密頓量 {H(x)|x∈ R d } 組成的家族,每個哈密頓量由一組相對較小的實參數 x 定義,這些參數定義了一些概念類。例如,在橫向場伊辛模型中,參數 x 編碼了相互作用強度和外部場強度。哈密頓基態向量 H(x) 的基態矢量記為 |ψ(x)? ,其中 |ψ(x)? 由 x 參數化的純量子態。假設 |ψ(x)? 滿足
H(x)|ψ(x)?= E 0 (x)|ψ(x)?
其中 E 0 (x) 是 H(x) 的最低本征值。在訓練階段,學習模型在包含 x 的采樣值及其相關測量結果數據 |ψ(x)? 的經典數據集上進行訓練。在預測階段,這些訓練好的學習模型被應用于預測狀態向量 |ψ( x ′ )? 的物理性質或重建以前未見過的參數 x ′ 的經典表示。
![]()
圖3. 量子系統學習協議框架。現有的用于表示和表征可擴展量子系統的模型通常包括三個階段:數據收集、模型實現與優化以及模型預測。左圖展示了數據收集階段,其中量子系統被制備成具有參數 x (i) 和輔助信息 z (i) 的狀態。然后,制備好的量子態 ρ( x (i) ) 被測量 T 次以獲得測量結果 s (i) 。中間圖說明了數據集構建和模型實現的不同階段。一旦收集到原始數據集 τ ,應將其預處理為特定任務的數據集 τ ML 、 τ DL 和 τ LM ,分別用于訓練基于機器學習、深度學習和邏輯門的模型。右圖展示了模型預測階段。根據預測過程是否需要量子測量數據作為輸入,學習協議被分類為基于測量的和與測量無關的。
Box 1: Linear and nonlinear property prediction
方框1:線性和非線性屬性預測
預測量子態 ρ 的線性特性是指估計 ρ 上一組可觀測量 D 的期望值,即 {Tr(ρO)|O∈D} 典型例子包括能量、磁化強度和關聯函數。預測量子態 ρ 的非線性特性是指估計可以表示為 Tr(f(ρ,O)) 的物理量,其中函數 f(.,.) 對于量子態 ρ 是非線性的。典型例子包括馮·諾依曼熵,其中 f(ρ,1)=?ρ log ?ρ ,以及烏爾曼保真度,其中 , σ 表示混合量子態
|ψ(x)?=U(x)| ψ 0 ? ,
在數字量子計算領域,一個例子是由參數化量子電路 U(x) 制備的一組量子態,該電路由一組固定的門和一組可調門組成,這些可調門由例如 x∈[?π,π ) d 參數化。給定任意 x,對應的量子態向量為
|ψ(x)?=U(x)| ψ 0 ?
其中 | ψ 0 ? 是一個固定的 N 量子比特的初始態向量。在這種設置下,訓練和預測的兩個階段類似于學習哈密頓量基態的過程。
根據學習范式不同,現有用于表征和刻畫量子系統的協議可分為機器學習(ML)、深度學習(DL)和語言模型(LM)三種方法。盡管模型架構和應用范圍存在差異,但這些協議都遵循包含三個階段的通用工作流程:數據收集、模型實現與優化、模型預測,如圖3所示。
在接下來的內容中,我們將概述協議中每個階段三種學習范式的聯系與差異,詳細討論將留待后續內容討論。根據應用的不同,我們將使用狀態向量表示 |ψ(x)? 或密度矩陣表示 ρ(x) 。
A. 數據收集
一般而言,訓練數據集可以表示為
![]()
的形式,其中 n 表示訓練樣本的數量, x (i) 和 z (i) 分別代表每個訓練樣本的經典描述和輔助信息, s (i) 表示第 i 個訓練樣本 ρ( x (i) ) 的測量數據,共 T 次采樣。例如,如圖3所示,當 |ψ( x (i) )? 由數字量子計算機在等式(2)中生成時, x (i) 表示可調門中的旋轉角度, z (i) 表示 U( x (i) ) 的門布局, s (i) 表示 |ψ( x (i) )? 的測量結果。需要注意的是,等式(3)中的數據集 τ 采用了最全面的形式。根據學習協議的不同,可以省略單獨的輔助信息 s (i) ,或省略輔助信息 s (i) 與經典描述 x (i) 的組合。
方框2:人工智能術語
監督學習、半監督學習、自監督學習和無監督學習
人工智能學習范式通常分為監督學習、自監督學習、半監督學習和無監督學習四大類,它們在使用標注數據與未標注數據的方式上各有不同。監督學習模型通過標注數據集進行訓練,學習輸入與輸出之間的映射關系。半監督學習結合少量標注數據與大量未標注數據,從而提升學習效率和泛化能力。自監督學習通過數據本身生成監督信號,通常采用預設任務的形式,使模型無需顯式標簽即可學習有效表征。無監督學習則通過分析未標注數據,識別數據內部的模式、聚類或相似性特征。
判別學習和生成學習
人工智能學習任務可根據其建模數據與標簽間關系的類型分為判別式學習和生成式學習。判別式學習通過學習條件概率 P(y|x) (其中 x 為輸入數據,例如圖像; y 為標簽,如對應類別)來構建不同類別間的決策邊界,這種學習方式在房產預測任務中應用廣泛。與之形成對比的是,生成式學習旨在建模聯合分布 P(y,x) 或邊緣分布 P(x) ,從而實現新數據樣本的生成。例如在圖像生成任務中,輸入 x 代表圖像,輸出 y 對應類別,使模型能夠生成逼真的圖像-標簽配對或合成新圖像。在本文綜述的語境下,一個典型范例是隱式量子態重構——通過生成經典替代系統,其目標是產生能模擬量子系統測量結果的測量結果。
特征工程與表征學習
特征工程與表征學習都是人工智能模型數據準備的關鍵環節,二者相輔相成,共同提升學習效果。特征工程是指將原始數據轉化為適合學習算法處理的形式,通常借助領域知識設計或篩選具有信息量的輸入特征。例如,這可能涉及將量子系統的經典描述轉化為適合神經網絡的數學表達式。而表征學習則專注于從原始數據或經過特征工程處理的輸入中提取有用且信息豐富的表征,使模型能夠學習有效模式以完成下游任務。
用于收集 s (i) 的量子測量方法具有靈活性且取決于具體問題。回顧一下,任何量子測量都可以用一個正算子值測度(POVM)來描述[190]。形式上, POVM 的形式為 M={ M s } ,其中 0? M s 且 Pr(s)=Tr(ρ M s ) (當集合 {s} 是不可數時, ∫ds M s =1 )。每次 POVM 測量 M 的一次測量都會從概率分布 Pr(s)=Tr(ρ M s ) 中產生一個樣本。因此,有限次數的測量會產生有限數量的測量結果樣本,即 。當 M 是一個信息完備的 POVM 時,隨著 T→ ∞ ,可以從 s (i) 漸近地重構出 ρ 的密度矩陣。在收集 s (i) 時廣泛采用的一種重要測量策略是利用適當的隨機測量[88],相對于一個概率測度。這種測度的選擇既受到數學考慮的影響,以確保合理的樣本復雜度,也受到物理約束的影響,例如某些 POVM 的局域性要求。
與傳統機器學習任務相比,構建用于表征和描述量子系統的高質量數據集T面臨著獨特挑戰。首先,不同于計算機視覺和自然語言處理等傳統領域,要確定哪些測量指標能為研究量子系統提供最關鍵的信息并非易事。其次,隨著系統規模的擴大,狀態空間呈指數級增長,這使得收集全面且高質量的數據(例如全量子態層析成像所需的數據)變得成本高昂到難以承受。
B. 模型的實現與優化
現有學習協議依賴于收集的訓練數據集T進行訓練。然而,基于機器學習(ML)、深度學習(DL)和語言模型(LM)范式的協議在信息處理與提取方式上存在差異,其針對特定學習任務的優化策略亦有所不同。
在機器學習模型領域,先前研究[81,132,164]主要聚焦于預測量子系統的單一或多重線性屬性(如圖1所示),并建立了樣本復雜度與預測精度之間的可驗證關系。收集的數據 τ 被轉換為監督學習格式(參見框2)。構建完標注數據集后,采用基于回歸和核方法,并結合任務特定特征圖來完成訓練[28]。具體而言,定制化的特征圖將原始輸入 x (i) 轉換至高維空間,使得輸入與目標之間的復雜關系在該空間中呈現線性可分性,從而更有利于回歸或分類任務的完成。
對于深度學習模型,先前的研究可以根據目標學習任務主要分為兩個子類。第一類子類專注于屬性預測,旨在推斷所研究的量子系統的某個或多個物理屬性(包括線性和非線性)[47,99,101,152,199,201,259,268,282–284,294,302]。在這種情況下,數據預處理與機器學習模型非常相似,即將收集的量子數據 τ 重新格式化為監督學習格式。有了準備好的數據集,已經開發出多種具有不同神經架構和優化策略的深度學習模型。這一研究方向的核心目標是構建能夠利用有限訓練數據準確預測更廣泛物理屬性的深度學習模型[283]。第二類子類專注于使用神經量子態(NQS)進行隱式和近似量子態重構[49,54,252,300]。與旨在創建量子態完整經典描述的傳統量子態層析成像不同,這種方法訓練深度神經網絡以近似重現目標量子態 ρ(x) 的測量統計。重要的是,屬性預測被表述為判別學習任務,而使用 NQS 的量子態重構本質上是生成性的(參見框2的解釋)。在此背景下,目標是設計高效的深度生成模型,以使用相對較少的訓練樣本來近似與 ρ(x) 相關的真實測量分布。
對于語言模型,近期的研究探索了生成式預訓練Transformers (GPTs)[36],以實現類似GPT的模型,這些模型能夠執行與量子系統表示和表征相關的多種任務。與機器學習和深度學習方法不同,基于語言模型的方法通常在兩個不同的階段進行優化:預訓練和微調。在預訓練階段,模型通過執行廣義狀態重構來學習捕捉廣泛量子態中的常見結構模式,旨在近似與參數集合 x 條件下的 ρ(x) 相對應的測量分布[271, 289]。在隨后的微調階段,模型被調整以適應特定的屬性預測任務[245,296]。這一過程反映了機器學習和深度學習模型中使用的訓練策略。該階段的目標是通過監督學習準確推斷所需的量子屬性。
C. 模型預測
量子系統表征與刻畫過程中涉及的多樣化任務和多重學習范式表明,不存在能夠涵蓋所有模型的單一且確定的分類方式。此前,我們已根據其實現策略和應用領域對這些模型進行分類。另一個區分它們的關鍵角度是驗證預測階段是否需要訪問量子系統,這通常被稱為“量子數據”。從這個角度來看,所有學習協議——即機器學習模型、深度學習模型和語言模型——均可歸類為測量無關協議和基于測量的協議,如圖3所示。具體而言,測量無關協議的預測僅依賴經典輸入[81, 132, 164, 268, 271, 289],例如參數 x 和輔助信息 z ,而無需進行量子測量。相比之下,基于測量的協議則需要在預測階段獲取待研究量子系統的測量結果s作為輸入[99,101,147,152,199,201,245,282,283,294,302]。
III. 機器學習范式
機器學習(ML)模型是一類基于統計學習原理從數據中推斷規律的算法[180]。當前該研究方向聚焦于開發可驗證高效的機器學習模型,用于預測量子態的線性特性(參見方框1),尤其關注預測誤差隨訓練樣本數量變化的規律。盡管這些學習協議存在多樣性,但可歸納為通用框架。為便于理解,我們首先闡明機器學習模型的通用框架,隨后討論其應用場景,最后探討其局限性及其他前沿議題。
A. 線性屬性預測的總體方案
需注意的是,用于預測線性特性的機器學習模型包含三個步驟:數據收集、模型構建與訓練,以及預測。下文將對這些步驟逐一展開說明,以補充前文所述的高層次概覽。
![]()
(5)
將機器學習模型應用于線性屬性預測的第一步是將原始數據集 τ 在等式(3)中轉化為用于監督學習的標記數據集,即
![]()
(5)
其中 表示第 i 個訓練樣本的物理屬性估計值,這些估計值來源于測量結果 s (i) , ? i∈[n] 。給定一組可觀測變量 D,狀態 ρ(x) 的線性特性指的是 y={Tr(ρ(x)O) } O∈D 。當測量次數 T 趨于無窮大時, y 與 之間的估計誤差趨近于零,對于某些精確設置,可以證明嚴格的樣本復雜度界限。
模型實現與訓練。在訪問 τ ML 的情況下,機器學習模型依賴于專門定制的特征工程(見框2)來完成學習。將所使用的機器學習模型的預測表示為 h ML (x) 。優化過程涉及最小化模型預測與 τ ML 中標簽之間的差異。
Box 3: Classical shadows方框3:經典陰影
經典陰影方案用于未知的N量子比特態 ρ ,該方案重復以下過程 T 次[131]。每次,首先將從適當選擇的預定義酉集合 υ 中隨機采樣的酉算子 U 作用于態 ρ ,然后在計算基上測量每個量子比特,以獲得一個N位字符串 b∈{0,1 } N 。這種測量平均產生線性映射 M(ρ)= E U~U E b~P(b) U ? |b??b|U ,其中 P(b)=?b|Uρ U ? |b? 。未知態 ρ 可以表述為
![]()
這意味著可以通過按照分布 P(b) 采樣快照 T 次來估計 ρ 。定義第 t 次快照為 ,其中 t∈[T] 且 Ut~υ 。這些 T 次快照對應的 ρ 的影子表示為
![]()
雖然前向過程通過物理量子通道反映,但逆向過程可以在經典層面實現。當采用基于泡利的隨機測量時,幺正系綜U等同于單量子比特克利福德門,即
,具有均勻權重。在這種情況下,逆向快照的形式為
![]()
這種張量積形式允許高效估計給定狀態 ρ 的局域可觀測量的期望值。對于此類隨機單量子比特克利福德門,所需樣本數量與所選可觀測量的泡利權重成正比。其他常見的系綜是全局隨機克利福德電路[131],這導致陰影在信息上是完備的,并允許估計任何可觀測量的期望值。已提出多種原始方案的重要變體,特別是那些利用對數深度克利福德電路的變體[26,128,228]。
大多數用于預測可擴展量子系統線性特性的機器學習模型采用線性回歸框架[28]。這些模型的數學表達式為
h ML (x;w)=?w,?(x)?,
(6)
其中 w 表示可訓練參數, ?(x) 表示應用于輸入 x 的工程化特征映射。這些機器學習模型的主要關注點是手動特征工程 ?(·) ,它將原始輸入 x 轉換到高維空間,使得輸入與目標屬性之間的關系近似線性。 ?(x) 的實現取決于任務,并將在下文中詳細說明。
等式(6)中線性回歸模型的優化涉及確定使損失函數最小化的最優參數 w ? ,即
![]()
(7)
其中 ?(·,·) 表示每個樣本的損失,例如均方誤差,而 λ≥ R + 是正則化項的超參數。根據 α 的選擇,線性回歸模型有三種類型(值為 0、1 和(0,1)分別對應于Lasso回歸、嶺回歸和彈性網絡回歸 [306])。除了線性回歸模型外,核方法構成了另一類廣泛用于預測可擴展量子系統線性特性的機器學習模型 [28]。其基本機制和常用核函數總結在框 4 中。
模型預測。訓練好的機器學習模型可以直接用于預測新量子態 ρ(x) 的有趣量子特性。如圖3所示,這些模型以測量無關的方式運行,提供了一種高效的方法來刻畫量子系統,而無需將量子數據作為輸入。
![]()
(8)
評估訓練完成的學習模型性能的常用方法是計算其期望風險,該指標用于衡量模型預測結果與實際目標物理量的吻合程度。從數學角度而言,期望風險(亦稱預測誤差)是
![]()
(9)
其中輸入變量 x 從數據分布 D X 中采樣, y 代表物理屬性的真實值。通常情況下,數據分布 D X 未知,因此無法直接進行評估。另一種方法是在測試數據集上評估損失函數,該數據集由從同一數據分布 D X 中抽取的未見過樣本組成。
方框4:核方法
核方法是一類通過評估高維特征空間中數據點相似度來實現分類或回歸的機器學習技術[28]。這種方式能夠揭示復雜數據中原始變量可能無法直接體現的關聯關系。值得注意的是,當以對偶形式表達時,核方法在數學上等價于線性回歸[225]。一個核機器的通用形式為
![]()
其中 { α i } 表示與每個訓練樣本點相關的對偶系數(或權重),表示偏置項, k( x (i) ,x):=??( x (i) ),?(x)? 是評估 x (i) 和 x 在特征空間中相似性的核函數。與線性回歸模型中的 ?(·) 一樣, k(·,·) 的選擇也取決于任務。下面列出了用于預測量子系統屬性的代表性核函數:
? Dirichlet核。該核旨在預測一組基態的線性特性。設 Λ 為頻率截斷的閾值。Dirichlet核的顯式形式為
![]()
正的良核(Positive good kernel)。該核同樣用于預測一系列基態的線性特性。采用與Dirichlet核相同的符號體系,其顯式形式為
![]()
拓撲有序相分類的核。設 τ 和 γ 為兩個超參數。將經典陰影 T (x) 在第i個量子比特處的t快照的約化密度矩陣表示為 。所提出的核函數的數學表達式為
![]()
截斷的三角函數單項式核。記 ω∈{0,±1 } d 為 d 維頻率向量。定義特征映射為 ,其中 α i (·;·) 包含三個不同的映射函數,取決于值 ω i 。具體來說, α( x i ;0)=0 , α i (x;1)=cos( x i ) ,以及 α i (x;?1)=?sin( x j ) ,對于 ? i∈[d] 。記截斷值的閾值為 Λ ,則核的形式為
![]()
B. 的機器學習模型及其應用
在可擴展量子系統刻畫領域,大量研究聚焦于開發高效的機器學習模型,以解決各類線性屬性預測任務及部分非線性任務,這主要源于其可解釋性與理論保證的優勢。本文根據應用場景對這些機器學習模型進行分類,并系統梳理其實現方案與理論成果。表I匯總了該領域代表性方法的最新進展。
1. 哈密頓量基態的線性性質預測
該領域的開創性工作由黃等人[132]建立,證明了基于實驗數據的機器學習算法可以有效解決某些經典算法無法處理的量子多體問題。具體而言,機器學習模型預測了一組可觀測量 D={O} 在一系列有能隙、幾何局域哈密頓量 H(x) 態上的期望值。例如,O可以是低權重泡利算符的線性組合。學習器采用基于泡利的經典影子[131]來獲取原始數據 τ(3) ,其中 s (i) 對應于 ρ( x (i) ) 的隨機測量結果,而輔助信息 z (i) 則不是必需的。根據這些測量結果,學習器按照框3中的步驟重建影子表示 。訓練數據集 τ ML (5)通過影子估計計算標簽 構建。給定 τ ML ,對于每個可觀測量 O j ∈D ,核機器采用顯式形式。
![]()
其中 的第j個條目指的是 ? O j ? 的估計, κ Λ (·,·) 表示截斷的Dirichlet核(參見框4)。
所提出的機器學習模型在許多實際場景中被證明是高效的。具體而言,當x從均勻分布中采樣時,平均梯度范數是有界的,即 ,且可觀測值良好有界,所提出的模型以高概率在等式(8)中實現 ? 預測誤差。此外,模型實現的經典訓練時間和預測時間均被上界為 O( d O(C / ?) ) 所約束。通過預測一維51原子里德伯原子系統(Rydberg atom systems)的基態局部期望值以及二維25量子比特反鐵磁海森堡模型基態的兩點關聯函數,該機器學習模型的有效性得到了驗證。
后續研究工作將重點放到探討如何通過利用哈密頓量的不同條件進一步減少樣本和運行時間的復雜性。當已知所探索的N量子比特哈密頓量族 {H(x)} 的幾何結構時,特征映射 ?(·) 可以融入幾何歸納偏置,由此產生的Lasso方法能夠實現高效且精確的預測,僅需 O( ) 個樣本和 O(N poly( ? ?1 )) 的運行時間[164]。此外,當可觀測集 D 僅包含一個已知分解的單元素且哈密頓量族具有幾何局部性和能隙時,嶺回歸可實現 O( 2 poly log ?(1 / ?) ) 的樣本復雜度(與 d 無關)和與 N 呈線性關系的運行時間。所采用的特征映射,與參考文獻[164]類似,也通過輕微修改編碼了哈密頓量的幾何結構[275]。
當經典參數d的數量恒定,或與量子比特數N無關時,定義在框4中的正良核可以用狄利克雷核替代,以達到改進的樣本復雜度 O(poly(1 / ?,N)) [57]。此外,存在高效的機器學習模型可以用于預測(等變)長程哈密頓量的性質。與參考文獻[164]類似,與幾何信息特征圖相關的Lasso能夠準確預測具有長程相互作用的基態的線性性質,實現樣本復雜度隨系統大小 N 對數增長[236]。另外,保持相互作用超圖自同構群下等變性的機器學習模型可以進一步降低樣本復雜度[235]。這些機器學習模型的有效性已在127量子比特的IBM量子計算機上得到驗證,成功預測了隨機跳躍系統和Su-Schrieffer-Heeger系統中的兩點關聯函數[65]。
除了能隙哈密頓量的基態之外,最初的努力還集中在預測馬爾可夫開放量子系統中李烏維利安穩態的線性性質[193,213]。與傳統的最大似然模型不同,預測這些性質的關鍵策略是計算經典陰影協議的經驗平均值。通過這種方式, O( log ?(N / δ ) 2polylog(1 / ?) ) 個樣本足以學習相位內量子系統的局域期望值,預測誤差小于 ? ,失敗概率至多為 δ 。
2. 哈密頓基態的相分類
量子相分類是機器學習在可擴展量子系統刻畫中的另一個關鍵應用。黃等人[132]在該研究領域做出了開創性貢獻,他們提出了兩種針對不同量子相分類任務的機器學習模型:區分對稱性破缺相和識別拓撲有序相。
在對稱性破缺相分類的任務中,假設存在兩個相,分別記為A和B。存在一個由多個局域可觀測量組成的可觀測量 O ,稱為局域序參量,使得相關基態滿足當 ρ(x) 屬于相 A 時 Tr(ρ(x)O)≥1 ,而當 ρ(x) 屬于相B時 Tr(ρ(x)O)≤?1 。基于此,可以采用框4中的截斷狄利克雷核來實現基于最大似然的分類器,以達到滿意的分類精度。
在拓撲有序相分類任務中,我們無法使用關于 ρ(x) 的線性函數來完成準確預測。然而,參考文獻[132]證明了非線性分類器可以在嚴格證明的保證下解決此任務。具體而言,他們設計了一種特征映射,將經典陰影轉換為包含任意大約化密度矩陣的特征向量,相應的核函數在框4中指定。所提出的機器學習模型提供了嚴格的保證:如果少體(few body)約化密度矩陣的非線性函數能夠分類不同的相,則所提出的機器學習模型可以準確學習執行此類分類。所需訓練數據量n和計算資源隨系統大小 N 呈多項式增長。該機器學習模型的有效性已通過在200量子比特系統中區分拓撲相與平凡相得到驗證。
3. 基于門態的線性屬性預測
針對數字量子計算機輸出的量子態線性特性預測,存在兩種不同的機器學習模型應用場景,其差異源于可觀測量的靈活性。每種場景都給我們帶來獨特的挑戰,需要采用不同的學習策略,下文將分別探討。
固定輸入狀態和可觀測量。第一種設置考慮了輸入狀態 ρ0 和可觀測量O都固定的案例。這種設置的主要動機來自于開發變分量子算法的經典替代方案[50],包括變分量子特征求解器(VQE)及其變體以及量子神經網絡(QNNs)。換句話說,我們的目標是設計一個機器學習模型,以準確預測期望值 Tr(ρ(x)O) ,其中 ρ(x)=U(x) ρ 0 U(x ) ? ,而 U(x) 是一個在等式(2)中定義的N量子比特參數化電路。
![]()
圖4. 預測數字量子計算機狀態屬性的場景。左圖展示了一個典型的 VQE 電路,其中所有可調門(用橙色圓圈表示)作為可訓練參數。右圖描繪了一個 QNN 架構,其中一部分可調門用于編碼經典數據,而其余門則作為優化的可訓練參數。六邊形和矩形門代表克利福德門。
如圖4所示,量子神經網絡的經典輸入由兩部分組成,即 ,其中 代表經典數據,如圖像和文本,而 θ 則包含可訓練參數。量子神經網絡的通用形式為
![]()
先前的研究[227,265]已經證明,訓練好的 QNN 可以擴展為截斷的傅里葉級數,其中截斷值的閾值取決于所采用的 。更多細節請參見框5。
Schreiber等人[226]采用這種基于傅里葉的公式設計了一個線性回歸模型,用于預測量子神經網絡輸出 。所提出的模型形式為,其中 { c ω } 是可訓練的傅里葉系數。學習目標是通過最小化等式(7)中的損失函數來優化這些系數,使用標記數據集 。標簽 指的是從測量結果 s (i) 中得出的 估計值。在最壞情況下,所提出的機器學習模型以高概率實現預測誤差被限定在 范圍內,前提是訓練樣本數量滿足,其中, d 為 維度。所提出模型的有效性已在標準經典機器學習數據集和最多八個量子比特的合成數據集上得到驗證。
經典替代方法可能會遇到效率瓶頸,因為其運行時間復雜度會隨著頻率集的大小——或者說,隨著經典輸入向量 的維度——呈指數增長。為了緩解這一問題,一個有前景的解決方案是使用隨機傅里葉特征進行模型構建[156,241]。具體來說, h ML ( ) 中的原始特征圖 ?(·) 被替換為D維的隨機傅里葉特征(見框5)。
該替代方案可帶來顯著的計算優勢:模型訓練的空間和時間復雜度均為 O(n D 2 ) 和 O(n D 2 + D 3 ) ,且與訓練數據的維度無關。此外,當 有良好邊界且 { s (i) } 通過足夠大的 T 收集時, n~O(d / ? 2 ) 保證了良好的預測性能,即對于 ? x∈X 成立。
方框5:量子神經網絡的傅里葉分析
在不失一般性的前提下,量子神經網絡(QNNs)中采用的參數化量子電路始終可表示為
![]()
其中 L 表示層數,可訓練的酉矩陣 { W (l) (θ) } l 與數據編碼的酉矩陣 { S (l) ( ) } l 交錯排列 [83]。根據上述符號,先前的研究已經證明量子神經網絡可以展開為截斷的傅里葉級數 [227,265]。數學表達式如下
![]()
其中 指最優傅里葉系數,頻率集合 Ω 僅取決于 { S (l) ( ) } l 的結構和層數 L 。 QNN 輸出的傅里葉展開為采用隨機傅里葉特征預測其行為提供了理論基礎。經典學習模型的數學形式為 ,其中隨機傅里葉特征 [206] 定義為
![]()
具有。這里, D 是一個超參數,特征 ν i =( a i , b i ) 從先驗分布中采樣。
關于訓練樣本數量 n 與每個樣本快照 T 之間的關系,參考文獻[97]進行了進一步探討。具體而言,他們提出了一種新的機器學習模型,通過引入L1-Lipschitz非遞減函數 u(·) ,即 ,其中核函數 k 對應于傅里葉特征映射。通過基于 τ ML 的迭代方法優化 ,等式(8)中的預測誤差被上界限制為 。此處參數 c 1 和 c 2 與 L 1 范數、可觀測量 O 的無窮范數以及傅里葉系數的范數呈多項式關系。研究結果突顯了 n 相較于 T 的主導作用,因為有限的 n 會導致較高的預測誤差。
正交研究路徑涉及采用傅里葉級數展開、參數化量子電路結構及海森堡演化來設計高效的VQAs經典模擬器,而非基于學習的模型[23,51,69,92,106,189,214]。由于量子電路的高效模擬超出了本綜述的范圍,故不再詳述。
固定輸入狀態和可變觀測值。這種設置考慮了更廣泛的情況,即輸入狀態 ρ 0 是固定的,而觀測值 D 中的各個可以變化。一個直接的觀察是,第一種設置是后者的特例。在這種情況下,一個高效的機器學習模型作為影子表示預測器 ,這意味著對于任何新的輸入 x ′ ,它都能準確預測其影子表示 。因此,機器學習模型能夠準確預測許多觀測值的期望值,即。
實現這一目標的首個方法在參考文獻[81]中被提出,旨在預測量子態的許多線性特性,其中等式(2)中的量子電路 U(x) 由 d 個旋轉-泡利門和 G?d 個克利福德門組成,輸入態 ρ 0 是任意的。學習過程遵循標準的三階段監督學習流程。從概念上講,學習器從先驗分布中抽取輸入控制參數 x (i) ,并將其輸入到探索的電路中。對于每個示例 x (i) ,學習器采用基于泡利的經典陰影[131]來收集測量結果 s (i) 。通過重復此過程 n 次,原始數據 τ 被收集。
在獲得 τ 的情況下,對于任何新輸入 x ,影子表示預測器的顯式形式可得出
![]()
其中 κ Λ (x, x (i) ) 指的是在框4中定義的截斷三角多項式核。對于任何可觀測變量 O∈D ,最大似然模型為 ,當 n 和 Λ 不太大時,該模型可以在經典端高效實現。
當輸入數據從均勻分布中采樣且 Λ=d 時,陰影預測器是 ρ(x) 的無偏估計量。此外,當平均梯度范數 被一個小 C 上界時,所提出的最大似然模型在樣本和計算效率上都表現優異。為了在等式(8)中實現 ? 預測誤差,所需的樣本復雜度為 O(|E(Λ)| ? ?1 ) ,其中 Λ=4C / ? 且 E(Λ)={ω|ω∈ 0,±1 d ,s.t.∥ω∥0≤Λ} 。此外,多項式樣本復雜度確保了整體多項式計算復雜度。數值模擬證明了所提方法在預測60量子比特旋轉GHZ態的兩點相關函數、預測60量子比特全局哈密頓量的磁化強度以及預訓練50量子比特 VQE 用于橫向場伊辛模型方面的有效性。
C. 基本限制
現有機器學習模型的一個共同特征是,它們都遵循圖3所示的測量無關學習協議。這些模型采用先進行測量、再對采集數據進行經典處理的策略。這引發了一個關鍵問題:在理解經典機器學習模型與量子學習模型[112,229]之間可計算的分離時,需要明確學習過程是完全還是部分在量子設備上執行的。解決這個問題不僅能豐富量子學習理論,還能為識別量子效用和量子優勢提供具體指導。例如,假設所有量子問題都能通過經典機器學習模型高效解決,那么量子計算的實際優勢將僅限于數據采集階段。然而最新研究表明,盡管本文綜述的現有機器學習模型在許多實際場景中表現優異,但它們也存在根本性局限,導致性能遠遜于對應的量子模型。
首個探索機器學習模型在刻畫可擴展量子系統中計算難度的研究由Gyurik等人[113]完成。他們構建了一類哈密頓量家族,其基態特性無法通過任何經典機器學習方法預測,假設標準密碼學假設成立。這些結果表明,高效預測所需的條件(如平滑性和幾何局域性[132])不能顯著放寬。采用相同方法,后續研究進一步強化了這些結果,通過證明在溫和假設 BQP ? P/多項式下,從基態測量中預測未知可觀測量的期望值存在經典-量子分離[184]。此外,相關結果可有效擴展,以確立機器學習模型在預測有界門量子態線性特性方面的計算難度[81]。對于非線性任務,研究表明在標準密碼學假設下,學習“無能隙”量子物質相是計算上困難的[32,33]。
在進行一般性理論分析的同時,另一項獨立研究方向致力于探索特定類機器學習模型的根本局限性。典型案例是理解隨機傅里葉特征在量子神經網絡(QNN)去量化過程中既具潛力又存在局限性。具體而言,近期一項研究通過反例證明,基于隨機傅里葉特征的經典替代模型無法實現可靠的預測性能[241],該結論建立在參考文獻[226]的研究基礎上。后續研究進一步確立了回歸模型作為QNN經典替代模型的必要條件,表明當量子模型優化的參數趨近最優值時,經典量子分離現象就會顯現[248]。此外,參考文獻[52,105]揭示,在變分量子學習模型可訓練的場景中,研究者不僅能為當前場景找到高效的經典算法,還能實現對場景的“去量化”。
![]()
表I. 采?機器學習模型刻畫可擴展量?系統的代表性結果總結。所探索的量?系統類型?G.S.表?基態,Q.C.表?由數字量?計算機制備的狀態。多重線性屬性預測和單線性屬性預測分別?M.L.P和S.L.P表?。相位分類任務?P.C.表?。符號aQ表?量??特數為 a 。
D. 高級主題
現有的用于表征和刻畫可擴展量子系統的機器學習模型主要遵循監督學習范式。然而,在相分類任務中,有一條獨特的研究路線采用無監督學習算法(見框2)來實現學習目標[58,132,217]。例如,主成分分析已被應用于識別物質的不同量子相,這受到凝聚態物理研究問題的啟發,在一個300量子比特的鍵交替 XXZ 模型中[132],而張量核支持向量機則被用于重建簇伊辛模型的相圖[217]。關于無監督學習方法在相分類中的全面綜述,請參閱參考文獻[43,75]。
與應用機器學習模型預測數字量子計算機生成的量子態線性特性類似,另一個研究方向是開發針對特定量子態、幺正操作和量子過程的可證明高效學習方法。在量子態學習領域,某些受限態類(如穩定子態[209]、 t 摻雜穩定子態[109,163]以及淺層電路制備的態[155])可在多項式時間內高效學習。對于幺正態學習,經典多項式時間算法可重構任意未知N量子比特淺層量子電路的描述[133]。最后,在量子過程研究中,高效的機器學習模型能夠預測未知過程輸出的任何局部特性,且在從特定先驗分布抽取的輸入態上具有較小的平均誤差[62,130]。
盡管上述研究部分涉及機器學習在可擴展量子系統中的應用,但出于兩個原因我們在此不作詳細闡述。首先,這些問題可視為量子態/過程重構的簡化版本——要么完全不涉及經典控制,要么僅限于輸入態的控制。例如,雖然重構未知量子態通常需要指數級運行時間,但該問題可通過影子層析成像[1]等高效算法轉化為更易處理的學習場景。其次,文獻[14]已對這些方法進行了全面綜述。
IV. 深度學習范式
深度學習(DL)在2010年代初的興起[196],為可擴展量子系統的表征與刻畫開辟了新途徑。通過利用深度神經網絡強大的表征能力,深度學習模型能夠從數據中隱式捕捉復雜模式與結構,在廣泛任務中展現出優異的實證性能。為深入闡述該領域深度學習模型的發展,本文首先梳理了深度學習應用于可擴展量子系統的一般框架,繼而重點介紹當前主流深度學習模型的主要應用及前沿研究課題。
A. 總體方案
深度學習模型通過深度神經網絡(DNN)自動且隱式地從訓練數據中提取有意義的表征[107]。現有深度學習模型已廣泛應用于屬性預測與重構等多樣化任務,如圖1所示。這與傳統機器學習方法形成鮮明對比——后者通常專為線性屬性的測量無關預測而設計。根據具體任務和學習目標的不同,深度學習模型的實現方式存在顯著差異:從測量無關到基于測量的協議不等,輔助信息的整合程度也各不相同。下文將詳細闡述這些差異,并說明深度學習模型如何適應可擴展量子系統表征與刻畫的多樣化任務。
數據集構建。從學習范式視角來看,屬性預測屬于判別學習范疇,而狀態重構通常被歸類為生成式學習,如框2所示。這種區分導致訓練數據集構建應該采用不同方法:屬性預測任務采用多種針對特定模型和目標定制的數據預處理策略,而重構任務通常遵循更標準化的統一的方法論。
屬性預測。在此背景下,最通用的方法是采用單一深度學習模型來預測給定量子態家族的多種線性和非線性屬性。為此,等式(3)中的原始數據T被重新格式化為帶有標簽的訓練數據集 τ DL ,這與多任務判別學習框架一致。如圖3所示, τ DL 的構建可以根據深度學習模型是基于測量無關協議還是基于測量協議來分類。
大多數基于深度學習的方法屬于測量協議類別,其中訓練數據集 TDL 包含來自T的測量結果s(i)作為輸入的一部分。在這種情況下,通常研究兩種場景。第一種場景[101,152,283,284,294,302]中,只有測量數據可用,而底層物理參數x(i)要么未知要么無法獲取。在這種情況下,數據集構建為,其中 (i) 表示從測量結果 s (i) 計算出的感興趣物理屬性的估計值。值得注意的是,原始測量結果 s (i) 必須適當處理成與深度學習架構兼容的表示,記為 (i) 。在第二種場景[181,199]中,物理參數x由學習器控制,訓練數據集的形式為。
對于測量無關協議[183,268],訓練數據集不包含明確的測量信息。給定原始數據T,預處理后的訓練數據集形式為 ,其中標簽的構建過程與基于測量的深度學習模型相同。在此設置下,不同深度學習模型的關鍵區別在于是否(以及如何)納入輔助信息 ,這些信息要么被省略,要么用于編碼系統特定細節,如量子系統的門布局或噪聲特征[268]。
單態重構。與屬性預測任務不同,大多數用于量子態重構的深度學習模型[6, 49, 54, 223, 237, 252, 300]采用簡單且標準化的數據集構建方法。由于該任務屬于生成建模范式,訓練數據集通常為未標注數據,其形式為
![]()
(9)
對于 POVM 測量 { M s } ,相應的結果 { s t } 是從概率分布 P(s)=Tr(ρ M s ) 中采樣的。
模型實現與訓練。用于屬性預測的深度學習模型通常在判別學習框架內構建。根據學習協議的不同,所采用的 DNN 表示為 用于基于測量的協議,而 h DL (x,z;θ) 用于測量無關模型,其中 θ 代表可訓練參數。目標是通過最小化經驗損失函數來優化這些參數。
![]()
其中每個組件 x (i ) 、 z (i) 和是否包含取決于可用的 τ DL , ?(·,·) 表示特定任務的損失函數,例如回歸的均方誤差或分類的交叉熵。優化通常使用基于梯度的優化器進行。
盡管先前關于屬性預測的研究大多遵循判別學習范式,但深度學習模型的實現沿著兩個關鍵方向發展。首先,許多研究[199,246,302]專注于開發專門的神經架構和優化策略,以提高數據效率,使模型能夠從有限數量的訓練樣本n中準確預測出更廣泛的物理屬性(即高維 )。這些架構通常由模塊化組件組成,如全連接層、卷積層或圖神經網絡(GNNs),這些組件針對數據集 TDL 的特定結構和模態進行了定制。其次,越來越多的研究[64,176]通過解決先前文獻中未探索的屬性預測任務,將深度學習的應用擴展到標準基準之外。
用于重構單個量子態的深度學習模型通常被稱為神經網絡量子態(NQS)[159]。現有方法可以分為兩類:顯式重構和隱式重構。主要區別在于深度神經網絡的輸出表示。在顯式重構中, DNN 直接輸出目標量子態密度矩陣的完整經典描述[6,54,82]。然而,這種方法隨著量子比特數N的增加而呈指數級增長,使得其在可擴展系統中不切實際。因此,我們在本綜述中不強調顯式重構。
相比之下,重要的是,隱式重構方法模擬了量子態的行為,而無需顯式地重構其完整的密度矩陣,該矩陣的形式化描述見框6。這些方法可以進一步分為兩種范式。第一種范式開發了深度學習模型,這些模型以測量基為輸入,并輸出相應的測量結果概率[223,237]。第二種范式,即更廣泛研究的范式,將 DNN 視為生成模型,特別是以自回歸架構的形式,如循環神經網絡(RNNs)[107]和Transformer[261](見框7)。
當使用自回歸模型 h DL (θ) 進行量子態重構時,它通過鏈式法則將測量結果的聯合概率分布分解為條件概率的乘積。具體來說,分布表示 ,其中 s 表示索引 i 前的比特序列。經過這種重構后,模型參數 θ 在 h DL (θ )中通過最小化負對數似然損失來優化。
![]()
該損失函數促使模型對與測量結果高度吻合的構型分配更高概率。
方框6:隱性狀態重構
隱式狀態重構是指學習一個生成模型的任務,該模型作為參數化分布 Q(s;θ) 的作用,目的是優化 θ ,使得 Q(s;θ) 盡可能接近測量結果s上的目標分布 P(s)=Tr(ρ(x) M s ) 。這里, M={ M s } 表示一組預定義的 POVM 元素,例如與計算基測量相對應的元素。這種方法使模型能夠在不顯式重構其密度矩陣的情況下,重現量子態 ρ(x) 的測量統計特性。
當深度學習模型用于量子態重構時,其性能通過學習到的分布 Q 與真實測量結果分布 P 之間的相似性來評估。與采用標準化準確度度量(等式(8))的屬性預測任務不同,量子態重構中沒有標準度量。常見的性能度量包括Kullback-Leibler(KL)散度、總變差距離和Wasserstein距離。如果所使用的學習模型在訓練樣本數量、量子系統的總查詢次數以及計算復雜度隨量子比特數 N 最多呈多項式增長的情況下,仍能實現 Q 與 P 之間的 ? 精度估計,則認為該模型是高效的。
模型預測。深度學習模型經過訓練后,可根據其學習目標應用于下游預測任務。在屬性預測中,它們用于推斷先前未見過的量子態的物理特性。在量子態重構中,訓練好的深度學習模型充當采樣器,生成比特串樣本,這些樣本在與訓練時相同的測量設置下,能真實還原目標量子態的統計特性。這使得人們無需直接接觸物理系統,就能高效地從測量結果的分布中進行采樣。
B. 具體的深度學習模型及其應用
下文將介紹深度學習模型在量子屬性預測、量子系統重構及量子計算領域的最新進展。為便于理解,我們進一步區分了屬性預測類別中的單屬性與多屬性預測任務。表II匯總了該領域部分代表性研究成果。
![]()
圖5. 量子系統表征與刻畫的深度學習模型示意圖。上半部分展示了在單任務和多任務場景中應用深度學習模型預測量子系統特性的流程。無論是單任務還是多任務場景,輔助信息和測量結果都會先經過預處理,以確保與神經網絡架構的兼容性。在單任務預測中,深度學習模型用于估算保真度或熵等特定屬性。而在多任務場景中,常用策略是學習潛在表征,從而支持保真度預測和相位分類等多種下游任務。下半部分展示了深度學習模型在隱式狀態重構中的應用,通過訓練神經網絡生成能高度復現量子系統測量結果的樣本。
1. 預測特定量子性質
與主要設計用于線性屬性預測的機器學習(ML)模型不同,神經網絡的表達能力使得深度學習(DL)模型能夠針對特定屬性(無論是線性還是非線性)進行定制化預測,如圖1所示。
量子態相似性。與量子保真度類似,量子態相似性是用于描述量子態之間接近程度的量化指標[190]。檢測量子態相似性對于驗證可擴展量子處理器的可靠性至關重要。量子相似性檢測的兩大核心任務包括直接量子保真度估計[91]和跨平臺量子驗證[87]。在直接保真度估計任務中,研究者通過對實驗態的副本進行測量,來評估其相對于理論目標態的量子保真度。而在跨平臺驗證任務中,研究者則通過分別對兩個未刻畫的實驗量子態進行局部測量,來估算它們之間的量子相似性。
直接保真度估計旨在量化實驗制備態與目標純態之間的相似性,同時最小化測量開銷。最初的方法采用了一個簡單的全連接神經網絡(FCNN)來進行多類分類[294]。直觀來說, FCNN 以從量子態測量得到的泡利算符期望值的統計估計子集作為輸入,并輸出保真度預測。訓練標簽是通過將保真度離散化為預定義區間生成的,這些區間是通過使用理想化的無限測量場景計算得出的。后續研究提出,與其將保真度估計作為分類問題來處理,不如采用回歸模型從測量數據[201]以及所探索量子系統的物理參數[82]中估計實驗態的保真度。
方框7:深度學習模型中的術語
潛在表征
潛在表示指一組內部變量或特征——通常由深度學習模型自動學習——它們能概括下游任務最相關的信息。通過操作這些潛在表示,模型可更高效地進行屬性預測或分類,并提升泛化能力。
遷移學習與少樣本學習
這些范式旨在通過利用先前學習任務或模型的知識,以最小的量子計算成本預測新量子系統的特性。具體而言,遷移學習通過調整在某一任務上訓練的模型來提升相關任務的性能,而少樣本學習則使模型僅需少量標注樣本即可實現泛化。這兩種方法對于減少數據采集成本高昂的場景下對量子系統的訪問次數至關重要。
多模態學習
多模態學習是指模型能夠處理并整合來自多種不同來源或數據類型的信息的能力[19]。這類模型通常采用神經網絡架構,為每種數據模態配置專用模塊——例如使用卷積神經網絡(CNN)處理圖像類數據,采用循環神經網絡(RNN)處理序列數據——隨后通過聯合層將這些模塊融合,從而實現有效信息整合與跨模態推理。當應用于量子系統刻畫時,該方法通過整合量子測量結果與物理控制參數等多樣化數據,構建出更全面的量子系統表征。
深度生成模型
深度生成模型是通過深度神經網絡學習生成與訓練期間所見數據樣本相似的新數據。當應用于隱式量子態重構任務時,這些模型旨在學習量子測量結果的潛在概率分布。主要實現方式有兩種:
· 自回歸模型。這類模型通過鏈式法則,將測量結果的聯合概率分布分解為條件概率的乘積。典型應用包括循環神經網絡(RNNs)、像素卷積神經網絡(PixelCNNs)以及用于神經量子態采樣的Transformers模型。
·基于能量的模型。這類模型為每個可能的構型分配一個未歸一化的能量值,并通過能量函數定義概率分布。模型通過訓練來降低觀測樣本的能量值,同時對所有構型進行歸一化處理。與自回歸模型不同,基于能量的模型本質上不需要順序采樣。典型代表包括受限玻爾茲曼機(RBMs)和深度玻爾茲曼機(DBMs)。
跨平臺量子驗證技術通過實驗手段直接比較不同設備生成的量子態。該領域存在多種實現路徑:第一種方法將不同設備產生的測量結果分布轉化為結構化輸入張量,通過卷積神經網絡(CNN)進行特征提取和相似性比對[282];第二種方法以量子電路布局為輸入,運用圖神經網絡(GNN)分析電路結構并預測量子保真度[268]。基于多模態學習理論(詳見方框7),最新研究提出通過將電路布局與測量數據結合來估算量子態間的重疊度,該方法在包含50個量子比特的模擬實驗中展現出顯著效果[199]。另有研究嘗試估算任意量子態間的保真度,其方案采用CNN模型,以電路的獨熱編碼表示作為輸入來預測保真度[253]。
量子糾纏與其他非經典特性。量子糾纏[123]是量子力學區別于經典物理學的根本特征。然而,在任意量子系統中檢測和量化糾纏不僅需要大量量子資源,而且在計算上也難以實現[111]。深度學習模型的最新進展提供了一種有前景的替代方法,無需直接從第一性原理進行估算,即可高效預測特定類量子態的糾纏程度。
早期解決這一任務的努力利用了一個簡單的 FCNN 來分類糾纏和可分離的二分態[99]。從概念上講, FCNN 以泡利算符期望值的統計估計作為輸入,并輸出預測結果。后來的研究開發了更先進的深度學習模型來檢測多量子比特態中的多體糾纏[18, 60, 63, 64, 115, 150, 172, 195, 211]。最近的一項工作采用 LSTM 來預測動態演化量子系統中子系統的糾纏熵,僅使用單量子比特和雙量子比特測量,規模擴展到100個量子比特[136]。此外,還設計了專門的深度學習模型用于連續變量量子系統的糾纏檢測[101]。除了糾纏檢測,最近的研究開始探索能夠量化糾纏的深度學習模型[79, 152, 168, 208, 210]。超越糾纏的研究開始設計深度學習模型來量化更廣泛的量子特性,如非經典性[67]、量子不協調(quantum discord)[153, 242]和非穩定性(nonstabilizerness)[176, 233]。
相分類。相變是多體物理中普遍存在的基本現象,特定物理參數的微小擾動可以導致系統行為的顯著變化。相分類并不強制要求訪問哈密頓量參數 x 。然而,當 x 可訪問時,分類不同相有助于識別相變臨界點。當收集的原始數據 τ 對應于一組示例基態向量 時,優化的學習模型可以識別出臨界點 x ? ,在此處 |ψ( x ? )? 發生量子相變。
深度學習模型已被廣泛應用于識別經典相變和量子相變參數空間中的臨界點或相界。在監督學習范式中,每個訓練樣本都需要足夠數量的測量數據 τ 或輔助信息 z (i) ,以明確該樣本所屬的物質相態[47]。相比之下,混淆學習[169,259]和預測學習[16,108,221]模型則完全不依賴任何先驗輔助信息。
為探索未知物質相態,基于異常檢測的深度學習模型[151]能夠在缺乏或僅有少量先驗數據的情況下,識別潛在的新物質相態。這類模型不僅用于模擬數據測試,還成功應用于量子相態分類及實驗數據的完整相圖生成[30,147,177,178]。針對深度學習模型在物質相態分類中的可靠性問題,特別是對抗樣本的存在性,學界已展開深入研究[142,292]。
在具有中間測量的隨機量子電路中也會發生相變現象[234]。這類量子系統中,臨界點附近隨機測量速率的微小波動會引發輸出量子態糾纏熵的劇烈變化。研究這類量子系統的可學習性已成為檢測測量誘導相變的重要手段[4,9,21,138]。通過訓練卷積神經網絡(CNN)從中間測量快照中預測參考量子比特的泡利期望值,預測精度可有效識別相變[78]。近期一項研究采用基于注意力機制的模型,通過區分兩種不同亂序態的測量軌跡來識別測量誘導相變[148]。
除上述研究外,深度學習模型還通過利用量子系統的經典先驗知識(如糾纏譜[222])而非基于測量數據,實現了對物質相態的分類。除監督學習范式外,通過聚類算法對原始數據進行降維[273],以及分析自編碼器的瓶頸[276],也可實現對不同物質相態的無監督分類。
2. 多量子特性預測
量子陰影層析成像技術能夠在不進行完整態層析成像的情況下,有效估計多個可觀測量的期望值[1]。受此啟發,深度學習模型被開發用于同時預測多種物理特性。這些模型從數據集 TDL 中學習可遷移的潛在表示[24](關于潛在表示和遷移學習的詳細解釋參見框7),捕捉量子態內的結構模式和物理關聯。一旦訓練完成,這些潛在表示可用于推斷訓練期間未見過的多種物理特性。從這個意義上說,潛在表示與經典陰影的作用類似,作為量子態的壓縮但信息豐富的摘要,用于下游預測任務。
根據潛在表征的構建方式,現有深度學習模型可分為監督學習、半監督學習和自監督學習三種類型(具體概念參見方框7)。本文將重點闡述前兩類模型,而自監督學習的相關內容將在后續語言模型范式中展開討論。
現有的監督學習和半監督學習的深度學習模型通常遵循基于測量的協議,其中測量結果 { s (i) } 作為 τ DL 的輸入數據。這些深度學習模型之間的主要區別在于它們如何構建潛在表示以及獲取標注樣本的相關成本。
在監督表示學習這一領域,開創性的工作是利用生成查詢神經網絡(GQNN)的概念來學習量子態的數據驅動表示[302]。所學習到的潛在表示能夠預測尚未進行的測量基上的測量統計量,并對不同類別的量子態進行聚類。后續研究探索了如何學習可遷移的表示,這些表示可以應用于其他任務。具體來說,訓練用于區分量子相位的分類器可以重用所學習到的潛在表示來預測其他物理屬性,包括糾纏熵和量子態重疊[284]。此外,訓練用于預測泡利期望值的深度學習模型可以遷移至動態量子系統中預測糾纏熵[182]。
在監督表示學習范式中,一種互補方法涉及多任務學習,即訓練深度學習模型同時預測多個量子屬性。具體而言,每個訓練樣本都帶有多個標簽,即 τ DL 中的 維度大于1,且等式(10)中的損失函數計算所有目標屬性的預測誤差。Wu等人[283]給出了一個代表性例子。他們證明,對于鍵交替 XXZ 模型的基態,一個訓練用于從短程測量預測自旋關聯和熵互信息的深度學習模型,也能區分對稱性保護拓撲(SPT)相和平凡相。這是通過在學習到的表示上應用降維方法實現的,無需顯式相位監督即可揭示相位差異。
半監督表示學習通過結合少量標注數據與海量未標注數據實現高效學習[258]。最新研究表明,該方法仍能可靠預測量子屬性(如相位分類)[246]。其核心創新在于采用混合損失函數,將標注數據的監督損失與無監督對比損失相結合。這種對比損失機制能確保具有相似測量統計特征的量子態在潛在表示層面保持高度一致性[282]。
3. 量子系統重構
盡管在大規模量子系統中以顯式方式完全重構任意量子態難以實現,但已開發出多種深度學習模型來高效隱式重構結構良好的量子系統。這不僅包括利用生成模型隱式重構量子態,還涵蓋預測量子動力學的輸出態或其物理特性,以及學習預測量子系統的哈密頓量。
隱式量子態重構。對于隱式態重構,當前關于 NQS 的研究,將DNNs作為生成模型,采用了兩種方法:數據驅動和變分法。數據驅動的 NQS 方法通常采用自回歸模型或基于能量的模型。
正如在模型實現部分所介紹的,一類廣泛研究的用于 NQS 的生成模型是基于自回歸架構的[49,230,281]。例如,RNN及其變體已成功應用于從測量數據中隱式重建未知量子態[49,185,191]。這些深度學習模型因其在捕捉復雜量子關聯方面的強大表達能力而備受重視。一個值得注意的最新進展是使用Transformer架構,它們擅長建模序列數據中的長程依賴關系。例如,參考文獻[54,300]提出了基于Transformer的學習模型,用于重建GHZ態和橫向場伊辛模型的基態。
另一種構建 NQS 的主要方法,比自回歸模型更早發展,是基于能量生成模型的。這些模型為每個可能的構型分配一個未歸一化的能量值,采樣過程遵循低能量構型對應高概率的原則。采樣通常使用馬爾可夫鏈蒙特卡洛等技術完成。這一類方法中的一個開創性例子是受限玻爾茲曼機(RBM)[121],它是最早應用于量子態重構的架構之一[251,252]。
對于變分方法,所使用的深度神經網絡被視為變分假設,用于近似哈密頓量的基態[44]。與數據驅動的方法不同,這種方法專門針對基態估計設計,不需要訪問量子測量數據。訓練目標是使目標哈密頓量 H(x) 的期望值最小化,從而在由 DNN 定義的表達函數空間中尋找最低能量態。訓練后, DNN 的輸出模擬了基態向量 |ψ(x)? 的測量統計特性。
這種變分方法可與基于測量數據訓練的自回歸模型相結合,從而提升量子模擬的準確性[74,157,186]。具體實施時,首先通過自回歸模型從噪聲量子模擬器生成的實驗數據中重建近似基態,隨后通過變分優化進一步逼近理想基態。該混合方法已被證實比傳統變分方法更高效,且對實驗誤差具有更強的魯棒性。
由于本綜述側重于從測量中學習量子系統的AI應用,因此并未全面涵蓋所有關于 NQS 的研究。如需了解 NQS 的完整概述,讀者可參考文獻[48,75,159]。
在顯式恢復與隱式恢復之間存在一種值得簡要提及的中間方法,即在特定結構假設下顯式構建量子態。那些在系統所有切割面上精確意義上具有低糾纏度的量子態[85],可以用張量網絡態[68]進行良好近似。一旦學習到張量網絡態,就可以從一個與目標分布P(s)高度接近的分布中進行采樣。當前研究場景在單空間維度的純態(即矩陣乘積態)中尤為明顯,但對局部純化的混合態的推廣研究也已展開。早期方法主要關注從局部或合適的隨機全局測量中實現實際恢復[70,192],而新近研究則為從適當(通常是隨機化)數據中嚴格學習張量網絡提供了樣本復雜度邊界[14,110,141]。這些方法與經典陰影理論也存在密切關聯。
預測量子動力學。在量子動力學中,相關的參數化量子態向量變為 |ψ(x;t)?:= e ??H(x)t |ψ0? ,其中 x 表示所探索哈密頓量的經典控制,t 表示演化時間。給定一個包含多個時間點 |ψ(x;t)? ? 的測量數據集,這些時間點對應不同的控制參數,目標是使用深度學習模型來預測未來時間 t ′ 的狀態向量 |ψ( x ′ ; t ′ )? 或其物理特性。由于問題的時間序列特性,具有捕捉時間依賴性的順序深度學習模型自然適合解決此類任務。
早期的一項嘗試利用 RNN 和 LSTM 模型來預測自旋模型中隨時間演化狀態矢量 |ψ(x;t)? 的可觀測量期望值[181]。通過將自旋系統參數和一系列過去的測量數據作為輸入,這些模型輸出未來時間步長的預測期望值。采用相同的方法,序列深度學習模型已被應用于預測由量子電路生成的隨時間演化狀態的可觀測量期望值[183]。最近提出的一種雙向深度學習模型不僅能基于其哈密頓量預測動態演化中可觀測量的期望值,還能從相關的動態觀測數據中預測隨時間變化的哈密頓量參數[11]。與上述研究方向不同,受機器學習模型啟發,文獻[130]開發了一種深度學習模型,通過預測從預設集合中隨機抽取的任何輸入狀態對應的未知量子過程輸出特性來模擬量子過程[303]。
除預測封閉量子系統的動力學外,當前研究熱點還聚焦于運用深度學習模型模擬開放量子系統的動力學,該領域在量子化學與藥物研發中具有廣泛應用前景。由于這些內容超出本綜述范疇,具體細節可參閱文獻[38,46,116,117]。
哈密頓量學習。量子物理的核心在于系統的哈密頓量,它不僅決定著量子態的結構,還主導著量子態的動態演化。鑒于其核心地位,哈密頓量學習[272,278]成為研究熱點,該領域致力于通過測量數據推斷哈密頓量的底層結構并估算其耦合強度。所學得的模型參數不僅能揭示系統動力學特性,還可用于可擴展量子系統的刻畫與驗證[45,86],并能顯著提升量子模擬的預測能力。
近期研究引入了專用深度學習模型,在特定哈密頓量結構假設(通常包含幾何局域性)下,以最小測量開銷完成不同哈密頓量學習任務。例如,基于少量局域測量結果訓練的 FCNN 已被用于學習和驗證穩定子哈密頓量實例的結構,其在量子糾錯領域的潛在應用備受關注[255]。在非平衡態條件下,全連接神經網絡(FCNNs)也被用于從動態測量數據重構哈密頓量[188,254]。超越前饋架構,循環神經網絡(RNNs)通過處理單量子比特測量的時間序列數據,展現出學習時變哈密頓量參數(如驅動伊辛模型參數)的潛力[56]。此外,一項涉及多達27個量子比特的大規模實驗研究運用張量ESPRIT和約束流形優化等超分辨率技術,成功學習了超導量子處理器的哈密頓量[114]。這類大規模實驗研究也凸顯了開發能夠適應量子態制備和測量誤差的魯棒哈密頓量學習方法的重要性。
4 . 在量子計算中的應用
除前述應用外,研究者已開始探索深度學習(DL)模型在各類量子計算任務中的潛在應用。
量子系統基準測試。大規模量子處理器的基準測試對于實現可靠的量子計算和量子模擬至關重要[86,198]。基準測試方法能驗證量子態的正確制備或量子電路及其組件的精確實現。為提升效率和可擴展性,采用深度學習模型預測特定量子處理器性能是一種頗具前景的方法[118,125,126]。在具體案例中,人們通過集成多個深度學習模型,以時間、矩陣積態的鍵維數(bond dimension)和系統規模作為輸入參數,來評估實驗模擬與經典模擬之間的保真度[232]。完成系統基準測試后,通常還能獲得關于如何優化當前實驗設置的實用建議。值得注意的是,基準測試的概念正日益被視為量子學習理論的重要組成部分。
量子誤差緩解(Quantum error mitigation,QEM)。量子誤差緩解的概念在抑制量子系統中由噪聲引起的估計誤差方面起著關鍵作用[37]。它并非單一方法,而是一系列主要在經典層面操作的方法組合,旨在消除部分量子噪聲。根據其算法策略,現有的 QEM 技術可以分為非學習和基于學習的方法。非學習類別包括零噪聲外推[247]和虛擬蒸餾[137]等方法。相比之下,基于學習的方法可以進一步分為采用傳統機器學習[72,73,239]和基于深度學習的方法,本文討論主要集中在后者。這些方法在近期實驗實現中對緩解量子噪聲至關重要,但在可擴展性方面面臨重大障礙,需要電路規模超過指數級的采樣復雜度[203,243]。
當前應用于 QEM 的深度學習模型屬于基于測量的協議,其中噪聲測量結果{s(i)}作為模型的輸入,相應的估計期望值作為標簽。遵循這一范式, FCNN 結合任務特定輔助信息z(i)已被開發用于緩解多種場景中的錯誤,包括量子比特噪聲譜學[279]、小規模量子電路[146]、量子近似優化算法[216]和哈密頓量模擬[305]。除了這些應用外,一種通過數據增強賦能的深度學習模型被引入,以實現直接在硬件生成的數據上進行訓練,從而提高對設備特定噪聲的適應性[167]。此外,非消息傳遞圖Transformer被提出以提高在不同電路架構和噪聲類型中的性能[20]。與直接應用深度學習模型預測誤差緩解的可觀測量并行,基態估計的另一種解決方案涉及使用 NQS 從噪聲測量數據中重建近似基態,然后進一步通過經典優化來最小化相對于目標哈密頓量的能量[25]。
量子糾錯。盡管量子誤差緩解對于現代量子處理器作為中間步驟至關重要,但量子糾錯(QEC)仍然是實現容錯量子計算的最終途徑。深度學習模型已成功應用于 QEC ,特別是在解碼過程中,它們在某些情況下優于傳統方法。這些應用可以分為識別特定量子錯誤的發生,從而推導出實際的糾錯操作[22,240,270,301],以及生成量子解碼配置[40],其中訓練后,模型可以高效計算任何給定綜合征的邏輯運算符的可能性。雖然兩種方法都使用測量綜合特征作為深度學習模型的輸入,但前者通常被視為分類任務,類似于屬性預測,而后者屬于生成學習,類似于隱式狀態重構。基于學習的解碼器面臨的一個具體挑戰是在容錯量子存儲器中錯誤測量導致的綜合征識別錯誤。深度學習的概念也被常規用于識別新的量子糾錯碼,但這一應用超出了本綜述的范圍。
增強型變分量子算法。變分量子算法(VQAs)仍是研究熱點領域,它不僅具有豐富的理論分析,更在實際應用中大顯身手。鑒于已有大量相關綜述文獻[27,50,80,249,250],本文不作全面綜述,而是聚焦于利用深度學習模型提升VQAs性能與擴展性的最新進展。
與直接預測數字量子計算機輸出的量子態特性不同,深度學習增強的變分量子算法(VQAs)旨在提升優化效率和電路部署效果。在優化方面,研究者開發了深度學習模型來識別高質量初始參數[94,140,162,220],并作為替代優化器預測梯度軌跡[53,135,145,171,263]。為提升性能,深度神經網絡(DNNs)被用于設計數據編碼器和量子門陣列布局[119,200,293]。此外,強化學習和擴散模型也被探索用于發現緊湊的門序列以實現電路編譯,從而進一步促進實際部署[93,96,215]。
C. 高級主題
深度學習的黑箱特性給理解其在可擴展量子系統中的行為帶來了巨大挑戰。因此,與機器學習模型不同,深度學習模型的基本原理仍大部分未被探索。然而,近年來在可解釋人工智能理論的發展上取得了顯著進展,這使得我們能夠更好地理解、可視化和解釋深度學習模型[218]。一個顯著的例子是在基態線性性質預測中, DNN 已被證明能提供可證明的預測準確性保證[275]。此外,在相位分類中,當使用的 DNN 具有足夠的表達能力時,其輸出可以有效地被具有閉合解的代理函數所替代,從而無需顯式訓練[15]。在狀態重構的背景下,多項研究探討了 NQS 的表達能力,即底層神經架構能有效表示的量子態類別。研究結果表明,條件關聯和糾纏熵是主導因素[100,231,288,298]。盡管取得了這些進展,大多數深度學習模型的內部運作機制仍然難以捉摸,需要進一步研究以揭示其底層機制。
解決這一問題的另一種方法是開發可解釋的深度學習模型。透明且可解釋的深度學習模型不僅能提升量子特性預測的可靠性,還能增強物理學家對其作為推動科學知識發展的強大工具的信心。該研究方向已取得若干進展[66,71,76,90,95,139,224,267,297]。這些研究的核心原則在于揭示輸入數據與潛在表征之間的關聯。借助降維算法(如t-SNE算法[257]),研究者可直觀展示數據表征在高維表征空間中的分布情況。關于量子系統可解釋深度學習模型的最新進展,可參閱本綜述[277]。
除了提升可解釋性之外,建立深度學習模型的可遷移性同樣至關重要——即拓展其從簡單系統到復雜系統、從小規模到大規模量子體系的適用范圍。該領域的突破有望大幅減少數據采集、訓練和預測所需的量子資源,從而構建更具擴展性和效率的學習框架。目前已有初步進展:例如,基于不同尺寸一維里德伯原子數據訓練的深度學習模型,即便真實相圖具有高度尺寸依賴性[271],仍能有效預測訓練過程中未涉及的更大系統相圖。
V. 語言模型范式
生成式人工智能[42],以大型語言模型(LLMs)[55]為代表,自2020年代初迅速崛起以來,已徹底改變了人工智能研究格局及其社會影響。這一演進過程中的里程碑是GPT框架[36]的開發,該框架確立了兩階段訓練范式:先在大規模未標注文本語料庫上進行預訓練,再進行任務特定的微調。雖然Transformer架構[261]和預訓練-微調策略[170,204,205,219]本身并不新穎,但它們的結合揭示了一個顯著的實證現象——神經規模法則(Neural Scaling Law)[143],即模型性能會隨著模型規模、訓練數據和計算資源的增加而可預測地提升。這一洞見在分布式計算技術進步的支持下,使得擁有數百億參數的LLMs(如ChatGPT和DeepSeek)能夠在各類自然語言任務中達到甚至超越人類水平[55]。LLMs的成功引發了人們對于探索類GPT架構在表征和刻畫可擴展量子系統潛力的與日俱增的濃厚興趣。下文將首先概述這類方法的基本原理,隨后討論其應用及前沿課題。
方框8:語言模型中的術語
基礎模型
基礎模型是通過自監督學習目標,在廣泛且多樣化的數據集上訓練而成的大規模通用型AI模型。以GPT為代表的這類模型,能夠習得靈活多樣的表征能力和處理能力,只需少量額外訓練即可適配各類下游任務。它們通常采用深度Transformers等先進神經架構,從而能夠捕捉跨模態的復雜模式與關聯關系。憑借這種靈活且可遷移的知識特性,基礎模型已成為近年來人工智能領域突破性進展的基石。
Transformer架構
Transformer是一種基于自注意力機制的深度學習架構,旨在建模序列內部的依賴關系,無論其長度或位置如何。其核心在于用多頭自注意力機制替代循環結構,從而實現高效的并行化處理并捕捉長距離相關性。對于輸入序列,自注意力模塊通過加權求和計算表示
![]()
其中Q、K和V分別表示從輸入序列中提取的可訓練查詢矩陣、鍵矩陣和值矩陣,dk為特征維度。該機制使Transformer能夠有效學習上下文相關關系,從而成為GPT等現代大語言模型(LLM)的核心架構。
預訓練和微調
預訓練與微調是大型語言模型(如GPT)中廣泛應用的兩階段訓練范式。在預訓練階段,模型通過自監督目標從海量未標注文本語料庫中學習通用語言模式與表征。在量子應用領域,這可能涉及跨不同場景的測量結果分布學習。微調階段則通過在較小規模的標注數據集上訓練,使預訓練模型進一步適應特定任務或領域。這種訓練方式使GPT模型能在廣泛任務中表現出色,例如針對糾纏熵數據或特定量子硬件噪聲特征進行微調。
A. 總體方案
在量子系統刻畫領域,類GPT架構通常采用預訓練-微調的范式。具體而言,首...
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.