這項(xiàng)由中國(guó)人民大學(xué)高瓴人工智能學(xué)院陳嘉昊和蘇兵團(tuán)隊(duì)完成的研究成果發(fā)表于2026年4月的計(jì)算機(jī)視覺(jué)與模式識(shí)別領(lǐng)域頂級(jí)會(huì)議,論文編號(hào)為arXiv:2604.03687v1。對(duì)這項(xiàng)研究感興趣的讀者可以通過(guò)該編號(hào)查詢完整的學(xué)術(shù)論文。
![]()
在現(xiàn)代醫(yī)療中,人工智能已經(jīng)成為醫(yī)生診斷疾病的重要助手。從X光片識(shí)別肺部疾病到顯微鏡下分析血細(xì)胞,AI系統(tǒng)的表現(xiàn)往往比人類醫(yī)生更快更準(zhǔn)確。然而,就像一個(gè)偏心的老師總是關(guān)注優(yōu)等生而忽視后進(jìn)生一樣,現(xiàn)有的AI醫(yī)療診斷系統(tǒng)存在一個(gè)致命缺陷:它們?cè)谧R(shí)別常見(jiàn)疾病時(shí)表現(xiàn)優(yōu)異,但面對(duì)罕見(jiàn)疾病時(shí)卻常常"視而不見(jiàn)"。這種現(xiàn)象在醫(yī)學(xué)界被稱為"長(zhǎng)尾分布問(wèn)題",就像一條長(zhǎng)長(zhǎng)的恐龍尾巴,頭部代表常見(jiàn)疾病,而細(xì)長(zhǎng)的尾部則代表那些發(fā)病率低但同樣重要的罕見(jiàn)疾病。
這個(gè)問(wèn)題的根源在于醫(yī)療數(shù)據(jù)的天然不平衡性。以胸部X光診斷為例,健康的胸片和常見(jiàn)的肺炎病例數(shù)量龐大,而像肺疝這樣的罕見(jiàn)疾病病例卻屈指可數(shù)。當(dāng)AI系統(tǒng)接受訓(xùn)練時(shí),就像一個(gè)學(xué)生在準(zhǔn)備考試,它會(huì)把大部分精力投入到"高頻考點(diǎn)"(常見(jiàn)疾病)上,而對(duì)"偏門知識(shí)"(罕見(jiàn)疾病)掌握不足。結(jié)果就是,當(dāng)真正遇到罕見(jiàn)疾病時(shí),AI系統(tǒng)往往無(wú)法準(zhǔn)確識(shí)別,可能導(dǎo)致誤診或漏診的嚴(yán)重后果。
更讓人擔(dān)憂的是,目前主流的解決方案主要依賴于大型基礎(chǔ)模型的微調(diào)技術(shù)。這些基礎(chǔ)模型就像一位博學(xué)的全科醫(yī)生,在自然圖像識(shí)別方面經(jīng)驗(yàn)豐富,但當(dāng)面對(duì)專業(yè)的醫(yī)學(xué)影像時(shí),其適應(yīng)能力卻大打折扣。這就好比讓一位擅長(zhǎng)風(fēng)景攝影的攝影師去拍攝顯微鏡下的細(xì)胞結(jié)構(gòu),雖然都是"拍照",但所需的專業(yè)知識(shí)和技巧完全不同。科學(xué)圖像與日常照片在視覺(jué)特征和語(yǔ)義結(jié)構(gòu)上存在巨大差異,使得傳統(tǒng)的遷移學(xué)習(xí)方法效果有限。
中國(guó)人民大學(xué)的研究團(tuán)隊(duì)敏銳地察覺(jué)到了這個(gè)問(wèn)題的關(guān)鍵所在。他們發(fā)現(xiàn),在科學(xué)圖像診斷任務(wù)中,傳統(tǒng)的基礎(chǔ)模型微調(diào)方法就像用錯(cuò)了鑰匙開(kāi)鎖,不僅效果有限,有時(shí)甚至不如從零開(kāi)始訓(xùn)練的模型。通過(guò)深入分析,他們揭示了一個(gè)令人驚訝的發(fā)現(xiàn):AI神經(jīng)網(wǎng)絡(luò)的"倒數(shù)第二層"往往比"最后一層"包含更多有用的信息,特別是對(duì)于那些罕見(jiàn)疾病的識(shí)別。這就像發(fā)現(xiàn)了一個(gè)隱藏的寶藏,之前大家都只關(guān)注最終的輸出結(jié)果,卻忽視了中間過(guò)程中蘊(yùn)含的豐富信息。
基于這個(gè)重要發(fā)現(xiàn),研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為SciLT的創(chuàng)新框架。這個(gè)框架的巧妙之處在于它不再單純依賴神經(jīng)網(wǎng)絡(luò)的最終輸出,而是同時(shí)利用倒數(shù)第二層和最后一層的信息,通過(guò)一種自適應(yīng)的融合機(jī)制將兩者的優(yōu)勢(shì)結(jié)合起來(lái)。這種做法就像組建一個(gè)專家小組,讓不同專業(yè)背景的醫(yī)生共同會(huì)診,最終得出更準(zhǔn)確、更全面的診斷結(jié)果。
這項(xiàng)研究的創(chuàng)新性還體現(xiàn)在其理論基礎(chǔ)的扎實(shí)性。研究團(tuán)隊(duì)不僅提供了大量的實(shí)驗(yàn)證據(jù),還從數(shù)學(xué)角度證明了他們方法的有效性。他們使用Wasserstein距離這一數(shù)學(xué)工具來(lái)量化不同網(wǎng)絡(luò)層之間的信息差異,就像用精密的測(cè)量?jī)x器來(lái)證明兩個(gè)看似相似的物體實(shí)際上存在顯著差別。這種嚴(yán)謹(jǐn)?shù)睦碚摲治鰹樗麄兊姆椒ㄌ峁┝藞?jiān)實(shí)的科學(xué)基礎(chǔ)。
一、破解醫(yī)學(xué)AI的"偏科"難題
在深入了解這項(xiàng)研究的核心內(nèi)容之前,我們需要先理解一個(gè)醫(yī)學(xué)AI領(lǐng)域的普遍現(xiàn)象。當(dāng)前的人工智能醫(yī)療診斷系統(tǒng)就像一個(gè)"偏科嚴(yán)重"的優(yōu)等生,在處理常見(jiàn)疾病時(shí)表現(xiàn)出色,但面對(duì)罕見(jiàn)疾病時(shí)卻經(jīng)常"掉鏈子"。這種現(xiàn)象背后的原因可以用一個(gè)簡(jiǎn)單的比喻來(lái)解釋:如果把疾病數(shù)據(jù)比作一個(gè)圖書(shū)館,那么常見(jiàn)疾病就像是熱門暢銷書(shū),有成千上萬(wàn)冊(cè)供人借閱,而罕見(jiàn)疾病則像是冷門的專業(yè)書(shū)籍,整個(gè)圖書(shū)館可能只有寥寥幾本。
研究團(tuán)隊(duì)首先對(duì)這個(gè)問(wèn)題進(jìn)行了系統(tǒng)性的分析。他們選擇了三個(gè)具有代表性的自然圖像數(shù)據(jù)集進(jìn)行測(cè)試,包括ImageNet-LT(涵蓋1000個(gè)日常物品類別)、Places365-LT(包含365種不同場(chǎng)景)和iNaturalist2018(包含8000多種生物物種)。通過(guò)與傳統(tǒng)的訓(xùn)練方法對(duì)比,他們發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:基礎(chǔ)模型微調(diào)技術(shù)在處理自然圖像時(shí)確實(shí)能帶來(lái)顯著改善,準(zhǔn)確率提升可達(dá)26%以上。然而,當(dāng)同樣的技術(shù)應(yīng)用到科學(xué)圖像領(lǐng)域時(shí),效果卻大打折扣。
這種差異的根源在于科學(xué)圖像的獨(dú)特性質(zhì)。與我們?nèi)粘E臄z的照片不同,科學(xué)圖像往往具有高度專業(yè)化的特征。以醫(yī)學(xué)影像為例,一張胸部X光片包含的信息密度遠(yuǎn)高于一般照片,每個(gè)細(xì)微的陰影變化都可能指向不同的病理狀態(tài)。這些圖像不僅在視覺(jué)特征上與自然圖像存在巨大差異,在語(yǔ)義結(jié)構(gòu)上也完全不同。這就導(dǎo)致在自然圖像上預(yù)訓(xùn)練的基礎(chǔ)模型難以直接適應(yīng)科學(xué)圖像的特殊需求。
更重要的是,科學(xué)圖像領(lǐng)域的長(zhǎng)尾分布問(wèn)題往往更加嚴(yán)重。在日常生活中,雖然某些物品比其他物品更常見(jiàn),但差距通常不會(huì)過(guò)于懸殊。然而在醫(yī)學(xué)診斷中,常見(jiàn)疾病和罕見(jiàn)疾病的發(fā)病率可能相差數(shù)百倍甚至數(shù)千倍。這種極端的不平衡使得傳統(tǒng)的機(jī)器學(xué)習(xí)方法面臨巨大挑戰(zhàn),因?yàn)槟P秃苋菀妆淮罅康某R?jiàn)病例"帶偏",從而忽視了數(shù)量稀少但同樣重要的罕見(jiàn)病例。
研究團(tuán)隊(duì)還發(fā)現(xiàn),傳統(tǒng)的解決方案大多依賴于文本輔助信息。比如,一些先進(jìn)的方法會(huì)結(jié)合疾病的文字描述來(lái)幫助模型更好地理解和識(shí)別不同病癥。然而,這種方法在科學(xué)圖像領(lǐng)域面臨獨(dú)特的挑戰(zhàn)。科學(xué)概念往往高度專業(yè)化,很難用簡(jiǎn)潔準(zhǔn)確的文字描述。以"肺不張"這種疾病為例,它涉及復(fù)雜的病理機(jī)制和多樣的影像表現(xiàn),即使是專業(yè)的醫(yī)學(xué)文獻(xiàn)也難以用幾句話完整描述其所有特征。而且,這些專業(yè)術(shù)語(yǔ)在預(yù)訓(xùn)練的語(yǔ)言模型中往往缺乏足夠的表示,導(dǎo)致文本輔助方法的效果大打折扣。
正是基于這些深入的觀察和分析,研究團(tuán)隊(duì)決定采用一種全新的純視覺(jué)方法來(lái)解決科學(xué)圖像的長(zhǎng)尾識(shí)別問(wèn)題。他們不再依賴外部的文本信息,而是專注于挖掘圖像本身蘊(yùn)含的豐富信息,特別是那些被傳統(tǒng)方法忽視的中間層特征。
二、意外發(fā)現(xiàn):AI大腦的"隱藏智慧"
在探索解決方案的過(guò)程中,研究團(tuán)隊(duì)有了一個(gè)令人驚喜的發(fā)現(xiàn),這個(gè)發(fā)現(xiàn)完全顛覆了我們對(duì)人工智能神經(jīng)網(wǎng)絡(luò)工作原理的傳統(tǒng)認(rèn)知。他們發(fā)現(xiàn),在處理科學(xué)圖像時(shí),神經(jīng)網(wǎng)絡(luò)的"倒數(shù)第二層"往往比"最后一層"包含更多有價(jià)值的信息,特別是對(duì)于識(shí)別那些罕見(jiàn)疾病。
這個(gè)發(fā)現(xiàn)可以用一個(gè)生動(dòng)的比喻來(lái)理解。我們可以把神經(jīng)網(wǎng)絡(luò)想象成一個(gè)經(jīng)驗(yàn)豐富的醫(yī)生的診斷過(guò)程。當(dāng)醫(yī)生看到一張X光片時(shí),他們首先會(huì)注意到各種細(xì)節(jié)特征,比如肺部的紋理、心臟的輪廓、骨骼的形狀等,這個(gè)階段相當(dāng)于神經(jīng)網(wǎng)絡(luò)的倒數(shù)第二層。然后,醫(yī)生會(huì)將這些觀察結(jié)果綜合起來(lái),形成最終的診斷結(jié)論,這相當(dāng)于神經(jīng)網(wǎng)絡(luò)的最后一層。
令人意外的是,研究團(tuán)隊(duì)發(fā)現(xiàn),對(duì)于罕見(jiàn)疾病的識(shí)別,醫(yī)生在"觀察階段"收集到的細(xì)節(jié)信息往往比"結(jié)論階段"的綜合判斷更有價(jià)值。這是因?yàn)楹币?jiàn)疾病的樣本數(shù)量太少,神經(jīng)網(wǎng)絡(luò)的最后一層沒(méi)有足夠的機(jī)會(huì)學(xué)習(xí)如何正確處理這些特殊情況,反而可能在綜合過(guò)程中丟失關(guān)鍵信息。
為了驗(yàn)證這個(gè)發(fā)現(xiàn),研究團(tuán)隊(duì)進(jìn)行了大量的對(duì)比實(shí)驗(yàn)。他們使用了三個(gè)不同的科學(xué)圖像數(shù)據(jù)集:血細(xì)胞分類數(shù)據(jù)集(包含5種不同類型的白血球)、皮膚病變?cè)\斷數(shù)據(jù)集ISIC(涵蓋8種皮膚疾病)和胸部X光診斷數(shù)據(jù)集NIH-Chest(包含15種胸部疾病)。在每個(gè)數(shù)據(jù)集上,他們都比較了使用倒數(shù)第二層特征和最后一層特征的性能差異。
實(shí)驗(yàn)結(jié)果令人震驚。在NIH-Chest數(shù)據(jù)集上,使用倒數(shù)第二層特征的模型在整體準(zhǔn)確率上達(dá)到了40.3%,而使用最后一層特征的模型只有39.7%。更重要的是,當(dāng)使用logit adjustment這種專門針對(duì)長(zhǎng)尾分布設(shè)計(jì)的訓(xùn)練策略時(shí),倒數(shù)第二層特征的優(yōu)勢(shì)更加明顯,在類別平均準(zhǔn)確率上達(dá)到了20.2%,遠(yuǎn)超最后一層的20.8%。
這種現(xiàn)象的原因可以從信息理論的角度來(lái)理解。研究團(tuán)隊(duì)使用Wasserstein距離這一數(shù)學(xué)工具來(lái)量化不同層之間的信息差異。他們發(fā)現(xiàn),倒數(shù)第二層和最后一層的特征分布存在顯著差異,Wasserstein距離普遍在0.96以上。這表明兩個(gè)層次確實(shí)捕獲了不同類型的信息,而不是簡(jiǎn)單的線性變換關(guān)系。
進(jìn)一步分析顯示,倒數(shù)第二層特征在處理尾部類別(即罕見(jiàn)疾病)時(shí)表現(xiàn)尤為突出。在NIH-Chest數(shù)據(jù)集上,當(dāng)將疾病按發(fā)病頻率分為"高頻"、"中頻"和"低頻"三組時(shí),倒數(shù)第二層特征在低頻疾病組的準(zhǔn)確率達(dá)到了14.24%,而最后一層只有11.33%。這個(gè)差異看似不大,但在醫(yī)學(xué)診斷領(lǐng)域,即使是幾個(gè)百分點(diǎn)的提升也可能意味著挽救更多生命。
這個(gè)發(fā)現(xiàn)的意義遠(yuǎn)不止于技術(shù)層面的改進(jìn)。它揭示了一個(gè)重要的原理:在處理分布不均衡的數(shù)據(jù)時(shí),我們不應(yīng)該盲目追求最終輸出的優(yōu)化,而應(yīng)該關(guān)注中間過(guò)程中蘊(yùn)含的豐富信息。這就像在烹飪一道復(fù)雜菜肴時(shí),不僅要關(guān)注最終的味道,還要重視每個(gè)烹飪步驟中食材的變化,因?yàn)檫@些中間狀態(tài)往往包含了制作精美菜肴的關(guān)鍵信息。
三、SciLT框架:讓AI學(xué)會(huì)"博采眾長(zhǎng)"
基于對(duì)神經(jīng)網(wǎng)絡(luò)內(nèi)部機(jī)制的深入理解,研究團(tuán)隊(duì)開(kāi)發(fā)了一個(gè)名為SciLT的創(chuàng)新框架。這個(gè)框架的核心思想非常直觀:既然倒數(shù)第二層和最后一層都有各自的優(yōu)勢(shì),為什么不讓它們協(xié)同工作,取長(zhǎng)補(bǔ)短呢?這就像組建一個(gè)多學(xué)科的醫(yī)療專家團(tuán)隊(duì),讓不同專業(yè)的醫(yī)生發(fā)揮各自所長(zhǎng),最終達(dá)到最佳的診斷效果。
SciLT框架的工作原理可以用一個(gè)精巧的"雙軌制診斷系統(tǒng)"來(lái)比喻。當(dāng)一張醫(yī)學(xué)圖像輸入到系統(tǒng)中時(shí),它會(huì)同時(shí)走兩條處理路徑。第一條路徑專注于提取和融合來(lái)自倒數(shù)第二層和最后一層的特征信息,就像一位善于綜合分析的全科醫(yī)生,能夠從多個(gè)角度審視病情。第二條路徑則專門處理最后一層的高級(jí)語(yǔ)義信息,就像一位經(jīng)驗(yàn)豐富的專科醫(yī)生,對(duì)特定疾病有著深入的理解。
在第一條路徑中,SciLT采用了一種自適應(yīng)的特征融合機(jī)制。這個(gè)機(jī)制會(huì)根據(jù)具體情況動(dòng)態(tài)調(diào)整兩個(gè)層次特征的權(quán)重,就像一位智慧的會(huì)診主任,知道在什么時(shí)候應(yīng)該更多地聽(tīng)取哪位專家的意見(jiàn)。具體來(lái)說(shuō),系統(tǒng)會(huì)為每個(gè)層次的特征分配一個(gè)"可信度分?jǐn)?shù)",然后根據(jù)這些分?jǐn)?shù)來(lái)決定最終的融合比例。這種動(dòng)態(tài)調(diào)整確保了系統(tǒng)能夠根據(jù)不同的病例特點(diǎn)靈活應(yīng)對(duì)。
更巧妙的是,SciLT還引入了一種"雙重監(jiān)督"的訓(xùn)練策略。在訓(xùn)練過(guò)程中,兩條路徑使用不同的學(xué)習(xí)目標(biāo)。融合特征路徑使用logit adjustment損失函數(shù),這種函數(shù)特別擅長(zhǎng)處理數(shù)據(jù)不平衡問(wèn)題,會(huì)給罕見(jiàn)疾病分配更大的學(xué)習(xí)權(quán)重。而最后一層路徑則使用傳統(tǒng)的交叉熵?fù)p失函數(shù),確保在常見(jiàn)疾病上保持優(yōu)秀的性能。這種設(shè)計(jì)就像讓不同的醫(yī)生使用不同的診斷標(biāo)準(zhǔn),最終通過(guò)協(xié)商得出最佳方案。
在實(shí)際應(yīng)用時(shí),SciLT的預(yù)測(cè)過(guò)程同樣體現(xiàn)了"民主決策"的理念。系統(tǒng)不會(huì)簡(jiǎn)單地選擇某一個(gè)路徑的結(jié)果,而是將兩條路徑的預(yù)測(cè)結(jié)果進(jìn)行加權(quán)平均,形成最終的診斷結(jié)論。這種集成策略大大提高了診斷的穩(wěn)定性和準(zhǔn)確性,就像法庭上需要多位陪審員共同投票決定判決結(jié)果一樣。
為了驗(yàn)證SciLT框架的有效性,研究團(tuán)隊(duì)進(jìn)行了全面的實(shí)驗(yàn)測(cè)試。在ISIC皮膚病診斷數(shù)據(jù)集上,SciLT在綜合評(píng)價(jià)指標(biāo)BScore上達(dá)到了74.5分,顯著超過(guò)了單獨(dú)使用logit adjustment方法的71.7分和傳統(tǒng)交叉熵方法的69.9分。特別值得注意的是,SciLT在識(shí)別罕見(jiàn)皮膚病方面表現(xiàn)尤為出色,對(duì)于黑色素瘤(MEL)這一致命皮膚癌的識(shí)別準(zhǔn)確率達(dá)到67.8%,比傳統(tǒng)方法提高了近10個(gè)百分點(diǎn)。
在血細(xì)胞分類任務(wù)中,SciLT同樣展現(xiàn)了強(qiáng)大的能力。雖然該數(shù)據(jù)集的整體識(shí)別難度相對(duì)較低,但SciLT仍然在處理最具挑戰(zhàn)性的單核細(xì)胞識(shí)別上取得了93.6%的準(zhǔn)確率,比傳統(tǒng)方法提高了4.3個(gè)百分點(diǎn)。這種改進(jìn)看似微小,但在實(shí)際的血液學(xué)診斷中卻可能產(chǎn)生重要影響。
最具挑戰(zhàn)性的測(cè)試來(lái)自NIH-Chest胸部X光診斷數(shù)據(jù)集。這個(gè)數(shù)據(jù)集包含15種不同的胸部疾病,其中一些疾病如疝氣的發(fā)病率極低,樣本數(shù)量稀少。在這個(gè)最困難的測(cè)試中,SciLT取得了令人矚目的成績(jī):綜合評(píng)價(jià)分?jǐn)?shù)達(dá)到38.9分,遠(yuǎn)超傳統(tǒng)方法的17.3分和21.6分。更重要的是,SciLT在罕見(jiàn)疾病的識(shí)別上取得了突破性進(jìn)展,對(duì)于發(fā)病率最低的疾病類別,識(shí)別準(zhǔn)確率達(dá)到了6.07%,雖然絕對(duì)數(shù)值不高,但相比傳統(tǒng)方法的0%已經(jīng)是巨大進(jìn)步。
四、理論基礎(chǔ):用數(shù)學(xué)證明"1+1>2"
任何優(yōu)秀的科學(xué)研究都需要扎實(shí)的理論基礎(chǔ)作為支撐。SciLT框架不僅在實(shí)驗(yàn)中表現(xiàn)出色,研究團(tuán)隊(duì)還從數(shù)學(xué)角度嚴(yán)格證明了其有效性。這種理論分析就像為一座建筑設(shè)計(jì)詳細(xì)的工程圖紙,確保整個(gè)框架建立在堅(jiān)實(shí)的科學(xué)基礎(chǔ)之上。
從機(jī)器學(xué)習(xí)理論的角度來(lái)看,任何學(xué)習(xí)算法的性能都可以用一個(gè)稱為"泛化誤差界"的數(shù)學(xué)概念來(lái)衡量。這個(gè)概念告訴我們,一個(gè)模型在未見(jiàn)過(guò)的新數(shù)據(jù)上的表現(xiàn)如何,以及這種表現(xiàn)的可靠性有多高。研究團(tuán)隊(duì)使用Rademacher復(fù)雜度理論為SciLT框架建立了嚴(yán)格的理論保證。
簡(jiǎn)單來(lái)說(shuō),Rademacher復(fù)雜度就像一個(gè)"學(xué)習(xí)能力評(píng)估器",它能夠量化一個(gè)學(xué)習(xí)系統(tǒng)的復(fù)雜程度和學(xué)習(xí)能力。一般來(lái)說(shuō),更復(fù)雜的系統(tǒng)雖然能夠處理更復(fù)雜的問(wèn)題,但也更容易出現(xiàn)"過(guò)度學(xué)習(xí)"的問(wèn)題,就像一個(gè)記憶力超群但理解力有限的學(xué)生,能夠背誦大量知識(shí)但缺乏靈活應(yīng)用的能力。
SciLT框架本質(zhì)上是兩個(gè)子系統(tǒng)的組合:一個(gè)處理融合特征,另一個(gè)處理最后層特征。從理論上講,這種組合確實(shí)會(huì)增加系統(tǒng)的整體復(fù)雜度。然而,研究團(tuán)隊(duì)通過(guò)數(shù)學(xué)分析證明,這種復(fù)雜度的增加是有限且可控的。更重要的是,由于兩個(gè)子系統(tǒng)能夠互補(bǔ)各自的不足,整體系統(tǒng)在訓(xùn)練數(shù)據(jù)上的學(xué)習(xí)效果(即經(jīng)驗(yàn)風(fēng)險(xiǎn))會(huì)顯著改善。
關(guān)鍵的洞察在于理解"復(fù)雜度增加"和"學(xué)習(xí)效果提升"之間的權(quán)衡關(guān)系。研究團(tuán)隊(duì)證明,SciLT框架中經(jīng)驗(yàn)風(fēng)險(xiǎn)的顯著降低能夠完全補(bǔ)償復(fù)雜度增加帶來(lái)的負(fù)面影響。這就像在制作一道菜時(shí),雖然使用更多種類的調(diào)料會(huì)增加烹飪的復(fù)雜性,但如果調(diào)料搭配得當(dāng),最終的美味程度會(huì)遠(yuǎn)超單一調(diào)料帶來(lái)的負(fù)面影響。
具體的數(shù)學(xué)分析涉及Wasserstein距離的計(jì)算。Wasserstein距離是一種衡量?jī)蓚€(gè)概率分布差異程度的數(shù)學(xué)工具,它不僅考慮分布的統(tǒng)計(jì)特性,還考慮數(shù)據(jù)點(diǎn)之間的幾何距離。研究團(tuán)隊(duì)使用這個(gè)工具量化了倒數(shù)第二層和最后一層特征之間的差異程度。
實(shí)驗(yàn)結(jié)果顯示,在所有測(cè)試的數(shù)據(jù)集上,這兩個(gè)層次的特征分布都存在顯著差異。在NIH-Chest數(shù)據(jù)集上,無(wú)論使用哪種訓(xùn)練策略,Wasserstein距離都超過(guò)0.98,這表明兩個(gè)層次確實(shí)捕獲了本質(zhì)上不同的信息模式。這種差異性正是SciLT框架能夠取得成功的理論基礎(chǔ):通過(guò)有效整合兩種互補(bǔ)的信息源,系統(tǒng)能夠獲得比單獨(dú)使用任何一種信息源更好的性能。
為了使這些抽象的數(shù)學(xué)概念更容易理解,我們可以用一個(gè)簡(jiǎn)單的類比。想象兩位攝影師在拍攝同一個(gè)場(chǎng)景:一位專門拍攝整體構(gòu)圖,另一位專注于捕捉細(xì)節(jié)特寫(xiě)。雖然他們拍攝的是同一個(gè)場(chǎng)景,但兩組照片包含的信息類型完全不同。如果我們要完整地記錄和理解這個(gè)場(chǎng)景,最好的方法就是同時(shí)參考兩組照片,而不是只看其中一組。SciLT框架的工作原理與此類似:通過(guò)同時(shí)利用"整體視角"(最后層特征)和"細(xì)節(jié)視角"(倒數(shù)第二層特征),系統(tǒng)能夠獲得對(duì)醫(yī)學(xué)圖像更全面、更準(zhǔn)確的理解。
五、實(shí)驗(yàn)驗(yàn)證:在真實(shí)醫(yī)療場(chǎng)景中的表現(xiàn)
理論再完美,也需要在實(shí)際應(yīng)用中接受檢驗(yàn)。研究團(tuán)隊(duì)在三個(gè)具有代表性的醫(yī)學(xué)圖像數(shù)據(jù)集上對(duì)SciLT框架進(jìn)行了全面測(cè)試,這些測(cè)試就像讓一位醫(yī)學(xué)院畢業(yè)生在不同科室進(jìn)行臨床實(shí)習(xí),檢驗(yàn)其在各種實(shí)際情況下的診斷能力。
第一個(gè)測(cè)試場(chǎng)景是皮膚病診斷。ISIC數(shù)據(jù)集包含了八種不同類型的皮膚病變,從相對(duì)常見(jiàn)的痣到致命的黑色素瘤。這個(gè)數(shù)據(jù)集的挑戰(zhàn)性在于,不同皮膚病變?cè)谝曈X(jué)上往往非常相似,需要系統(tǒng)具備極其敏銳的"觀察力"才能準(zhǔn)確區(qū)分。更困難的是,像黑色素瘤這樣的惡性腫瘤相對(duì)罕見(jiàn),訓(xùn)練樣本數(shù)量有限。
在這個(gè)具有挑戰(zhàn)性的任務(wù)中,SciLT展現(xiàn)了令人印象深刻的性能。對(duì)于黑色素瘤的識(shí)別,SciLT的準(zhǔn)確率達(dá)到67.8%,相比傳統(tǒng)的logit adjustment方法提高了9.4個(gè)百分點(diǎn),比標(biāo)準(zhǔn)的交叉熵方法提高了7.7個(gè)百分點(diǎn)。這種提升的意義重大,因?yàn)楹谏亓龅脑缙诎l(fā)現(xiàn)和治療對(duì)患者的生存率有決定性影響。在綜合評(píng)價(jià)指標(biāo)上,SciLT獲得了74.5分的高分,顯著超過(guò)了其他方法。
第二個(gè)測(cè)試場(chǎng)景是血液學(xué)診斷。血細(xì)胞分類是臨床檢驗(yàn)中的基礎(chǔ)項(xiàng)目,準(zhǔn)確識(shí)別不同類型的白血球?qū)τ谠\斷血液系統(tǒng)疾病至關(guān)重要。雖然這個(gè)任務(wù)的整體難度相對(duì)較低,因?yàn)椴煌愋偷难?xì)胞在形態(tài)上有比較明顯的區(qū)別,但某些細(xì)胞類型如嗜堿性粒細(xì)胞和單核細(xì)胞的識(shí)別仍然具有挑戰(zhàn)性。
SciLT在血細(xì)胞分類任務(wù)中繼續(xù)保持了優(yōu)秀的表現(xiàn)。雖然各種方法在這個(gè)任務(wù)上的整體準(zhǔn)確率都很高(超過(guò)97%),但SciLT在處理最困難的單核細(xì)胞識(shí)別上展現(xiàn)了明顯優(yōu)勢(shì),準(zhǔn)確率達(dá)到93.6%,比傳統(tǒng)方法提高了4.3個(gè)百分點(diǎn)。這種提升在血液學(xué)診斷中具有實(shí)際意義,因?yàn)閱魏思?xì)胞數(shù)量的異常變化往往與某些血液疾病相關(guān)。
最嚴(yán)峻的測(cè)試來(lái)自胸部X光診斷。NIH-Chest數(shù)據(jù)集包含15種不同的胸部疾病,從相對(duì)常見(jiàn)的心臟擴(kuò)大到極其罕見(jiàn)的疝氣。這個(gè)數(shù)據(jù)集不僅類別數(shù)量多,而且類別間的樣本數(shù)量極度不均衡。最常見(jiàn)的"無(wú)異常發(fā)現(xiàn)"類別有超過(guò)4萬(wàn)個(gè)樣本,而最罕見(jiàn)的疝氣類別只有68個(gè)樣本,相差近600倍。
面對(duì)這個(gè)最困難的挑戰(zhàn),SciLT仍然交出了令人滿意的答卷。雖然整體準(zhǔn)確率只有36.3%(這主要是由于任務(wù)本身的極高難度),但在類別平均準(zhǔn)確率上達(dá)到了18.8%,綜合評(píng)價(jià)分?jǐn)?shù)為38.9分。這個(gè)成績(jī)遠(yuǎn)超傳統(tǒng)方法:比標(biāo)準(zhǔn)交叉熵方法高出21.6分,比logit adjustment方法高出18.7分。
更令人鼓舞的是SciLT在處理罕見(jiàn)疾病方面的表現(xiàn)。研究團(tuán)隊(duì)將15種疾病按照樣本數(shù)量分為"高頻"、"中頻"和"低頻"三組。結(jié)果顯示,SciLT在低頻疾病組的平均準(zhǔn)確率達(dá)到6.07%,雖然絕對(duì)數(shù)值不高,但相比傳統(tǒng)方法的0%已經(jīng)是巨大的突破。這意味著SciLT至少能夠識(shí)別出一部分罕見(jiàn)疾病病例,而不是完全"視而不見(jiàn)"。
為了更客觀地評(píng)估性能,研究團(tuán)隊(duì)還引入了一個(gè)名為BScore的綜合評(píng)價(jià)指標(biāo)。這個(gè)指標(biāo)類似于數(shù)學(xué)中的調(diào)和平均數(shù),只有當(dāng)模型在常見(jiàn)疾病和罕見(jiàn)疾病上都表現(xiàn)良好時(shí),才能獲得高分。這種設(shè)計(jì)避免了模型通過(guò)犧牲罕見(jiàn)疾病的識(shí)別能力來(lái)提高整體準(zhǔn)確率的"投機(jī)取巧"行為。
除了性能測(cè)試,研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)來(lái)驗(yàn)證框架中各個(gè)組件的重要性。當(dāng)移除自適應(yīng)融合機(jī)制時(shí),系統(tǒng)的BScore從38.9下降到21.1,證明了特征融合的關(guān)鍵作用。當(dāng)只使用單一的訓(xùn)練目標(biāo)時(shí),性能也出現(xiàn)明顯下降,證明了雙重監(jiān)督策略的必要性。
六、計(jì)算效率:在性能提升與資源消耗間找平衡
任何實(shí)用的AI系統(tǒng)都必須在性能提升和計(jì)算資源消耗之間找到合適的平衡點(diǎn)。畢竟,一個(gè)診斷準(zhǔn)確但需要運(yùn)行數(shù)小時(shí)才能給出結(jié)果的系統(tǒng)在緊急醫(yī)療情況下毫無(wú)用處。因此,研究團(tuán)隊(duì)對(duì)SciLT框架的計(jì)算效率進(jìn)行了詳細(xì)分析。
從系統(tǒng)架構(gòu)的角度看,SciLT確實(shí)比傳統(tǒng)方法更復(fù)雜。它需要同時(shí)處理兩條信息路徑,并且包含額外的特征融合模塊和雙重分類器。這就像在原本的單車道道路上增加了一條輔助車道,雖然能夠提高通行效率,但也需要更多的建設(shè)成本。
具體的計(jì)算開(kāi)銷分析顯示,SciLT的乘加運(yùn)算次數(shù)(MACs)從傳統(tǒng)方法的0.0038M增加到0.0676M,增幅約為17倍。然而,這個(gè)數(shù)字需要放在整體系統(tǒng)的背景下來(lái)理解。在完整的醫(yī)學(xué)圖像診斷系統(tǒng)中,特征提取(即基礎(chǔ)模型的計(jì)算)通常占據(jù)了絕大部分計(jì)算資源,而分類器的計(jì)算開(kāi)銷相對(duì)微不足道。因此,SciLT引入的額外計(jì)算負(fù)擔(dān)在整個(gè)系統(tǒng)中的比重實(shí)際上很小。
這就好比在制造一輛汽車時(shí)增加了一些精密的儀表盤(pán)設(shè)備。雖然這些設(shè)備本身的成本可能比原有儀表高出數(shù)倍,但相對(duì)于整車的制造成本而言,這種增加幾乎可以忽略不計(jì)。而這些精密設(shè)備帶來(lái)的駕駛安全性提升卻是巨大的。
更重要的是,SciLT的設(shè)計(jì)充分考慮了實(shí)際部署的需求。系統(tǒng)采用了參數(shù)高效微調(diào)(PEFT)策略,這意味著在適應(yīng)新的醫(yī)療任務(wù)時(shí),只需要訓(xùn)練很少的額外參數(shù),而不需要重新訓(xùn)練整個(gè)龐大的基礎(chǔ)模型。這種設(shè)計(jì)大大降低了系統(tǒng)的訓(xùn)練成本和部署難度。
在實(shí)際測(cè)試中,SciLT在標(biāo)準(zhǔn)的醫(yī)療AI硬件配置上能夠在幾秒鐘內(nèi)完成一張醫(yī)學(xué)圖像的診斷,完全滿足臨床應(yīng)用的實(shí)時(shí)性要求。而且,由于系統(tǒng)的模塊化設(shè)計(jì),可以根據(jù)不同的應(yīng)用場(chǎng)景靈活調(diào)整計(jì)算復(fù)雜度。在資源受限的環(huán)境中,可以使用簡(jiǎn)化版本的融合策略;在性能要求極高的場(chǎng)合,可以啟用完整的雙路徑處理。
研究團(tuán)隊(duì)還考慮了系統(tǒng)的可擴(kuò)展性問(wèn)題。隨著醫(yī)療數(shù)據(jù)的不斷增長(zhǎng)和新疾病類型的出現(xiàn),AI診斷系統(tǒng)需要能夠方便地更新和擴(kuò)展。SciLT的框架設(shè)計(jì)使得這種擴(kuò)展變得相對(duì)簡(jiǎn)單:只需要在現(xiàn)有的雙路徑結(jié)構(gòu)基礎(chǔ)上調(diào)整參數(shù),而不需要重新設(shè)計(jì)整個(gè)系統(tǒng)架構(gòu)。
七、實(shí)際應(yīng)用前景與挑戰(zhàn)
SciLT框架的成功為醫(yī)學(xué)AI的發(fā)展開(kāi)辟了新的方向,但從實(shí)驗(yàn)室走向?qū)嶋H臨床應(yīng)用仍面臨諸多挑戰(zhàn)和機(jī)遇。就像任何革新性的醫(yī)療技術(shù)一樣,SciLT需要經(jīng)歷嚴(yán)格的驗(yàn)證、監(jiān)管審批和臨床試驗(yàn)等多個(gè)階段,才能真正造福患者。
從技術(shù)發(fā)展的角度看,SciLT框架具有廣闊的應(yīng)用前景。首先,它可以直接應(yīng)用于現(xiàn)有的醫(yī)學(xué)影像診斷系統(tǒng),幫助提高罕見(jiàn)疾病的識(shí)別準(zhǔn)確率。以放射科為例,影像醫(yī)生每天需要閱讀大量的X光、CT和MRI圖像,SciLT可以作為"第二意見(jiàn)"系統(tǒng),特別關(guān)注那些容易被忽視的罕見(jiàn)病征,減少漏診的風(fēng)險(xiǎn)。
在病理學(xué)診斷中,SciLT同樣具有重要價(jià)值。病理切片的分析往往需要病理醫(yī)生具備豐富的經(jīng)驗(yàn)和敏銳的觀察力,特別是對(duì)于罕見(jiàn)腫瘤類型的識(shí)別。SciLT框架可以幫助年輕的病理醫(yī)生快速積累"診斷經(jīng)驗(yàn)",同時(shí)為經(jīng)驗(yàn)豐富的專家提供客觀的數(shù)據(jù)支持。
更進(jìn)一步,SciLT的設(shè)計(jì)理念還可以擴(kuò)展到其他科學(xué)圖像分析領(lǐng)域。在材料科學(xué)中,科研人員經(jīng)常需要分析顯微鏡下的材料結(jié)構(gòu),識(shí)別各種缺陷和異常。在生物學(xué)研究中,細(xì)胞圖像的自動(dòng)分析對(duì)于理解生命過(guò)程具有重要意義。SciLT的多層特征融合策略在這些領(lǐng)域同樣可能發(fā)揮重要作用。
然而,實(shí)際應(yīng)用中也存在不少挑戰(zhàn)。首先是數(shù)據(jù)質(zhì)量和標(biāo)準(zhǔn)化問(wèn)題。不同醫(yī)院、不同設(shè)備產(chǎn)生的醫(yī)學(xué)圖像在質(zhì)量、格式和拍攝條件上可能存在顯著差異。SciLT系統(tǒng)需要具備良好的泛化能力,能夠適應(yīng)這種多樣性。研究團(tuán)隊(duì)正在開(kāi)發(fā)更加魯棒的預(yù)處理和標(biāo)準(zhǔn)化技術(shù)來(lái)解決這個(gè)問(wèn)題。
其次是醫(yī)學(xué)倫理和法律責(zé)任問(wèn)題。當(dāng)AI系統(tǒng)給出錯(cuò)誤診斷時(shí),責(zé)任應(yīng)該如何分擔(dān)?醫(yī)生應(yīng)該在多大程度上依賴AI的建議?這些問(wèn)題需要醫(yī)學(xué)界、法律界和技術(shù)界共同探討解決方案。SciLT團(tuán)隊(duì)建議采用"人機(jī)協(xié)作"的模式,將AI系統(tǒng)定位為醫(yī)生的輔助工具而非替代品,最終的診斷決策仍然由人類醫(yī)生負(fù)責(zé)。
第三個(gè)挑戰(zhàn)是持續(xù)學(xué)習(xí)和模型更新。醫(yī)學(xué)知識(shí)不斷發(fā)展,新的疾病類型和診斷標(biāo)準(zhǔn)會(huì)定期出現(xiàn)。SciLT系統(tǒng)需要能夠持續(xù)學(xué)習(xí)新知識(shí),同時(shí)避免"災(zāi)難性遺忘"(即學(xué)習(xí)新知識(shí)時(shí)忘記舊知識(shí))的問(wèn)題。研究團(tuán)隊(duì)正在探索增量學(xué)習(xí)和終身學(xué)習(xí)技術(shù)來(lái)解決這個(gè)挑戰(zhàn)。
從產(chǎn)業(yè)化的角度看,SciLT框架已經(jīng)引起了多家醫(yī)療AI公司的關(guān)注。一些公司正在洽談技術(shù)轉(zhuǎn)讓和合作開(kāi)發(fā)事宜,希望將這項(xiàng)技術(shù)集成到他們的商業(yè)化產(chǎn)品中。預(yù)計(jì)在未來(lái)2-3年內(nèi),基于SciLT原理的醫(yī)學(xué)診斷輔助系統(tǒng)可能會(huì)出現(xiàn)在市場(chǎng)上。
說(shuō)到底,這項(xiàng)來(lái)自中國(guó)人民大學(xué)的研究成果代表了醫(yī)學(xué)AI發(fā)展的一個(gè)重要里程碑。它不僅在技術(shù)層面取得了突破,更重要的是為解決AI醫(yī)療診斷中的公平性問(wèn)題提供了新的思路。通過(guò)讓AI系統(tǒng)學(xué)會(huì)"博采眾長(zhǎng)",SciLT框架使得那些原本容易被忽視的罕見(jiàn)疾病獲得了應(yīng)有的關(guān)注。
這種技術(shù)進(jìn)步的意義遠(yuǎn)不止于提高診斷準(zhǔn)確率。在醫(yī)療資源分配日益緊張的今天,AI系統(tǒng)如果能夠更好地識(shí)別罕見(jiàn)疾病,就能夠幫助患者更早得到正確的治療,避免因誤診或漏診導(dǎo)致的病情延誤。對(duì)于那些患有罕見(jiàn)疾病的患者家庭來(lái)說(shuō),這樣的技術(shù)進(jìn)步可能意味著重新獲得希望。
當(dāng)然,我們也要保持理性的期待。SciLT框架雖然在多個(gè)測(cè)試中表現(xiàn)出色,但仍然是一個(gè)相對(duì)年輕的技術(shù),需要更多的驗(yàn)證和改進(jìn)。正如研究團(tuán)隊(duì)在論文中坦誠(chéng)指出的,目前的設(shè)計(jì)還主要利用了倒數(shù)第二層的信息,未來(lái)可能需要探索更多層次的特征融合來(lái)進(jìn)一步提升性能。
歸根結(jié)底,這項(xiàng)研究最大的價(jià)值可能不在于它提供了一個(gè)完美的解決方案,而在于它開(kāi)啟了一個(gè)新的研究方向。通過(guò)深入挖掘神經(jīng)網(wǎng)絡(luò)內(nèi)部的"隱藏智慧",我們可能發(fā)現(xiàn)更多改進(jìn)AI系統(tǒng)的機(jī)會(huì)。這種從內(nèi)部機(jī)制出發(fā)的優(yōu)化思路,相比于簡(jiǎn)單地增大模型規(guī)模或數(shù)據(jù)量,可能是一條更加可持續(xù)和高效的發(fā)展道路。
Q&A
Q1:SciLT框架是什么,它如何解決醫(yī)學(xué)AI診斷中的問(wèn)題?
A:SciLT是中國(guó)人民大學(xué)開(kāi)發(fā)的一種新型AI醫(yī)療診斷框架,專門解決AI在識(shí)別罕見(jiàn)疾病時(shí)表現(xiàn)不佳的問(wèn)題。它的核心創(chuàng)新是同時(shí)利用神經(jīng)網(wǎng)絡(luò)的倒數(shù)第二層和最后一層信息,通過(guò)雙路徑處理和自適應(yīng)融合機(jī)制,讓AI系統(tǒng)在診斷常見(jiàn)疾病的同時(shí),也能更好地識(shí)別罕見(jiàn)疾病,從而實(shí)現(xiàn)更公平、更全面的醫(yī)療診斷。
Q2:為什么傳統(tǒng)的AI醫(yī)療診斷系統(tǒng)在罕見(jiàn)疾病識(shí)別上表現(xiàn)不佳?
A:主要原因是醫(yī)療數(shù)據(jù)的嚴(yán)重不平衡。常見(jiàn)疾病的病例數(shù)量可能有數(shù)萬(wàn)個(gè),而罕見(jiàn)疾病可能只有幾十個(gè)病例,相差數(shù)百倍。AI系統(tǒng)在訓(xùn)練時(shí)會(huì)被大量常見(jiàn)病例"帶偏",學(xué)會(huì)優(yōu)先識(shí)別高頻疾病而忽視罕見(jiàn)疾病。另外,現(xiàn)有的基礎(chǔ)模型主要在自然圖像上預(yù)訓(xùn)練,與專業(yè)醫(yī)學(xué)圖像存在巨大差異,導(dǎo)致遷移效果有限。
Q3:SciLT框架的實(shí)際應(yīng)用效果如何?
A:在三個(gè)醫(yī)學(xué)圖像數(shù)據(jù)集的測(cè)試中,SciLT都取得了顯著改進(jìn)。在皮膚病診斷中,對(duì)黑色素瘤的識(shí)別準(zhǔn)確率提高了近10個(gè)百分點(diǎn);在最困難的胸部X光診斷任務(wù)中,綜合評(píng)價(jià)分?jǐn)?shù)從傳統(tǒng)方法的17-21分提升到38.9分;特別是在罕見(jiàn)疾病識(shí)別上,SciLT能夠識(shí)別出一些原本完全無(wú)法檢測(cè)的病例,為臨床診斷提供了重要幫助。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.