<cite id="ffb66"></cite><cite id="ffb66"><track id="ffb66"></track></cite>
      <legend id="ffb66"><li id="ffb66"></li></legend>
      色婷婷久,激情色播,久久久无码专区,亚洲中文字幕av,国产成人A片,av无码免费,精品久久国产,99视频精品3
      網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      北京大學(xué)團(tuán)隊(duì)突破:讓AI學(xué)會(huì)"看病",一個(gè)模型搞定所有圖片問題

      0
      分享至


      這是一項(xiàng)由北京大學(xué)醫(yī)學(xué)技術(shù)研究所的胡家奎、姚正健、金陸佳、陳英豪和盧燕葉等研究人員領(lǐng)導(dǎo)的工作,論文發(fā)表于2025年10月,論文編號(hào)為arXiv:2510.13282v1。有興趣深入了解的讀者可以通過這個(gè)編號(hào)在學(xué)術(shù)論文庫中查詢完整論文。

      一、為什么我們需要一個(gè)"萬能醫(yī)生"來修復(fù)照片

      想象你拍了一張照片,但它被各種問題"折磨"了:可能太暗看不清,可能被雨水模糊了,可能被壓縮得很厲害,或者被噪點(diǎn)污染了。過去,我們需要針對(duì)每一種問題單獨(dú)訓(xùn)練一個(gè)修復(fù)工具,就像醫(yī)院里每個(gè)科室都有專門的醫(yī)生。但北京大學(xué)的研究團(tuán)隊(duì)想到了一個(gè)更聰明的辦法:能不能訓(xùn)練一個(gè)"全科醫(yī)生",讓它學(xué)會(huì)識(shí)別照片的"病癥",然后對(duì)癥下藥?

      這個(gè)想法聽起來簡單,但實(shí)現(xiàn)起來非常復(fù)雜。關(guān)鍵問題在于,這個(gè)"全科醫(yī)生"怎樣才能快速學(xué)會(huì)識(shí)別這么多種不同的問題?傳統(tǒng)的方法是直接給它看大量的壞照片和好照片的對(duì)比,讓它自己摸索規(guī)律。但這樣做效率很低,而且容易"死記硬背",遇到新的問題類型或新的嚴(yán)重程度就不知所措了。

      研究團(tuán)隊(duì)發(fā)現(xiàn)了一個(gè)有趣的現(xiàn)象:當(dāng)神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)如何修復(fù)照片時(shí),它同時(shí)也在學(xué)習(xí)識(shí)別照片的問題類型。換句話說,識(shí)別問題和修復(fù)問題這兩個(gè)任務(wù)其實(shí)是相輔相成的。這個(gè)發(fā)現(xiàn)就像醫(yī)生發(fā)現(xiàn),學(xué)習(xí)診斷疾病的過程本身就能提升治療能力一樣。基于這個(gè)洞察,他們?cè)O(shè)計(jì)了一個(gè)新的預(yù)訓(xùn)練方法,叫做"掩膜降質(zhì)分類預(yù)訓(xùn)練"(MaskDCPT)。

      二、預(yù)訓(xùn)練:讓模型在正式工作前先"實(shí)習(xí)"

      在深入研究團(tuán)隊(duì)的方法之前,我們需要理解什么是預(yù)訓(xùn)練。預(yù)訓(xùn)練就像讓一個(gè)學(xué)生在進(jìn)入專業(yè)課程之前先學(xué)習(xí)基礎(chǔ)知識(shí)。在圖像修復(fù)的領(lǐng)域,預(yù)訓(xùn)練意味著用大量的圖像數(shù)據(jù)讓模型學(xué)習(xí)一些通用的技能,然后再針對(duì)具體的修復(fù)任務(wù)進(jìn)行微調(diào)。

      傳統(tǒng)的預(yù)訓(xùn)練方法主要分為兩大類。第一類叫對(duì)比學(xué)習(xí),它的工作原理類似于學(xué)習(xí)識(shí)別雙胞胎。模型會(huì)看同一張圖片的不同版本(比如不同的亮度、不同的裁剪方式),然后學(xué)會(huì)認(rèn)識(shí)到它們是同一個(gè)東西。第二類叫掩膜圖像建模,這個(gè)方法更像是做拼圖游戲。模型會(huì)看一張圖片,但其中一些部分被遮擋了,然后它需要猜測被遮擋的部分是什么樣的。

      但這些傳統(tǒng)方法在圖像修復(fù)領(lǐng)域有個(gè)問題:它們通常只關(guān)注某一個(gè)方面的學(xué)習(xí),比如只學(xué)習(xí)如何重建圖像,或者只學(xué)習(xí)如何對(duì)比不同的特征。研究團(tuán)隊(duì)的創(chuàng)新之處在于,他們想到把這些方法結(jié)合起來,同時(shí)加入一個(gè)新的維度:讓模型學(xué)會(huì)識(shí)別圖像的"病癥"。

      三、發(fā)現(xiàn)隱藏的超能力:神經(jīng)網(wǎng)絡(luò)天生會(huì)"診斷"

      在正式提出新方法之前,研究團(tuán)隊(duì)做了一系列有趣的實(shí)驗(yàn),來驗(yàn)證一個(gè)大膽的假設(shè):神經(jīng)網(wǎng)絡(luò)是否天生就具有識(shí)別圖像問題類型的能力?

      他們的第一個(gè)實(shí)驗(yàn)相當(dāng)于問:"一個(gè)沒有經(jīng)過任何訓(xùn)練的新生兒能識(shí)別多少種疾病?"結(jié)果令人驚訝。即使是完全隨機(jī)初始化的神經(jīng)網(wǎng)絡(luò),也能以52%到60%的準(zhǔn)確率識(shí)別五種不同的圖像問題類型(包括霧霾、雨水、高斯噪聲、運(yùn)動(dòng)模糊和低光)。這遠(yuǎn)高于隨機(jī)猜測的20%準(zhǔn)確率。這說明,識(shí)別問題的能力似乎是神經(jīng)網(wǎng)絡(luò)架構(gòu)本身固有的特性。

      接下來,他們看了當(dāng)模型在學(xué)習(xí)修復(fù)圖像時(shí)會(huì)發(fā)生什么。他們用三種不同的圖像問題(霧霾、雨水和高斯噪聲)來訓(xùn)練模型,然后測試它識(shí)別五種問題的能力。結(jié)果是戲劇性的:訓(xùn)練后,模型的識(shí)別準(zhǔn)確率跳到了94%以上,甚至對(duì)它從未見過的問題類型也能識(shí)別。這就像一個(gè)醫(yī)學(xué)生在學(xué)習(xí)如何治療常見疾病的過程中,無意中也學(xué)會(huì)了識(shí)別其他疾病的癥狀。

      但最關(guān)鍵的發(fā)現(xiàn)來自第三個(gè)實(shí)驗(yàn)。研究團(tuán)隊(duì)想知道,如果他們把圖像的一部分遮擋起來(就像用手指遮住照片的一部分),模型還能識(shí)別問題嗎?當(dāng)遮擋比例在50%以下時(shí),模型的識(shí)別能力幾乎沒有下降。這個(gè)發(fā)現(xiàn)非常重要,因?yàn)樗f明識(shí)別問題的能力不依賴于看到完整的圖像,這為后續(xù)的方法設(shè)計(jì)打開了大門。

      四、MaskDCPT:三個(gè)任務(wù)同時(shí)進(jìn)行的聰明訓(xùn)練法

      基于這些發(fā)現(xiàn),研究團(tuán)隊(duì)設(shè)計(jì)了他們的核心方法:掩膜降質(zhì)分類預(yù)訓(xùn)練(MaskDCPT)。這個(gè)方法的精妙之處在于它同時(shí)進(jìn)行三個(gè)任務(wù),而這三個(gè)任務(wù)互相促進(jìn)、互相加強(qiáng)。

      首先,讓我們理解這個(gè)方法的整體架構(gòu)。它包含一個(gè)編碼器和兩個(gè)解碼器。編碼器就像是一個(gè)特征提取器,它接收一張被部分遮擋的低質(zhì)量圖像,然后提取出這張圖像的關(guān)鍵特征。兩個(gè)解碼器各司其職:一個(gè)專門識(shí)別圖像的問題類型(分類解碼器),另一個(gè)則負(fù)責(zé)重建和修復(fù)圖像(重建解碼器)。

      在訓(xùn)練開始時(shí),研究團(tuán)隊(duì)會(huì)隨機(jī)遮擋輸入圖像的一些部分,遮擋比例默認(rèn)為50%。這個(gè)遮擋操作很關(guān)鍵,因?yàn)樗鼜?qiáng)迫模型學(xué)會(huì)從不完整的信息中提取有用的特征。然后,編碼器處理這張被遮擋的圖像,從每一層都提取特征。這里有個(gè)技術(shù)細(xì)節(jié):他們不是只用最后一層的特征,而是從網(wǎng)絡(luò)的后半部分的每一層都提取特征。這樣做是為了避免梯度消失的問題,確保淺層的網(wǎng)絡(luò)也能得到有效的訓(xùn)練。

      分類解碼器接收這些特征,然后嘗試識(shí)別原始圖像的問題類型。這里他們使用了一個(gè)叫"焦點(diǎn)損失"的特殊損失函數(shù)。為什么需要這個(gè)特殊的損失函數(shù)呢?因?yàn)樵诂F(xiàn)實(shí)中,不同類型的圖像問題數(shù)據(jù)量差異很大。比如,去霧數(shù)據(jù)有72000多張,但去雨數(shù)據(jù)只有200張。這種不平衡會(huì)讓模型偏向于學(xué)習(xí)數(shù)據(jù)多的問題類型,忽視數(shù)據(jù)少的問題。焦點(diǎn)損失就像是一個(gè)"教練",它會(huì)特別關(guān)注模型在少數(shù)類上的表現(xiàn),確保模型不會(huì)偏科。

      重建解碼器的任務(wù)是從編碼器的特征重建出原始的高質(zhì)量圖像。這個(gè)過程類似于做拼圖,模型需要根據(jù)看到的部分(未被遮擋的部分)推斷出被遮擋部分應(yīng)該是什么樣的。有趣的是,這個(gè)重建過程同時(shí)也是一個(gè)修復(fù)過程。對(duì)于未被遮擋的部分,模型學(xué)會(huì)了如何把低質(zhì)量的圖像轉(zhuǎn)換成高質(zhì)量的版本。

      這三個(gè)任務(wù)——識(shí)別問題、重建圖像和修復(fù)圖像——看似獨(dú)立,但實(shí)際上它們形成了一個(gè)互相促進(jìn)的循環(huán)。當(dāng)模型學(xué)會(huì)了識(shí)別問題類型時(shí),它對(duì)圖像的特征有了更深的理解,這幫助它更好地重建和修復(fù)圖像。反過來,修復(fù)和重建的過程也強(qiáng)化了模型對(duì)不同問題類型的理解。這就像一個(gè)醫(yī)生在治療患者的過程中不斷加深對(duì)疾病的認(rèn)識(shí),而對(duì)疾病的更深認(rèn)識(shí)又幫助他更好地治療患者。

      五、數(shù)據(jù)的力量:2.5百萬張圖像的大規(guī)模數(shù)據(jù)集

      要讓這個(gè)方法發(fā)揮最大效力,需要一個(gè)足夠大、足夠多樣的訓(xùn)練數(shù)據(jù)集。研究團(tuán)隊(duì)意識(shí)到,雖然網(wǎng)上有很多圖像修復(fù)的數(shù)據(jù)集,但它們通常都很小,而且覆蓋的問題類型有限。于是,他們決定自己收集和整理一個(gè)大規(guī)模的通用圖像修復(fù)數(shù)據(jù)集,命名為UIR-2.5M。

      這個(gè)數(shù)據(jù)集的規(guī)模令人印象深刻:它包含2.5百萬對(duì)圖像(低質(zhì)量版本和高質(zhì)量版本),涵蓋19種不同的圖像問題類型,以及超過200個(gè)不同的嚴(yán)重程度級(jí)別。數(shù)據(jù)集分為兩大類:單一問題和混合問題。單一問題包括各種模糊(運(yùn)動(dòng)模糊、散焦模糊、高斯模糊)、天氣問題(霧霾、雨水、雪)、噪聲(高斯噪聲、泊松噪聲、椒鹽噪聲、真實(shí)噪聲)、壓縮問題(JPEG壓縮)和其他問題(低光、馬賽克、摩爾紋)。混合問題則包含了現(xiàn)實(shí)世界中常見的多種問題同時(shí)出現(xiàn)的情況,比如低光加霧霾加雨水,或者模糊加低光加噪聲。

      值得注意的是,這個(gè)數(shù)據(jù)集既包含合成數(shù)據(jù)(人工生成的問題圖像)也包含真實(shí)數(shù)據(jù)(從真實(shí)場景中捕獲的有問題的圖像)。合成數(shù)據(jù)的好處是可以精確控制問題的類型和嚴(yán)重程度,便于系統(tǒng)的訓(xùn)練。真實(shí)數(shù)據(jù)的好處是它包含了合成數(shù)據(jù)無法復(fù)現(xiàn)的復(fù)雜特性,能幫助模型更好地泛化到真實(shí)世界。

      六、實(shí)驗(yàn)驗(yàn)證:從理論到實(shí)踐

      研究團(tuán)隊(duì)進(jìn)行了三大類實(shí)驗(yàn)來驗(yàn)證他們方法的有效性。

      第一類實(shí)驗(yàn):全能修復(fù)任務(wù)

      他們首先測試了模型在"五維全能修復(fù)"任務(wù)上的表現(xiàn)。這個(gè)任務(wù)要求一個(gè)模型同時(shí)處理五種常見的圖像問題:去霧、去雨、去噪、去模糊和低光增強(qiáng)。他們用四種不同的神經(jīng)網(wǎng)絡(luò)架構(gòu)(SwinIR、NAFNet、Restormer和PromptIR)進(jìn)行了測試。

      結(jié)果非常令人鼓舞。使用MaskDCPT預(yù)訓(xùn)練的模型在所有四種架構(gòu)上都顯著超越了基礎(chǔ)模型。以NAFNet為例,經(jīng)過MaskDCPT預(yù)訓(xùn)練后,在五維任務(wù)上的性能提升了4.32分貝(dB)。這個(gè)數(shù)字看起來可能不太直觀,但在圖像質(zhì)量評(píng)估中,每提升1分貝都是顯著的改進(jìn)。更重要的是,這個(gè)改進(jìn)對(duì)所有架構(gòu)都有效,無論是基于卷積的CNN還是基于注意力機(jī)制的Transformer。

      他們還測試了"十二維全能修復(fù)",即同時(shí)處理12種不同的圖像問題。在這個(gè)更具挑戰(zhàn)性的任務(wù)上,MaskDCPT預(yù)訓(xùn)練的模型仍然表現(xiàn)出色。在去雨任務(wù)上,它比之前最好的方法提升了1.98分貝。在低光增強(qiáng)上,它比一些使用了復(fù)雜外部模型的方法提升了4.78分貝。這說明,僅僅通過學(xué)習(xí)識(shí)別問題類型,模型就能獲得強(qiáng)大的修復(fù)能力,甚至不需要依賴復(fù)雜的外部工具。

      第二類實(shí)驗(yàn):面對(duì)陌生的問題

      真正考驗(yàn)一個(gè)模型能力的,是它面對(duì)從未見過的情況時(shí)的表現(xiàn)。研究團(tuán)隊(duì)設(shè)計(jì)了兩種測試方式。

      零樣本測試是指模型在訓(xùn)練時(shí)沒有見過某個(gè)特定的問題類型或問題嚴(yán)重程度,但在測試時(shí)需要處理它。比如,模型在訓(xùn)練時(shí)見過高斯噪聲級(jí)別為15、25和50的圖像,但從未見過級(jí)別為60或75的。結(jié)果表明,MaskDCPT預(yù)訓(xùn)練的模型在處理這些陌生的噪聲級(jí)別時(shí)表現(xiàn)得相當(dāng)不錯(cuò)。特別是當(dāng)模型用更多種類的問題進(jìn)行預(yù)訓(xùn)練時(shí)(12維而不是5維),它對(duì)陌生噪聲級(jí)別的處理能力大幅提升,在最高噪聲級(jí)別上的性能比只用5維預(yù)訓(xùn)練的模型好5.69分貝。

      微調(diào)測試則是指模型在預(yù)訓(xùn)練后,用特定任務(wù)的少量數(shù)據(jù)進(jìn)行微調(diào)。比如,他們用MaskDCPT預(yù)訓(xùn)練的模型,然后在去模糊數(shù)據(jù)集上微調(diào)。結(jié)果顯示,這樣的方法比從零開始訓(xùn)練要好得多,而且比其他預(yù)訓(xùn)練方法也更有效。

      第三類實(shí)驗(yàn):真實(shí)世界的挑戰(zhàn)

      最后,研究團(tuán)隊(duì)測試了模型在真實(shí)世界場景中的表現(xiàn)。真實(shí)世界的圖像問題往往比合成數(shù)據(jù)復(fù)雜得多,因?yàn)樗鼈儼烁鞣N意想不到的因素。他們測試了模型在處理真實(shí)運(yùn)動(dòng)模糊、真實(shí)散焦模糊、真實(shí)雨水、真實(shí)雪、真實(shí)霧霾和真實(shí)低光等問題上的表現(xiàn)。

      結(jié)果令人驚喜。MaskDCPT預(yù)訓(xùn)練的模型在所有這些真實(shí)世界場景中都表現(xiàn)出色,甚至超越了一些專門為這些特定問題設(shè)計(jì)的方法。特別是在低光增強(qiáng)上,它比之前的最好方法提升了顯著的幅度。這說明,通過學(xué)習(xí)識(shí)別問題類型,模型獲得了一種深層的理解,使它能夠很好地泛化到真實(shí)世界的復(fù)雜情況。

      七、為什么這個(gè)方法這么有效

      理解這個(gè)方法為什么這么有效,需要從幾個(gè)角度來看。

      首先,從學(xué)習(xí)的角度來看,識(shí)別問題類型和修復(fù)問題這兩個(gè)任務(wù)是互補(bǔ)的。當(dāng)模型學(xué)會(huì)識(shí)別問題時(shí),它必須理解問題的本質(zhì)特征。這種理解自然而然地幫助它更好地修復(fù)問題。反過來,修復(fù)問題的過程也強(qiáng)化了模型對(duì)問題特征的理解。這就像學(xué)習(xí)一門語言,語法理解和實(shí)際應(yīng)用是相互促進(jìn)的。

      其次,從數(shù)據(jù)的角度來看,掩膜操作(遮擋圖像的一部分)強(qiáng)迫模型學(xué)會(huì)從不完整的信息中提取有用的特征。這種能力對(duì)于處理各種問題的圖像都很有幫助,因?yàn)橛袉栴}的圖像本質(zhì)上就是"不完整"或"損壞"的。通過在預(yù)訓(xùn)練中模擬這種不完整性,模型學(xué)會(huì)了更魯棒的特征表示。

      第三,從架構(gòu)的角度來看,使用多層特征而不是只用最后一層,確保了網(wǎng)絡(luò)的所有部分都得到了充分的訓(xùn)練。這避免了淺層網(wǎng)絡(luò)因?yàn)樘荻认Ф鴽]有得到充分學(xué)習(xí)的問題。

      八、實(shí)際應(yīng)用的意義

      這項(xiàng)研究的實(shí)際意義是深遠(yuǎn)的。首先,它提供了一個(gè)通用的預(yù)訓(xùn)練框架,可以應(yīng)用到各種不同的圖像修復(fù)任務(wù)上。無論是去霧、去雨、去噪還是低光增強(qiáng),同一個(gè)預(yù)訓(xùn)練模型都能提供幫助。這大大降低了開發(fā)新的圖像修復(fù)應(yīng)用的成本。

      其次,它證明了識(shí)別問題類型這個(gè)看似簡單的任務(wù),實(shí)際上是學(xué)習(xí)通用圖像修復(fù)能力的關(guān)鍵。這個(gè)洞察可能會(huì)影響未來圖像修復(fù)研究的方向,鼓勵(lì)研究者更多地關(guān)注問題識(shí)別這個(gè)維度。

      第三,UIR-2.5M數(shù)據(jù)集的發(fā)布為整個(gè)研究社區(qū)提供了一個(gè)寶貴的資源。有了這個(gè)大規(guī)模、多樣化的數(shù)據(jù)集,其他研究者可以更容易地開發(fā)和測試新的圖像修復(fù)方法。

      第四,從實(shí)際應(yīng)用的角度,這個(gè)方法可以用在很多地方。手機(jī)相機(jī)應(yīng)用可以用它來自動(dòng)修復(fù)用戶拍攝的照片。醫(yī)學(xué)影像分析可以用它來改善診斷圖像的質(zhì)量。衛(wèi)星圖像處理可以用它來增強(qiáng)遙感數(shù)據(jù)的清晰度。視頻編輯軟件可以用它來修復(fù)舊視頻。可能性幾乎是無限的。

      九、與其他方法的對(duì)比

      為了更好地理解這個(gè)方法的優(yōu)勢(shì),我們可以看看它與其他方法的對(duì)比。

      一些方法試圖通過使用外部的大型模型來解決通用圖像修復(fù)問題。比如,有些方法使用CLIP(一個(gè)在互聯(lián)網(wǎng)上訓(xùn)練的大型視覺語言模型)來提供額外的信息,或者使用擴(kuò)散模型(一種強(qiáng)大的生成模型)來幫助修復(fù)。這些方法確實(shí)有效,但它們的問題是需要依賴外部的大型模型,這增加了計(jì)算成本和復(fù)雜性。

      MaskDCPT的優(yōu)勢(shì)在于它是自包含的。它不需要依賴任何外部模型,只需要一個(gè)標(biāo)準(zhǔn)的圖像修復(fù)網(wǎng)絡(luò)和一個(gè)簡單的分類頭。這使得它更加輕量級(jí),更容易部署。而且,從實(shí)驗(yàn)結(jié)果來看,即使不依賴外部模型,它的性能也能與那些使用外部模型的方法相媲美,甚至在某些情況下更好。

      與其他預(yù)訓(xùn)練方法的對(duì)比也很有趣。有些預(yù)訓(xùn)練方法只關(guān)注圖像重建(掩膜圖像建模),而忽視了問題識(shí)別。有些則只關(guān)注對(duì)比學(xué)習(xí)。MaskDCPT的創(chuàng)新之處在于它同時(shí)關(guān)注這兩個(gè)方面,而且加入了問題識(shí)別這個(gè)新的維度。從實(shí)驗(yàn)結(jié)果來看,這種綜合的方法確實(shí)比單一的方法更有效。

      十、局限性和未來方向

      雖然這項(xiàng)研究取得了顯著的成果,但研究團(tuán)隊(duì)也坦誠地指出了一些局限性。首先,UIR-2.5M數(shù)據(jù)集雖然很大,但仍然主要關(guān)注全局降質(zhì)問題(影響整個(gè)圖像的問題),而對(duì)局部降質(zhì)問題(如反射、眩光、圖像不完整)的覆蓋還不足。這些局部問題在實(shí)際應(yīng)用中也很常見,但目前的數(shù)據(jù)集還沒有充分覆蓋。

      其次,數(shù)據(jù)集中的真實(shí)數(shù)據(jù)比例相對(duì)較低(只有3%)。雖然合成數(shù)據(jù)很有用,但真實(shí)數(shù)據(jù)往往包含合成數(shù)據(jù)無法復(fù)現(xiàn)的復(fù)雜特性。增加真實(shí)數(shù)據(jù)的比例可能會(huì)進(jìn)一步提升模型的性能。

      第三,某些專業(yè)領(lǐng)域(如人臉修復(fù)、遙感圖像、醫(yī)學(xué)影像、文檔掃描)的數(shù)據(jù)覆蓋還不充分。這些領(lǐng)域有其特殊的特性,需要更多的專門數(shù)據(jù)。

      研究團(tuán)隊(duì)表示,未來的工作將包括擴(kuò)展數(shù)據(jù)集以覆蓋這些領(lǐng)域,增加真實(shí)數(shù)據(jù)的比例,以及探索如何處理局部降質(zhì)問題。他們也計(jì)劃研究如何將這個(gè)方法應(yīng)用到視頻修復(fù)等其他相關(guān)任務(wù)上。

      十一、技術(shù)細(xì)節(jié)的深入理解

      對(duì)于那些想要更深入理解這個(gè)方法的讀者,我們可以討論一些技術(shù)細(xì)節(jié)。

      首先是掩膜策略。研究團(tuán)隊(duì)使用的是補(bǔ)丁級(jí)別的掩膜,而不是像素級(jí)別的掩膜。這意味著他們遮擋的是16×16像素的小塊,而不是單個(gè)像素。為什么這樣做?因?yàn)檠a(bǔ)丁級(jí)別的掩膜更符合圖像修復(fù)的實(shí)際情況。在真實(shí)的圖像問題中,問題通常不是孤立的像素,而是相鄰的像素區(qū)域。通過使用補(bǔ)丁級(jí)別的掩膜,模型學(xué)會(huì)了處理這種區(qū)域級(jí)別的問題。

      其次是特征提取策略。研究團(tuán)隊(duì)不是只用網(wǎng)絡(luò)最后一層的特征,而是從網(wǎng)絡(luò)后半部分的每一層都提取特征。這有兩個(gè)好處。一是確保了網(wǎng)絡(luò)的所有部分都得到了充分的訓(xùn)練。二是提供了多尺度的特征,這對(duì)于處理不同大小的圖像問題很有幫助。

      第三是損失函數(shù)的設(shè)計(jì)。分類任務(wù)使用焦點(diǎn)損失,這是一個(gè)特殊的損失函數(shù),能夠處理數(shù)據(jù)不平衡的問題。修復(fù)任務(wù)使用L1損失(絕對(duì)值誤差),這比L2損失(平方誤差)對(duì)異常值更魯棒。這兩個(gè)損失函數(shù)的組合確保了模型既能學(xué)會(huì)分類,也能學(xué)會(huì)修復(fù)。

      十二、對(duì)圖像修復(fù)領(lǐng)域的影響

      這項(xiàng)研究對(duì)圖像修復(fù)領(lǐng)域的影響是深遠(yuǎn)的。它改變了研究者對(duì)通用圖像修復(fù)的理解。過去,研究者往往認(rèn)為通用圖像修復(fù)主要是一個(gè)修復(fù)問題,需要設(shè)計(jì)復(fù)雜的網(wǎng)絡(luò)架構(gòu)或使用外部的大型模型。這項(xiàng)研究表明,問題識(shí)別這個(gè)看似簡單的任務(wù)實(shí)際上是關(guān)鍵。通過讓模型學(xué)會(huì)識(shí)別問題,它自然而然地學(xué)會(huì)了如何修復(fù)問題。

      這個(gè)洞察可能會(huì)激發(fā)一系列后續(xù)研究。研究者可能會(huì)探索其他方式來增強(qiáng)模型的問題識(shí)別能力,或者研究如何將問題識(shí)別與其他任務(wù)結(jié)合起來。這項(xiàng)研究也可能影響其他計(jì)算機(jī)視覺任務(wù)的研究,因?yàn)閱栴}識(shí)別的思想可以推廣到其他需要理解圖像缺陷的任務(wù)上。

      從工業(yè)應(yīng)用的角度,這項(xiàng)研究為開發(fā)更好的圖像處理工具提供了一個(gè)新的方向。手機(jī)制造商可以使用這個(gè)方法來改善他們的相機(jī)應(yīng)用。社交媒體平臺(tái)可以使用它來自動(dòng)改善用戶上傳的照片質(zhì)量。醫(yī)療設(shè)備制造商可以使用它來改善醫(yī)學(xué)影像的質(zhì)量。可能性是無限的。

      十三、與人工智能發(fā)展的關(guān)系

      這項(xiàng)研究也反映了當(dāng)代人工智能研究的一些重要趨勢(shì)。首先是預(yù)訓(xùn)練的重要性。在過去幾年,預(yù)訓(xùn)練已經(jīng)成為深度學(xué)習(xí)的一個(gè)標(biāo)準(zhǔn)做法。從GPT到BERT再到Vision Transformer,預(yù)訓(xùn)練都扮演了關(guān)鍵角色。這項(xiàng)研究進(jìn)一步證實(shí)了預(yù)訓(xùn)練對(duì)于提升模型性能的重要性。

      其次是多任務(wù)學(xué)習(xí)的價(jià)值。這項(xiàng)研究表明,通過同時(shí)學(xué)習(xí)多個(gè)相關(guān)的任務(wù)(分類、重建、修復(fù)),模型能夠?qū)W到更好的通用表示。這與最近多任務(wù)學(xué)習(xí)研究的發(fā)現(xiàn)一致。

      第三是數(shù)據(jù)的重要性。雖然這項(xiàng)研究提出了一個(gè)新的方法,但它的成功也離不開一個(gè)大規(guī)模、高質(zhì)量的數(shù)據(jù)集。這反映了當(dāng)代深度學(xué)習(xí)的一個(gè)現(xiàn)實(shí):好的數(shù)據(jù)往往和好的算法一樣重要,甚至更重要。

      Q&A

      Q1:MaskDCPT是什么?它和傳統(tǒng)的圖像修復(fù)方法有什么區(qū)別?
      A:MaskDCPT是北京大學(xué)團(tuán)隊(duì)提出的一種新的圖像修復(fù)預(yù)訓(xùn)練方法。傳統(tǒng)方法通常需要針對(duì)每種圖像問題(如去雨、去霧)單獨(dú)訓(xùn)練一個(gè)模型,而MaskDCPT通過讓模型同時(shí)學(xué)習(xí)識(shí)別問題類型和修復(fù)問題,訓(xùn)練出一個(gè)能處理多種問題的通用模型。它的核心創(chuàng)新是發(fā)現(xiàn)了問題識(shí)別和圖像修復(fù)這兩個(gè)任務(wù)是互相促進(jìn)的。

      Q2:為什么掩膜(遮擋圖像的一部分)能幫助模型學(xué)得更好?
      A:掩膜操作強(qiáng)迫模型從不完整的信息中學(xué)會(huì)提取有用特征。這與真實(shí)的圖像問題很相似,因?yàn)橛袉栴}的圖像本質(zhì)上就是"損壞"或"不完整"的。通過在預(yù)訓(xùn)練中模擬這種不完整性,模型學(xué)會(huì)了更魯棒的特征表示,能更好地處理各種真實(shí)世界的圖像問題。

      Q3:UIR-2.5M數(shù)據(jù)集包含哪些內(nèi)容?為什么需要這么大的數(shù)據(jù)集?
      A:UIR-2.5M包含250萬對(duì)圖像,涵蓋19種圖像問題類型和200多個(gè)嚴(yán)重程度級(jí)別。大規(guī)模數(shù)據(jù)集的好處是讓模型能夠?qū)W到更通用的特征,能夠更好地泛化到未見過的問題類型和嚴(yán)重程度。同時(shí),多樣化的數(shù)據(jù)集確保了模型不會(huì)過度擬合到某一種特定的問題。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      馮忠華看望高祀仁、黃華華、朱小丹、林樹森、張廣寧等老同志

      馮忠華看望高祀仁、黃華華、朱小丹、林樹森、張廣寧等老同志

      新京報(bào)政事兒
      2025-12-27 21:39:39
      俄羅斯戰(zhàn)略專家:只有日本知道,中國綜合國力強(qiáng)大到了什么程度

      俄羅斯戰(zhàn)略專家:只有日本知道,中國綜合國力強(qiáng)大到了什么程度

      農(nóng)夫史記
      2025-12-27 20:04:36
      重要決策,記者:快船正權(quán)衡在交易截止日前進(jìn)行拆隊(duì)還是引援

      重要決策,記者:快船正權(quán)衡在交易截止日前進(jìn)行拆隊(duì)還是引援

      懂球帝
      2025-12-27 13:49:28
      7歲女兒交給老師畫的第一張全家福,畫里爸爸沒有臉,老師果斷報(bào)警

      7歲女兒交給老師畫的第一張全家福,畫里爸爸沒有臉,老師果斷報(bào)警

      罪案洞察者
      2025-12-02 11:25:59
      一邊喊中國“真朋友”,一邊抱特朗普大腿,普京盟友翻臉比翻書快

      一邊喊中國“真朋友”,一邊抱特朗普大腿,普京盟友翻臉比翻書快

      胡麒牧博士
      2025-12-27 20:10:13
      濟(jì)南地鐵三線齊發(fā),市委書記等領(lǐng)導(dǎo)與市民代表共乘地鐵調(diào)研

      濟(jì)南地鐵三線齊發(fā),市委書記等領(lǐng)導(dǎo)與市民代表共乘地鐵調(diào)研

      澎湃新聞
      2025-12-27 20:28:27
      黃正問父親黃永勝:誰是你最好的上級(jí)?他說了三個(gè)名字沒有林彪

      黃正問父親黃永勝:誰是你最好的上級(jí)?他說了三個(gè)名字沒有林彪

      冰雅憶史
      2025-12-26 10:18:01
      斯普利特談楊瀚森:需要保持耐心,我清楚整個(gè)中國都在關(guān)注他

      斯普利特談楊瀚森:需要保持耐心,我清楚整個(gè)中國都在關(guān)注他

      懂球帝
      2025-12-27 15:39:03
      40歲拒絕過戶學(xué)區(qū)房給侄子,丈夫大罵,看到一張紙條他閉嘴了

      40歲拒絕過戶學(xué)區(qū)房給侄子,丈夫大罵,看到一張紙條他閉嘴了

      木子言故事
      2025-12-27 10:08:18
      回頭看10年前南博的龐萊臣名畫展,格外諷刺

      回頭看10年前南博的龐萊臣名畫展,格外諷刺

      亮見
      2025-12-25 15:05:31
      房山的房價(jià),徹底瘋了!

      房山的房價(jià),徹底瘋了!

      童童聊娛樂啊
      2025-12-27 15:06:16
      A股:剛剛,中央兩部門發(fā)布,信號(hào)很明確,下周將迎更大級(jí)別變盤

      A股:剛剛,中央兩部門發(fā)布,信號(hào)很明確,下周將迎更大級(jí)別變盤

      阿纂看事
      2025-12-27 17:14:43
      勇士隊(duì)已詢價(jià)小波特!美媒曬5換2交易方案:打包賣庫明加+首輪簽

      勇士隊(duì)已詢價(jià)小波特!美媒曬5換2交易方案:打包賣庫明加+首輪簽

      鍋?zhàn)踊@球
      2025-12-27 14:47:17
      廣東宏遠(yuǎn)沖擊7連勝!全力擊敗山西,胡明軒復(fù)出,央視直播

      廣東宏遠(yuǎn)沖擊7連勝!全力擊敗山西,胡明軒復(fù)出,央視直播

      體壇瞎白話
      2025-12-27 17:00:13
      年?duì)I收300萬,28個(gè)員工,最后利潤8萬塊:這就是最真實(shí)小老板!

      年?duì)I收300萬,28個(gè)員工,最后利潤8萬塊:這就是最真實(shí)小老板!

      熊林老師
      2025-11-17 18:00:03
      1976年毛主席逝世后,派誰空降上海?葉劍英擲地有聲:我提議一人

      1976年毛主席逝世后,派誰空降上海?葉劍英擲地有聲:我提議一人

      春秋硯
      2025-12-20 08:55:09
      Shams:湖人后衛(wèi)里夫斯左腿腓腸肌二級(jí)拉傷,將在四周后復(fù)查

      Shams:湖人后衛(wèi)里夫斯左腿腓腸肌二級(jí)拉傷,將在四周后復(fù)查

      懂球帝
      2025-12-27 10:26:34
      超級(jí)大冷,王欣瑜6-2、6-3橫掃世界第2,第5次擊敗前10,笑容超美

      超級(jí)大冷,王欣瑜6-2、6-3橫掃世界第2,第5次擊敗前10,笑容超美

      郝小小看體育
      2025-12-27 13:30:30
      全球第一,清華高考狀元要IPO

      全球第一,清華高考狀元要IPO

      投資家
      2025-12-27 21:20:58
      哭窮炫富,“知三當(dāng)三”,裝了10年的吉克雋逸,還是“自食惡果”

      哭窮炫富,“知三當(dāng)三”,裝了10年的吉克雋逸,還是“自食惡果”

      顧史
      2025-12-12 14:59:24
      2025-12-27 22:20:49
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      6680文章數(shù) 544關(guān)注度
      往期回顧 全部

      科技要聞

      小米也漲價(jià)了!業(yè)界稱終端再不漲明年必虧

      頭條要聞

      美媒:特朗普顯然觸及了中國的紅線 中方怒了

      頭條要聞

      美媒:特朗普顯然觸及了中國的紅線 中方怒了

      體育要聞

      NBA教練圈的布朗尼,花了22年證明自己

      娛樂要聞

      張昊唯逃稅涉黃風(fēng)波落幕:法院認(rèn)定朋友造謠

      財(cái)經(jīng)要聞

      注意,開始拉物價(jià)了!

      汽車要聞

      好音響比大屏更重要?車企開始“聽”用戶的

      態(tài)度原創(chuàng)

      房產(chǎn)
      旅游
      教育
      本地
      數(shù)碼

      房產(chǎn)要聞

      年銷20億+!中交·藍(lán)色港灣用好房子致敬好生活

      旅游要聞

      喜迎2026跨年樂享會(huì):文旅康養(yǎng)共生 奏響時(shí)代華章

      教育要聞

      30號(hào)展播!廣州市“Fun學(xué)英語”系列活動(dòng)之“讀者劇場”展評(píng)活動(dòng)|AI+教師發(fā)展公益行·廣州站

      本地新聞

      云游安徽|踏訪池州,讀懂山水間的萬年史書

      數(shù)碼要聞

      全國首個(gè)AMD ROCm on Radeon開源生態(tài)智算中心在無錫正式點(diǎn)亮

      無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: www.色小在线精品| 免费看一区二区三区四区| 1024国产视频| 91资源总站| 少妇人妻大乳在线视频| 粗大猛烈进出高潮视频| 亚洲一区二区在线无码| 久久精品99久久久久久久久| 梨树县| 午夜福利啪啪片| 午夜性无码专区| 66久久| 长阳| 广灵县| 91视频免费观看| 少妇大叫太大太爽受不了| 成人综合精品| 承德县| 精品国模一区二区三区| 丁香六月婷婷| 欧美老熟妇精品| 亚洲国产精品成人综合色五月| 末发育娇小性色xxxxx视频| 免费观看在线A级毛片| 无码人妻精品一区二区三区温州| 亚洲国产资源| 麻豆 美女 丝袜 人妻 中文| 久久青草国产精品一区| 丰满人妻翻云覆雨呻吟| 成人无码www在线看免费| 无码专区人妻系列日韩精品| 久操资源站| 丝袜A片午夜www丝袜| 天堂色综合| 亚洲成av人片一区二区| 综合色天天久久| 久久无码一区| 免费一区二区无码东京热| 91婷婷| 日本无码一区二区| 亚洲AV电影在线观看|