![]()
在藝術學習的世界里,最讓人著迷的莫過于能夠親眼目睹一幅畫作從空白畫布到完成作品的整個創作過程。然而,傳統的繪畫教程視頻往往存在諸多局限:缺乏互動性、無法個性化定制,更重要的是,現有的人工智能模型在生成繪畫過程時經常出現時間不連貫、結構跳躍等問題,難以真實還原人類藝術家的創作流程。
這項由意大利特倫托大學的馬庫斯·波比策爾(Markus Pobitzer)、常柳(Chang Liu)、莊晨逸(Chenyi Zhuang)、龍騰(Teng Long)、任斌(Bin Ren)以及尼庫·塞貝(Nicu Sebe)領導的研究團隊,于2025年11月發表在arXiv預印本平臺(編號arXiv:2511.17344v1)的論文,為這一難題提供了令人驚艷的解決方案。他們開發的"Loomis Painter"系統,能夠將任何輸入圖片重構成一個完整的繪畫過程視頻,就像時光倒流一般,讓我們看到這幅畫是如何一筆一畫創作出來的。有興趣深入了解的讀者可以通過論文編號arXiv:2511.17344v1在arXiv平臺查詢完整論文。
這項技術的神奇之處在于,它不僅能忠實地重現原始繪畫過程,還能將同一幅圖片轉換成不同藝術媒介的繪畫過程。無論是油畫的層層疊疊、鉛筆素描的逐步深入,還是丙烯畫的色彩漸變,系統都能準確模擬出相應的繪畫技法和時序特征。更令人驚嘆的是,該系統還能夠實現著名的盧米斯(Loomis)肖像繪畫方法,這是一種經典的人像繪畫技法,強調正確的比例和結構性繪畫方法。
研究團隊的創新核心是一個統一的多媒介繪畫過程生成框架,結合了語義驅動的風格控制機制。這個框架能夠將多種藝術媒介嵌入到擴散模型的條件空間中,通過跨媒介風格增強技術,實現一致的紋理演化和跨風格的過程轉換。同時,他們提出的"逆向繪畫"訓練策略確保了生成過程的平滑性和人類繪畫習慣的一致性。
為了訓練這個系統,研究團隊構建了一個大規模的真實繪畫過程數據集,并在跨媒介一致性、時間連貫性和最終圖像保真度方面進行了全面評估。他們在LPIPS、DINO和CLIP等評估指標上都取得了優異的表現。此外,團隊還提出了一種全新的評估方法——感知距離輪廓(PDP)曲線,能夠定量地模擬創作序列,包括構圖、色彩鋪設和細節精修等人類藝術創作的典型階段。
### 一、傳統繪畫教學的困境與AI繪畫生成的挑戰
當我們想要學習繪畫技巧時,最直接的方法就是觀看繪畫教程。就像學做菜需要看廚師的每一個步驟一樣,學畫畫也需要看到藝術家的每一筆是如何落在畫布上的。然而,現有的繪畫教學資源存在著明顯的局限性。
傳統的書籍教程就像靜態的照片菜譜,只能展示最終成果,卻無法顯示動態的制作過程。而YouTube上的繪畫視頻雖然能展示完整過程,但就像單向播放的錄像一樣,缺乏互動性和個性化指導。更關鍵的是,這些視頻往往無法針對不同的輸入圖片提供相應的繪畫過程演示。
近年來,人工智能在藝術圖像合成方面取得了顯著進展,但在過程級建模方面仍然面臨重大挑戰。現有的生成模型在創建繪畫序列時,經常出現時間不連續、結構跳躍以及跨藝術媒介泛化能力差等問題。這就好比一個機器人廚師能做出美味的菜肴,但在制作過程中會突然跳過某些步驟,或者無法適應不同的烹飪方式。
具體來說,當前的繪畫生成方法主要分為兩類。第一類是神經繪畫方法,比如Paint Transformer,這些方法將繪畫視為一個參數化渲染問題,通過前饋架構逐步生成筆觸參數。然而,這種方法合成的筆觸序列往往偏離真實藝術家的構圖方式,就像一個從未學過正統烹飪的人試圖模仿大廚的手法,形似而神不似。
第二類是像素級生成方法,直接在像素層面合成繪畫序列。早期的方法如Inverse Painting采用自回歸的三階段流程,通過與參考圖像比較中間幀、遮罩下一個操作區域并通過擴散更新像素來重構繪畫工作流。更近期的ProcessPainter利用圖像擴散模型生成繪畫過程,但主要使用合成數據進行訓練。PaintsUndo專注于重現動漫風格繪畫的繪畫過程,而PaintsAlter將這一想法擴展到視頻擴散,以實現更連續的進展。
盡管這些方法取得了一定進展,但它們在處理多樣化藝術媒介時仍然存在明顯不足。就像一位只會做中餐的廚師突然要做法餐一樣,現有方法往往無法很好地適應不同的繪畫風格和技法特征。
### 二、Loomis Painter的核心創新:逆向思維重構繪畫過程
面對這些挑戰,特倫托大學的研究團隊提出了一個極具創新性的解決方案。他們的核心洞察是:與其試圖預測下一筆畫什么,不如學會如何"撤銷"上一筆。這種逆向思維就像學習拆解一臺精密機器一樣,通過理解每個部件是如何安裝的,我們就能掌握整個組裝過程。
傳統的繪畫生成方法采用前向預測,就像試圖預測故事的下一個情節發展。這種方法的問題在于,繪畫創作具有高度的不確定性和創造性,下一筆的位置和顏色可能有無數種選擇。而Loomis Painter采用的逆向學習策略,則是從完成的畫作開始,逐步學習如何回到空白畫布。這種方法的優勢在于,每一步的目標都是明確的:如何移除當前的一部分內容來接近前一個階段。
這種逆向訓練策略解決了兩個關鍵問題。首先,現有的圖像到視頻模型通常被訓練為在初始幀重構輸入圖像,這在我們的情況下對應于完成的繪畫。如果要先生成空白畫布,就需要大量重新訓練來覆蓋這種默認行為。其次,輸入圖像的時序位置與生成過程存在錯位。在視頻擴散模型中,圖像通常放在第一個時間位置,但這與漸進式繪畫軌跡的期望序列不匹配。
通過時序反轉,研究團隊巧妙地重新組織了時序監督,實現了更平滑的過程建模。給定一個從空畫布到完成作品的原始繪畫視頻,他們構建其反轉序列。這種反轉自然引入了單調的"細節移除"過程:高頻紋理逐漸消失,色彩區域簡化為粗糙的結構塊,底層構圖變得越來越突出。
### 三、跨媒介藝術風格的統一建模
Loomis Painter的另一個重要創新是實現了跨媒介藝術風格的統一建模。這就像培養一位多才多藝的藝術家,不僅要會油畫,還要精通素描、水彩等各種技法,更重要的是要理解不同媒介之間的內在聯系。
為了實現媒介感知的過程控制,研究團隊引入了一種語義條件機制,將文本媒介屬性整合到時序生成過程中,并將它們與跨媒介的一致結構線索對齊。具體來說,給定藝術媒介的文本描述(如"油畫"、"鉛筆素描")和場景描述,系統構建一個組合語義提示,預訓練的文本編碼器將其轉換為語義嵌入,作為生成模型的條件向量。
在擴散過程中,這個條件信息通過交叉注意力機制注入,允許媒介語義直接影響每個時間步的潛在特征時序演化。這種嵌入驅動風格特征和程序特征:例如,模型學習油畫中的顏色分層行為或鉛筆素描中的漸進填充圖案,使得能夠合成媒介適當的工作流程。
為了實現任意輸入圖像到相應藝術媒介的轉換,團隊提出了跨媒介訓練策略。他們對給定圖像應用風格變換以獲得變體,保留物體和語義的同時移除原始藝術媒介的身份特征。這種策略讓模型接觸到不同風格下一致的形狀、輪廓和空間關系,使其能夠學習這些元素如何映射到目標藝術媒介。每個物體隨時間逐步渲染,模擬自然的繪畫過程。
### 四、大規模真實繪畫數據集的構建
要訓練出高質量的繪畫過程生成模型,就像培養一位優秀的藝術家一樣,需要大量真實的繪畫過程數據作為"教材"。然而,從原始教程視頻中提取高質量的繪畫過程數據面臨著諸多挑戰,最主要的問題是畫家的手部、畫筆等物體會遮擋畫布,影響模型學習真正的筆觸變化。
研究團隊開發了一套完整的數據處理流水線來解決這些問題。這個過程就像一位專業的視頻編輯師,需要精確地識別并移除所有不必要的干擾元素,同時保留繪畫過程的核心信息。
首先,系統會自動檢測視頻中的起始和結束幀,通過識別"手"的首次和最后出現來隔離核心繪畫過程,這就像在一部電影中找到正片的開始和結束一樣。接下來,對于畫布定位,系統使用零樣本目標檢測技術查詢"畫布"。對于分屏教程(如盧米斯肖像教程,通常在左側顯示參考照片,右側顯示畫布),系統會計算水平強度梯度并在梯度最大的列處分割圖像,有效分離畫布區域。
處理遮擋問題時,系統將修剪后的視頻分割成多個時間段,從每段中采樣一定數量的幀。然后使用先進的分割模型檢測遮擋物(如手部、畫筆),通過計算采樣幀的遮罩中位數生成每段的干凈幀。這種計算會迭代地包含前段的中位數幀來填充持續遮擋的區域,最初以空白白色畫布初始化。
最后,在后處理階段,系統會檢測并移除標志和文字疊加,確保最終的訓練數據純凈無干擾。整個流水線在NVIDIA RTX A4000 GPU上能夠接近實時地處理分辨率為640x360像素的視頻,實現了高效的數據集策劃。
通過這套流水線,研究團隊策劃了一個包含767個繪畫教程視頻的大規模數據集,涵蓋丙烯畫、油畫、鉛筆畫和盧米斯肖像等多種藝術媒介。其中丙烯畫子集包含81個寫實丙烯風景畫教程,強調濕畫濕法混合和分層等技法;油畫子集收集了151個油畫教程,包括142個印象派風景畫和9個寫實繪畫;鉛筆子集包含270個鉛筆和28個彩色鉛筆教程;盧米斯肖像子集包含207個遵循安德魯·盧米斯比例方法的肖像教程。
### 五、創新評估體系:感知距離輪廓曲線
評估繪畫過程的質量不能僅僅依靠傳統的圖像質量指標,就像評價一部電影不能只看最后一幀的畫面質量一樣。繪畫過程的評估需要考慮整個創作序列的合理性、時間連貫性以及是否符合人類藝術家的創作習慣。
為此,研究團隊提出了一個全新的評估指標——感知距離輪廓(Perceptual Distance Profile, PDP)。這個指標的核心思想是通過測量視頻中每一幀與最終完成作品之間的感知距離,來構建一條描述創作進程的曲線。
PDP的工作原理就像記錄一位藝術家的創作節奏一樣。在繪畫開始時,空白畫布與最終作品的差異最大,隨著繪畫進程的推進,這種差異逐步縮小,直到作品完成。真實的人類繪畫過程通常遵循一個特定的模式:開始時進展較快(建立基本構圖),然后穩步推進(添加主要色彩和形狀),最后階段進展放緩(精細化細節)。
通過比較生成視頻和真實繪畫過程的PDP曲線,可以量化評估生成的繪畫過程是否符合人類的創作規律。這種評估方法的優勢在于它不要求兩個視頻具有相同的幀數,因為曲線會被插值到統一的時間軸上進行比較。
實驗結果表明,研究團隊的方法在所有評估指標上都取得了最佳性能。在傳統的LPIPS、CLIP和DINOv2指標上,Loomis Painter顯著優于現有的基線方法,包括Inverse Painting、ProcessPainter和PaintsUndo。更重要的是,在PDP評估中,該方法生成的繪畫過程曲線與真實人類繪畫過程高度吻合,證明了其在模擬真實藝術創作流程方面的優越性。
### 六、廣泛的應用前景與實際效果
Loomis Painter的應用前景極其廣闊,就像一把萬能鑰匙,能夠打開藝術教育、內容創作、數字媒體等多個領域的新大門。在藝術教育方面,這項技術能夠為任何參考圖片生成對應的繪畫教程,讓學習者能夠看到具體的創作步驟。無論是想要學習如何畫一只兔子、一座城堡,還是一幅肖像,系統都能提供詳細的逐步指導。
在內容創作領域,這項技術為視頻制作者和藝術博主提供了全新的創作可能。他們可以使用現有的藝術作品生成對應的繪畫過程視頻,而無需實際完成整個繪畫過程。這大大降低了教學內容制作的門檻和時間成本。
系統的多媒介支持能力使其能夠滿足不同學習者的需求和偏好。有些人可能更喜歡鉛筆素描的簡潔明了,有些人則偏愛油畫的豐富層次,還有人對丙烯畫的明快色彩情有獨鐘。Loomis Painter能夠將同一幅參考圖片轉換成不同藝術媒介的繪畫過程,為學習者提供多樣化的學習體驗。
特別值得一提的是盧米斯肖像方法的實現。這是一種經典的人像繪畫技法,由安德魯·盧米斯開發,強調正確的比例和結構性方法。該技術能夠將任何人像照片轉換成盧米斯風格的素描過程,展示如何將頭部分割成區域以便于結構化繪畫。盡管主要在人臉上訓練,但模型表現出了強大的泛化能力,甚至能夠擴展到動物頭部的繪制。
在實際測試中,系統展現出了令人印象深刻的效果。當輸入一張兔子的圖片時,系統能夠生成完整的素描過程,從最初的輪廓勾勒到逐步添加細節,整個過程自然流暢,符合真實藝術家的繪畫習慣。對于復雜的風景畫,系統同樣能夠準確地模擬出從構圖建立、色彩鋪設到細節精修的完整流程。
### 七、技術挑戰與未來改進方向
盡管Loomis Painter取得了顯著成果,但研究團隊也誠實地指出了當前技術的一些局限性。這些限制就像新技術發展路上的里程碑,標志著未來努力的方向。
數據處理方面仍有改進空間。目前的遮擋檢測系統無法檢測手部陰影,導致訓練數據中出現暗色偽影,這在鉛筆畫生成中尤為明顯,通常表現為右下區域的陰影。這個問題的根源在于,陰影是光影效果而非物理遮擋,現有的分割模型難以準確識別和處理。
模型的訓練數據分布也帶來了一些局限。基礎模型在肖像繪制方面存在困難,因為訓練期間很少接觸肖像類內容。在某些情況下,模型會試圖在繪畫過程中移動人物頭部,這顯然不符合正常的繪畫邏輯。不過,藝術媒介轉換模型通過在盧米斯肖像照片上的微調解決了這個問題。
跨媒介生成的局限性也值得注意。當生成訓練期間未見過的內容和藝術媒介組合時,藝術媒介模型有時會失效。例如,將盧米斯方法應用于非肖像繪畫,或者對人像使用丙烯畫方法(因為該方法主要在風景畫上訓練)時,效果可能不夠理想。
數據集的媒介分布也存在偏差,主要偏向鉛筆類繪畫序列,彩色工作流程的樣本相對較少。藝術家的多樣性也有限,且許多教程包含過度的相機移動、縮放和遮擋,這些都會影響時序一致性。
未來的改進方向已經有了明確的輪廓。研究團隊指出,要全面支持人類藝術家的繪畫之旅,僅僅展示逐步序列是不夠的。理解繪畫過程還需要指示選擇了哪些顏色、如何混合、使用了什么工具(鉛筆或畫筆),以及如何在畫布上應用它們。這些更精細的控制信息將是下一階段研究的重點。
此外,擴大數據集的規模和多樣性,改進遮擋檢測算法以處理陰影等復雜情況,以及增強模型對不同藝術風格組合的適應能力,都是值得探索的發展方向。隨著技術的不斷完善,我們有理由相信,Loomis Painter將為藝術教育和創作領域帶來更加革命性的變化。
說到底,Loomis Painter代表著人工智能與藝術教育結合的一次重要突破。它不僅解決了傳統繪畫教學中的諸多痛點,還開辟了全新的藝術學習和創作可能性。雖然目前仍有一些技術挑戰需要克服,但這項研究已經為我們展示了一個令人興奮的未來圖景:在不久的將來,任何人都可能擁有一位私人繪畫導師,能夠針對任何想要學習的圖片提供詳細的、個性化的繪畫指導。這種技術的普及將極大地降低藝術學習的門檻,讓更多人能夠享受繪畫的樂趣并掌握這門古老而美麗的藝術形式。
Q&A
Q1:Loomis Painter是什么?
A:Loomis Painter是由意大利特倫托大學開發的AI繪畫過程生成系統,能夠將任何輸入圖片重構成完整的繪畫過程視頻,就像看到畫家一筆一筆完成作品的全過程。它不僅能忠實重現原始繪畫過程,還能將同一幅圖轉換成油畫、素描、丙烯畫等不同藝術媒介的繪畫流程。
Q2:這個技術跟現有的AI繪畫工具有什么區別?
A:與現有AI繪畫工具最大的不同是,Loomis Painter專注于生成繪畫"過程"而不是靜態結果。它采用創新的"逆向繪畫"策略,從完成作品倒推到空白畫布,避免了傳統方法中常見的時間跳躍和結構不連貫問題。同時支持多種藝術媒介轉換,能真實模擬不同繪畫技法的特色流程。
Q3:普通人可以用Loomis Painter學畫畫嗎?
A:理論上是可以的,這正是該技術的主要應用前景。用戶只需輸入一張想要學習繪制的圖片,系統就能生成對應的逐步繪畫教程,展示從構圖到細節的完整創作過程。不過目前這還是實驗室階段的研究成果,尚未開發成普通用戶可直接使用的產品。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.